Подржано учење (енгл. reinforcement learning – RL) подручје је машинског учења и оптималне контроле које се бави тиме како би интелигентни агенти требали одабрати акције у окружењу како би максимизовали појам кумулативне награде. Подржано учење једно је од три основне парадигме машинског учења, уз надзирано учење и ненадзирано учење.

Типични сценарио у подржаном учењу: агент предузима акције у окружењу, што се тумачи као награда и репрезентација стања, што се враћа назад агенту.

Подржано учење се разликује од надзираног учења по томе што не захтева приказивање означених улазно/излазних парова, као ни обавезно исправљање субоптималних акција. Уместо тога, фокус је на проналажењу равнотеже између истраживања (непознатих подручја) и искориштавања (тренутног знања).[1] Окружење се обично изражава у облику Марковљевог процеса одлучивања (МДП) јер многи алгоритми подржаног учења у овом контексту користе технике динамичког програмирања.[2]

Главна разлика између класичних метода динамичког програмирања и алгоритама подржаног учења је да подржано учење не претпоставља познавање тачног математичког модела МДП-а и да циља на велике МДП-ове за које тачне методе постају немогуће.[3]

Формализација проблема уреди

Залеђина уреди

Подржано учење се углавном дефинише као Марковљев процес одлучивања назван по руском математичару Маркову. Модел је конципиран као скуп стања која поседују све информације о систему односно околини које моделују. Свако од стања омогућује што прецизније предвиђање последица сваке изведене радње. МДП се формално записује као четверац  , при чему је:

  •  : множина свих могућих стања.
  •  : множина свих могућих радњи у сваком стању.  
  •  : вероватноћа прелаза у стање  , под претпоставком да се налазимо у стању   и да је извршена радња  .
  •  : награда / казна

Стратегија уреди

Циљ поступка је пронаћи стратегију понашања (полицy) π:  , која за свако стање  [4]:61 и акцију   максимизира очекивану будућу награду. Стратегија се може мењати током учења зависно од количине добијених награда.

Постоји неколико опција за одабир акције, на пример:

  • похлепна: увек ће бити изабрана најбоља акција -  
  • ε-похлепна: углавном ће бити изабрана најбоља акција, повремено са вероватноћом ε биће одабрана и насумична акција

Вредност функције уреди

Постоје две сличне варијанте вредности функције

  • Функције вредности стања   (стате валуе фунцтион)
  • Функције вредности прелаза између стања   (стате-ацтион валуе фунцтион)

Функције вредности дефиниране су као алат за тражење максималне суме свих очекиваних награда помоћу следећег алгоритма:

  • Чекај награду у будућности с фактором умањења γ:
    • Уважавајући стања  :  
    • Уважавајући прелазе између стања  :  

Види још уреди

Референце уреди

  1. ^ Каелблинг, Леслие П.; Литтман, Мицхаел L.; Мооре, Андреw W. (1996). „Реинфорцемент Леарнинг: А Сурвеy”. Јоурнал оф Артифициал Интеллигенце Ресеарцх. 4: 237—285. С2ЦИД 1708582. арXив:цс/9605103 . дои:10.1613/јаир.301. Архивирано из оригинала 20. 11. 2001. г. 
  2. ^ ван Оттерло, M.; Wиеринг, M. (2012). Реинфорцемент леарнинг анд марков децисион процессес. Реинфорцемент Леарнинг. Адаптатион, Леарнинг, анд Оптимизатион. 12. стр. 3—42. ИСБН 978-3-642-27644-6. дои:10.1007/978-3-642-27645-3_1. 
  3. ^ Ли, Схенгбо (2023). Реинфорцемент Леарнинг фор Сеqуентиал Децисион анд Оптимал Цонтрол (Фирст изд.). Спрингер Верлаг, Сингапоре. стр. 1—460. ИСБН 978-9-811-97783-1. С2ЦИД 257928563. дои:10.1007/978-981-19-7784-8. 
  4. ^ „Реинфорцемент леарнинг: Ан интродуцтион” (ПДФ). Архивирано из оригинала (ПДФ) 12. 7. 2017. г. Приступљено 2. 4. 2023. 

Литература уреди

Спољашње везе уреди