Подржано учење

Подржано учење (енгл. reinforcement learning – RL) подручје је машинског учења и оптималне контроле које се бави тиме како би интелигентни агенти требали одабрати акције у окружењу како би максимизовали појам кумулативне награде. Подржано учење једно је од три основне парадигме машинског учења, уз надзирано учење и ненадзирано учење.

Подржано учење се разликује од надзираног учења по томе што не захтева приказивање означених улазно/излазних парова, као ни обавезно исправљање субоптималних акција. Уместо тога, фокус је на проналажењу равнотеже између истраживања (непознатих подручја) и искориштавања (тренутног знања).^[1] Окружење се обично изражава у облику Марковљевог процеса одлучивања (МДП) јер многи алгоритми подржаног учења у овом контексту користе технике динамичког програмирања.^[2]

Главна разлика између класичних метода динамичког програмирања и алгоритама подржаног учења је да подржано учење не претпоставља познавање тачног математичког модела МДП-а и да циља на велике МДП-ове за које тачне методе постају немогуће.^[3]

Формализација проблема

Залеђина

Подржано учење се углавном дефинише као Марковљев процес одлучивања назван по руском математичару Маркову. Модел је конципиран као скуп стања која поседују све информације о систему односно околини које моделују. Свако од стања омогућује што прецизније предвиђање последица сваке изведене радње. МДП се формално записује као четверац $(S,A(s),P(s'|s,a),R(s,s',a))$ , при чему је:

$S$ : множина свих могућих стања.
$A(s)$ : множина свих могућих радњи у сваком стању. $s\in S$
$P(s'|s,a)$ : вероватноћа прелаза у стање $s'$ , под претпоставком да се налазимо у стању $s$ и да је извршена радња $a\in A(s)$ .
$R(s,s',a)$ : награда / казна

Стратегија

Циљ поступка је пронаћи стратегију понашања (полицy) π: $s\in S\rightarrow a\in A(s)$ , која за свако стање $s$ ^[4]^‍:61 и акцију $a$ максимизира очекивану будућу награду. Стратегија се може мењати током учења зависно од количине добијених награда.

Постоји неколико опција за одабир акције, на пример:

похлепна: увек ће бити изабрана најбоља акција - $\pi (s)=\arg \max _{a}Q(s,a)$
ε-похлепна: углавном ће бити изабрана најбоља акција, повремено са вероватноћом ε биће одабрана и насумична акција

Вредност функције

Постоје две сличне варијанте вредности функције

Функције вредности стања $V(s)$ (стате валуе фунцтион)
Функције вредности прелаза између стања $Q(s,a)$ (стате-ацтион валуе фунцтион)

Функције вредности дефиниране су као алат за тражење максималне суме свих очекиваних награда помоћу следећег алгоритма:

Чекај награду у будућности с фактором умањења γ:
- Уважавајући стања $s\in S$ : $V^{\pi }(s)=E\{rt+1+\gamma rt+2+\gamma ^{2}rt+3+...|st=s,\pi \}$
- Уважавајући прелазе између стања $s\in S,a\in A(s)$ : $Q^{\pi }(s,a)=E\{rt+1+\gamma rt+2+\gamma 2rt+3+...|st=s,at=a,\pi \}$