Adaptivni sistemi mašinskog učenja

Authors

  • Jaroslav Poliščuk University of Montenegro

Keywords:

Učenje sa ojačanjem, Markovljev proces odlučivanja, Belmanova jednačina, učenje trenutnih razlika, tragovi aktivnosti, algoritam TR (0), algoritam TR (Lambda)

Abstract

U radu je analizirana metoda mašinskog učenja sa ojačanjem, kod koje se definiše predmet učenja. Suština ove metode je biranje akcija postupkom probe i greške i dodjela odložene nagrade. Ako stanje okruženja posjeduje Markovljevu osobinu, onda dinamika “jednog koraka” omogućava predviñanje slijedećeg stanja i slijedeće nagrade na osnovu poznatog, trenutnog, stanja i akcije, odnosno provoñenje Markovljevog procesa odlučivanja. Relacija izmeñu vrijednosti trenutnog stanja i vrijednosti mogućeg slijedećeg stanja je definisana Belmanovom jednačinom. Diskutovana je metoda učenja trenutnih razlika, mehanizam tragova aktivnosti, kao i njihovi algoritmi TR(0) i TR(Lambda). Teorijska razmatranja su ilustrovana praktičnim istraživanjima, odnosno implementacijom algoritma Sarsa(Lambda), sa jediničnim tragovima aktivnosti i Epsilon gramzivom politikom.

Downloads

Published

24.03.2023

Issue

Section

Articles