Niveau: Einfach Standard Studienbrücke Reinforced Learning Lernverfahren, bei dem ein Agent durch Belohnungen und Strafen lernt, optimale Entscheidungen zu treffen.