UE APM_5AI18_TP | Catalogue 2024-2025

Descriptif

This course presents techniques of reinforcement learning (Markov decision processes, TD-learning, Q-learning, bandit algorithms, Monte-Carlo Tree Search) and their application to real use cases (games, content recommendation).

24 heures en présentiel

Diplôme(s) concerné(s)

Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées

Format des notes

Numérique sur 20

Littérale/grade européen

Pour les étudiants du diplôme Diplôme d'Ingénieur de l'Ecole Nationale Supérieure de Techniques Avancées

Programme détaillé

Markov Decision Process
Dynamic programming
Online evaluation
Online control
Value approximation
Bandit algorithms
Contextual bandit

Mots clés

Reinforcement learning,, bandits

Méthodes pédagogiques

Lectures + Labs

Cours scientifiques - APM_5AI18_TP : Reinforcement learning