Deep reinforcement learning, Modèles génératifs(VAE, GANs), Modèles stochastiques, Modèles adverses, études de cas sur applications.
Responsable : Sylvain Lamprier
Contenu:
- Markov Decision
- Algorithmes de Bandits (bandits stochastiques, bandits contextuels, …)
- Apprentissage par renforcement (TD-lambda, Q learning, …)
- Apprentissage profond pour le renforcement (Deep Q learning, Policy gradient, Reinforce, Actor critic, DDPG, TRPO, …)
- Apprentissage par imitation
- Modèles génératifs & adverses, GAN, VAE
- Apprentissage par renforcement inverse (apprentissage des fonctions de récompense)
- Curriculum learning, reward shaping (apprentissage incrémental: de sous tâches plus simples vers la tâche finale)