Cours M2 CHPS - Data et apprentissage                                                               Année 2020/2021

Introduction à la science des données et au machine learning


***Enseignants
Prof.
Nicolas VAYATIS
Argyris KALOGERATOS

***Contact
<prenom.nom/-at-/ens-paris-saclay.fr>
Secrétariat du cours : <secretariat-der-maths/-at-/
ens-paris-saclay.fr>

***Syllabus et déroulé des séances 2020-2021
Les phénomènes physiques, biologiques, sociaux sont désormais digitalisés de manière systématique et continue dans des formats alphanumériques. Le domaine du calcul scientifique et de la simulation numérique est également consommateur et producteur de données alphanumériques. Le chercheur ou l’ingénieur, qu’il soit concepteur ou utilisateur de systèmes d’aide à la décision, se trouve confronté au champ de la science des données et son expertise se trouve mise au défi. Ainsi, la montée en compétences en science des données de tous les scientifiques et techniciens dans tout secteur d’activité humaine est désormais un des enjeux majeurs de l’économie de l’innovation et de la connaissance. Le cours constitue une introduction à la science des données qui a pour but d’initier les étudiants aux principes de base de la modélisation mathématique et statistique, et de la mise en œuvre algorithmique de chaînes de traitement des données pour l’aide à la décision. Au-delà de compétences et savoir-faire techniques, le cours questionnera également la capacité d’évaluation des modèles et le sens critique des étudiants sur un domaine de la connaissance encore en quête de maturité.

Date Horaire Intervenants Session Thèmes Supports
Lundi 14 Septembre
9:30-12:30 N. Vayatis Cours #1 Présentation du cours
Le cadre de l'apprentissage supervisé. Modèle de régression.
Slides
Lien
Lundi 14 Septembre 13:30-16:30 A. Kalogeratos
TD/TP #1
Pipeline du traitement de données
Outils et environnements logiciels
Fichiers
Lundi 21 Septembre 9:30-12:30
N. Vayatis Cours #2
Méthodes paramétriques pour la classification.
Régression logistique. Analyse discriminante.
Slides
Liens LDA/FDA
Lundi 21 Septembre 13:30-16:30 A. Kalogeratos TD/TP #2
Modèles linéaires en régression.
Estimation des paramètres. Protocoles d'évaluation.
Fichiers
Lundi 28 Septembre 9:30-12:30 N. Vayatis Cours #3
Méthodes d'apprentissage non supervisées.
Réduction de dimension. Méthodes de clustering.
Slides
Lundi 28 Septembre 13:30-16:30 A. Kalogeratos TD/TP #3
Apprentissage non supervisé.
Aspects algorithmiques et évaluation de la performance.
Fichiers
Lundi 5 Octobre* 9:30-12:30 A. Kalogeratos TD/TP #4 Mise en œuvre des techniques de classification.
Choix des hyperparamètres. Sensibilité et robustesse.
Fichiers
Lundi 5 Octobre* 13:30-16:30 A. Kalogeratos TD/TP #5 Mise en œuvre des techniques de classification.
Choix des hyperparamètres. Sensibilité et robustesse.

Lundi 12 Octobre 9:30-12:30 N. Vayatis Cours #4 Techniques non linéaires pour la classification supervisée.
Réseaux de neurones, Support Vector Machines.
Arbres de décision
Méthodes d'ensembles : bagging, boosting, random forests
Slides
Lundi 19 Octobre* 9:30-12:30 A. Kalogeratos TD/TP #6
Choix du noyau dans les SVM.
Architectures neuronales.
Fichiers
Lundi 19 Octobre* 13:30-16:30 A. Kalogeratos TD/TP #7 Régularisation des modèles.
Régression pénalisée (Ridge, LASSO...). 
Fichiers
Lundi 2 Novembre 9:00-12:00 N. Vayatis
Cours #5 Sélection de variables en régression.
Interprétation des modèles. Pénalités structurées.
Slides
Lundi 9 Novembre
9:00-12:00 N. Vayatis
Cours#6 Compléments.
Synthèse du cours.

Lundi 16 Novembre*
10:30-12:30
N. Vayatis
A. Kalogeratos
Examen





***Déroulement des séances
Les séances de cours et TD/TP sont prévues en distanciel sauf les séances marquées avec un astérisque *. Les informations de connexion sont envoyées par mail aux étudiants quelques jours avant chaque séance.

***Evaluation
La note finale est calculée à partir des deux éléments d’évaluation suivants :
En cas d’échec, un rattrapage est proposé aux étudiants sous forme d’examen écrit. Il pourra également comporter la réalisation d'un travail numérique en temps limité.