agrandir le texte diminuer le texte

Accès direct au contenu

Institut de la communication (ICOM) Portails : www - étudiants - personnels Institut de la communication (ICOM)

Vous êtes ici : Accueil > Nos formations > Master > Informatique-Statistique > M2 : Data Mining > Programme

Programme

 
Vous trouverez ici le contenu de la formation (dont le syllabus des cours), les modalités de contrôles des connaissances, les informations données le jour de la rentrée...

 Semestre 1

Le premier semestre contient 8 UE de 21h de cours chacune :
  • Deep learning
  • Le deep learning (ou apprentissage profond) est un ensemble de méthodes d'apprentissage automatique tentant de modéliser avec un haut niveau d’abstraction des données grâce à des architectures articulées de différentes transformations non linéaires.

    Ces techniques ont permis des progrès importants et rapides dans les domaines de l'analyse du signal sonore ou visuel et notamment de la reconnaissance faciale, de la reconnaissance vocale, de la vision par ordinateur, du traitement automatisé du langage. Dans les années 2000, ces progrès ont suscité des investissements privés, universitaires et publics importants, notamment de Google, Apple, Facebook et Amazon.

    Pour aller plus loin, un article de Yann LeCun (directeur de la recherche en Intelligence artificielle chez Facebook) sur le deep learning.

  • Text mining
  • Le text mining (ou fouille de texte) est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithme un modèle simplifié des théories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques.

    Les moteurs de recherche tels que Google, Exalead ou Yahoo! sont des applications très connues de fouille de textes sur de grandes masses de données. A noter cependant que ces moteurs de recherche ne se basent pas uniquement sur le texte pour l'indexer, mais également sur la façon dont les pages sont mises en valeurs les unes par rapport aux autres.

    Les algorithmes récents reposent souvent sur des apporches probabilistes : pour aller plus loin, un article de D.M. Blei, A.Y. Ng et M.I. Jordan sur le célèbre modèle LDA.

  • Graphical model
  • Un modèle graphique est une représentation d'objets probabilistes. C'est un graphe qui représente les dépendances de variables aléatoires. Ces modèles sont largement utilisés en apprentissage automatique.

    Pour aller plus loin, un chapitre du livre de référence de C.M. Bishop (directeur de Microsoft Research Cambridge) est dédié aux modèles graphiques.

  • Model-based learning
  • De nombreux algorithmes modernes d'apprentissage supervisé et non supervisé reposent sur une modélisation probabiliste du problème. Cette modélisation permet l'utilisation de résultats mathématiques récents pour résoudre des problèmes récurrents en théorie de l'apprentissage.

    Pour aller plus loin, un article de C.M. Bishop (directeur de Microsoft Research Cambridge) sur l'apprentissage automatique à base de modèles probabilistes

  • Advanced supervised learning
  • L'apprentissage supervisé a connu des développements importants ces dernières années. Les méthodes récentes utilisent des prédicteurs/classifieurs sélectionnent implicitement l'information pertinente des données d'entraînement (sélection d'éléments ou d'attibuts). Parmi ces approches, nous nous intéressons aux SVM et aux modèles pénalisés (ridge, lasso, elasticnet, ...). D'autre part, il s'agit d'approches "méta" dont le but est de combiner plusieurs prédicteurs/classifieurs afin d'obtenir des "décisions en comités" pour de meilleures performances. Dans ce cas, nous étudions les techniques de stacking, boosting, bagging et en particulier les forêts aléatoires (random forest).

    Pour aller plus loin, un livre en libre accès, par les auteurs de nombreuses techniques récentes dans ce domaine, T. Hastie, R. Tibshirani et J. Friedman : The Elements of statistical Learning

  • Manifold learning
  • La complexité de certains phénomènes de la vie réel n’est pas toujours correctement décrite par des modèles classiques d'analyse des données. Des méthodes non paramétriques élargissent le spectre d’outils à disposition du data scientist. Avec des hypothèses moins contraignantes, ces méthodes produisent des estimations et prévisions plus flexibles pour des phénomènes non linéaires ou non stationnaires.

    Pour aller plus loin, une conférence récente sur les statistiques non paramétriques pour les big data : Wahba Conference, et un site dédié à l'analyse des données fonctionnelles : FDA website

  • Big data management & analytics
  • La gestion des mégadonnées doit permettre d'organiser, d'administrer et d'interroger efficacement de très grands volumes de données structurées ou non, ainsi que d'en assurer la qualité pour répondre à des besoins décisionnels (big data analytics). Les nouvelles plateformes à même d'exploiter les mégadonnées doivent combiner les concepts des entrepôts de données traditionnels avec les technologies qui permettent de prendre en charge le volume des données (plateformes basées sur le modèle MapReduce, telles que Hadoop, Spark, Hive pour l'entreposage ou Mahout pour la fouille), ainsi que leur variété (systèmes NoSQL tels que MongoDB pour les documents ou Neo4j pour les graphes).

    Pour aller plus loin, un livre édité par W.C. Hu et N. Kaabouch (University of North Dakota) : Big Data Maganement, Technologies and Applications.

  • Parallel computing for data science
  • L'ensemble des méthodes ci-dessus nécessite l'utilisation de techniques de calcul parallèle pour la mise en oeuvre dans un contexte big data.

    Pour aller plus loin, un livre de Norman Matloff (University of California) Parallel computing for data science with example in R and beyond.

  • et un TER (travail d'étude et de recherche)

    Quelques exemples de TER

    • Mise en place d'une structure de calcul distribuée orientée DM
    • Build a Classifier to predict Malicious User Behavious with TensorFlow and Apache Spark
    • Analyse comparative de flux d'actualité
    • Data Lakes vs. Data Vaults
    • Clustering de données textuelles et quantitative
    • Prévision en ligne par agrégation des prédicteurs
    • Prise en compte des données manquantes en co-clustering 

 Semestre 2

Le second semestre est entièrement consacré au stage.

 Références bibliographiques


mise à jour le 5 octobre 2017



Université Lumière Lyon 2
Campus Porte des Alpes
5, avenue Pierre Mendès France
69 676 Bron Cedex
Université Lumière Lyon 2