Innover en machine learning

Une approche pas à pas pour conserver sa santé mentale

Régis Behmo @regisb

Human Talks Paris, 12 mars 2019

Slides : https://regisb.github.io/innoverenmachinelearning

Licence Creative Commons

De quoi va-t-on parler ?

Recherche

Machine learning

Santé mentale

De quoi ne va-t-on pas parler ?

Recherche

Recherche ⇄ "Trouver une solution inconnue à un problème compliqué"

Machine learning

Machine learning ⇄ "N'importe quel domaine dans lequel on doit trouver des solutions innovantes"

Santé mentale

Machine Learning

==

Recherche

Machine Learning

==

Recherche

Recherche wtf ?

Faire de la recherche

Méthode #1

Méthode #2

Méthode #1

(aka: "Méthode YOLO")

  1. Trouver un problème
  2. Proposer une solution
  3. Tester la solution
  4. Si ça ne marche pas, retourner en 2
  5. Publier/Mettre en prod \o/

(╯°□°)╯︵ ┻━┻

"Bah je comprends pas ça marchait bien sur mes données"

"C'EST LEEEEEEEEEEEEEEENT"

"Ça marche quand même moins bien que <methode X>"

"Elle est bien cette méthode mais elle existe déjà (en mieux)"

43-46% des étudiants en thèse en ingénierie présentent les symptomes d'une dépression

Graduate Student Happiness & Well-Being Report, The Graduate Assembly, 2014

Méthode #1

(aka: "Méthode YOLO")

  1. Trouver un problème
  2. Proposer une solution
  3. Tester la solution
  4. Si ça ne marche pas, retourner en 2
  5. Publier/Mettre en prod \o/

Méthode #2

  1. Trouver un problème
  2. Créer un jeu de données adapté
  3. Choisir une métrique
  4. Tester les méthodes existantes sur ce jeu de données
  5. Créer une baseline
  6. Identifier les limites de la baseline
  7. Proposer une solution qui résout ces limites
  8. Tester la solution
  9. Si ça ne marche pas, retourner en 7
  10. Publier/Mettre en prod \o/

1. Trouver un problème

Estimer la température qu'il fera demain

Calculer la probabilité qu'un séisme se produise

Occuper le maximum de temps de cerveau disponible

Afficher des publicités pour maximiser la frénésie d'achat

2. Créer un jeu de données adapté

1-3 jours de travail

Programme quick'n dirty pour semi-automatiser

Reprise automatique

Visualisation du jeu de données

3. Choisir une métrique

métrique == manière d'évaluer de manière quantitative la pertinence d'un algorithme

précision, rappel, distance L1, L2, aire sous la courbe ROC...

4. Tester les méthodes existantes sur ce jeu de données

4. Tester les méthodes existantes sur ce jeu de données

4. Tester les méthodes existantes sur ce jeu de données

4. Tester les méthodes existantes sur ce jeu de données

"Personne n'a jamais travaillé sur ce sujet"

"Personne n'a jamais publié sur ce sujet"

"J'ai pas le temps"

"... se tenir sur les épaules des géants."

"If I have seen further it is by standing on the shoulders of Giants.", Isaac Newton

"If I have seen further it is by standing on the shoulders of Giants.", Isaac Newton

4. Tester les méthodes existantes sur ce jeu de données

Il y a plein de gens qui font du machine learning

Ils en font depuis très longtemps

Ils sont très malins

Ils ont faim

Méthode #2

  1. Trouver un problème
  2. Créer un jeu de données adapté
  3. Choisir une métrique
  4. Tester les méthodes existantes sur ce jeu de données
  5. Créer une baseline
  6. Identifier les limites de la baseline
  7. Proposer une solution qui résout ces limites
  8. Tester la solution
  9. Si ça ne marche pas, retourner en 7
  10. Publier/Mettre en prod \o/

5. Créer une baseline

6. Identifier les limites de la baseline

7. Proposer une solution qui résout ces limites

Solution puissante mais pas alambiquée

Méthode connue et éprouvée

Implémentation de référence

8. Tester la solution

9. Si ça ne marche pas, retourner en 7

10. Publier/Mettre en prod \o/

Méthode #2

  1. Trouver un problème
  2. Créer un jeu de données adapté
  3. Choisir une métrique
  4. Tester les méthodes existantes sur ce jeu de données
  5. Créer une baseline
  6. Identifier les limites de la baseline
  7. Proposer une solution qui résout ces limites
  8. Tester la solution
  9. Si ça ne marche pas, retourner en 7
  10. Publier/Mettre en prod \o/

regis@behmo.com

Slides : https://regisb.github.io/innoverenmachinelearning


Liens :