# L’apprentissage automatique

## Définition

Par apprentissage automatique (*machine learning* en anglais), on désigne l’ensemble des méthodes mathématiques et statistiques qui programment un ordinateur dans le but de l’aider à améliorer sa faculté à résoudre des tâches.

Traditionnellement, on distingue deux grandes méthodes d’aprentissage :
- L’apprentissage **supervisé**, grâce auquel le système apprend à partir de données annotées ;
- l’apprentissage **non supervisé**, où le système est entraîné à détecter quels traits, parmi toutes les variables d’un jeu de données, lui permettront d’en révéler la structure sous-jacente.

L’ambition fondamentale de l’apprentissage automatique est de fournir des modèles prédictifs ou d’effectuer des opérations de détection (anomalies, nouveautés, similitudes…). Et la grande force d’un système intelligent de type *machine learning* réside dans sa faculté à généraliser le résultat de son apprentissage à des cas auxquels il n’a jamais été confronté auparavant.

## Focus sur l’apprentissage supervisé

### De l’importance des données

Afin de programmer efficacement un modèle prédictif dans le cadre d’un apprentissage supervisé, il est impératif d’avoir à disposition un jeu de données annotées qui soit à la fois fiable, équilibré et aussi large que possible. Toute donnée manquante ou toute erreur d’annotation pèsera davantage dans la performance du modèle si le volume de données est faible. Dans le même ordre d’idée, une modalité sur-représentée dans le jeu de données d’entraînement aura plus tendance à être affectée lors de la résolution de la tâche. Si par exemple vous entraînez un outil à classer des cartes à jouer selon les modalités nombre ou figure et que dans le jeu d’entraînement vous n’incluez que des cartes avec une valeur numérique, votre modèle ne détectera jamais les figures.

Le proverbe à garder en tête : *rubbish in, rubbish out*. Si vous fournissez des données absurdes en entrée, le système fournira des données absurdes en sortie. Contrairement à la logique humaine, il semblerait que des prémisses fausses dans un argument informatique ne puissent pas encore aboutir à une conclusion vraie !

> Les oiseaux n’ont pas d’aile.  
> Socrate est un oiseau.  
> Socrate n’a pas d’aile.

### Des algorithmes en œuvre

Deux grandes familles d’algorithmes se disputent la programmation d’un système intelligent en fonction de la nature de la tâche :
- Soit la prévision est dite *qualitative* (ou *discrète*) et l’on parle de **classification** ;
- soit elle est dite *quantitative* (ou *continue*) et l’on parle alors de **régression**.

Par exemple, une tâche de classification serait de déterminer si une critique est positive ou négative, si tel arbre tient plutôt du chêne ou du bouleau, si une personne est riche ou pauvre, etc. Pour la régression, on chercherait plutôt à estimer quel est le salaire qu’un·e étudiant·e peut espérer à la sortie d’un diplôme, quelles sont les températures attendues pour les prochains jours, ou encore à quel prix pourrait se vendre un T2 avec terrasse dans le 12e arrondissement de Paris.

### De l’art de paramétrer un modèle

Grâce aux bibliothèques spécialisées, la mise en place d’un *workflow* pour l’apprentissage est somme toute assez triviale. Il s’agira grossièrement de :
1. Partitionner le jeu de données en deux parties inégales (données d’entraînement et données de test) ;
2. entraîner le modèle et le tester avec des données vérifiées ;
3. évaluer la performance du modèle.

Le véritable travail s’effectue en amont, autant dans la compréhension des données que dans leur préparation. La phase de *pre-processing* est cruciale dans un projet de *machine learning* et peut elle-même utiliser des algorithmes d’apprentissage automatique (ex. : détection d’anomalies, réduction de la dimensionnalité…).

Les opérations à réaliser impliqueront de nettoyer le *dataset* en supprimant par exemple les données aberrantes (comme des revenus salariaux négatifs), en les corrigeant (attribution d’une mauvaise étiquette) ou encore en les normalisant (format des dates, conversion d’une donnée catégorielle vers un type numérique).

Le modèle obtenu, il restera à ajuster finement les paramètres afin d’améliorer la mesure de performance.

## Une affaire de manchots

À partir de la description de certaines caractéristiques physiques de trois espèces de manchots de l’Antarctique (manchot Adélie, manchot papou et manchot à jugulaire), imaginons pour objectif de fournir un programme qui déterminerait à quelle espèce tel ou tel nouvel individu appartiendrait.

|Longueur du bec|Épaisseur du bec|Longueur des nageoires|Masse|Espèce|
|-:|-:|-:|-:|:-:|
|39.1|18.7|181|3750|Adélie|
|37.8|18.3|174|3400|Adélie|
|49.6|16|225|5700|Gentoo|
|42.7|13.7|208|3950|Gentoo|
|49.3|19.9|203|4050|Chinstrap|
|43.5|18.1|202|3400|Chinstrap|

### Quelques observations

Sur la seule base des caractéristiques fournies dans le tableau ci-dessus, en dehors du fait que le nombre d’individus est insuffisant, on remarque que :
- Les Gentoos (manchots papous) ont plus de masse que les deux autres ;
- la masse seule ne permet pas de différencier les Adélie des Chinstrap (manchots à jugulaire) ;
- que la longueur du bec ne peut isoler que les Adélie ;
- … et que la longueur des nageoires est également insuffisante pour discriminer les trois espèces.

### Visualiser les données

L’idée est alors de comparer deux caractéristiques pour dégager des associations nettes et, dans ce domaine, rien de tel qu’un diagramme pour effectuer rapidement des observations.

Essayons sur [le jeu de données complet](./0.about-datasets.ipynb#Size-measurements-for-adult-foraging-penguins-near-Palmer-Station,-Antarctica) (Gorman, 2014) avec les deux premières caractéristiques, la longueur et l’épaisseur du bec des différentes espèces :

![Répartition des espèces de manchots en fonction des dimensions de leur bec](./images/bill-dimensions.png)

Et maintenant avec toutes les caractéristiques entre elles :

![Répartition des espèces de manchots en fonction de leurs caractéristiques physiques](./images/penguin-dimensions.png)

En cherchant les appariements où les cas de chevauchement sont les plus limités, il apparaît que la longueur du bec est la plus discriminante, surtout quand elle est associée à l’épaisseur du bec. L’idée que deux dimensions d’un même organe soient corrélées n’a en plus rien d’aberrant. Si les données avaient été nettement plus volumineuses, il aurait été profitable d’agréger les deux variables. On parle alors d’extraction de variables (*features extraction*) dans le cadre d’une réduction de dimension.

### Distribution des données

Dans le jeu de données, le dénombrement des effectifs montre la répartition suivante :
- Adélie : 152
- Gentoo : 124
- Chinstrap : 68

Le déséquilibre entre les résultats pose la question de la représentativité : les manchots à jugulaire sont-ils deux fois moins représentés en Antarctique que les deux autres espèces ?

### Partitionnement des jeux d’entraînement et de test

De manière habituelle, on conseille un partitionnement 80/20 ou 75/25 entre le sous-ensemble avec lequel on entraîne un programme et celui avec lequel on va le tester. Sur 344 individus dans le jeu de données, on en sélectionne donc 275 pour le jeu d’entraînement et 69 pour le jeu de test.

On veillera également à ce qu’une espèce ne soit pas sur-représentée. Dans notre cas, les observations étant triées par espèce, sont recensés d’abord les Adélie, puis les Gentoo et enfin les Chinstrap. Comme ces derniers ne sont qu’au nombre de 68 et que le jeu de test sera constitué de 69 individus, ils ne seront pas du tout présents dans le jeu d’entraînement ! Le système sera donc incapable d’effectuer des prédictions convenables. Pour remédier à ce problème, il faudra donc veiller à mélanger les observations avant de constituer les jeux d’entraînement et de test.

### Évaluation de la performance du modèle

Une fois le modèle entraîné, la dernière étape avant de le confronter à des données inédites consiste à le mesurer au jeu de test et à comparer les prévisions avec les annotations. Le premier résultat à considérer est le taux de succès en divisant le nombre de prédictions correctes avec le nombre total d’observations dans le jeu de test (69).

Prenons le cas fictif où les cinq premières observations et prévisions seraient :

|n|observation|prévision|concordance|
|-:|-|-|-|
|0|Adelie|Adelie|vrai|
|1|Gentoo|Adelie|faux|
|2|Gentoo|Gentoo|vrai|
|3|Chinstrap|Chinstrap|vrai|
|4|Gentoo|Gentoo|vrai|

Quatre prévisions correctes sur cinq donnent un taux de succès de 80 %. On parle alors d’exactitude (*accuracy*).

Pour une tâche de régression, on aurait sélectionné une autre mesure de la performance, comme l’erreur quadratique moyenne (*mean squared error*) ou l’erreur absolue moyenne (*mean absolute error*).

## Les pièges de l’apprentissage automatique

Ce tour d’horizon des concepts-clés du *machine learning* ne saurait être complet sans évoquer quelques-uns des biais inhérents aux modèles statistiques. Comme le dit la pensée populaire :
> « Il y a trois sortes de mensonges : les mensonges, les gros mensonges et les statistiques. »

### Des données de mauvaise qualité

Inutile de revenir sur cette évidence, si vous dites à un enfant qu’une pomme est une orange, l’ordinateur ne saurait être plus intelligent que lui et considérera face à une pomme qu’il a affaire à une orange. Il n’y a guère que Humpty Dumpty, l’œuf philosophe de *Through the Looking-Glass, and What Alice Found There*, pour décider qu’une pomme peut être une orange, et comprendre qu’il s’agit d’une pomme :

> ‘When I use a word,’ Humpty Dumpty said in rather a scornful tone, ‘it means just what I choose it to mean – neither more nor less.’
> 
> ‘The question is,’ said Alice, ‘whether you can make words mean so many different things.’
> 
> ‘The question is,’ said Humpty Dumpty, ‘which is to be master – that’s all’

Rassurons-nous, le pouvoir chamanique de nommer les choses ressortit encore à l’humain ! Charge à nous de contestons à Humpty Dumpty sa fonction de *maître des significations* (Castoriadis) et, en attendant, le temps consacré au nettoyage des données n’est jamais perdu, que ce soit pour les compléter, les corriger, les normaliser, voire les supprimer.

### Des données qui ne sont pas représentatives

#### Le bruit d’échantillonnage

Lorsque l’échantillon est trop réduit, il ne parvient pas à rendre compte de la réalité. Si vous entraînez un modèle dessus, vous aurez beau obtenir une évaluation encourageante validée par plusieurs méthodes statistiques, les prédictions sur de nouvelles données ne seront guère convaincantes.

Le modèle linéaire ci-dessous, issu d’une [enquête sur les troubles alimentaires](./0.about-datasets.ipynb#Self-Reports-of-Height-and-Weight) (Davis, 1990), montre la relation entre la masse corporelle d’une personne et sa taille pour un échantillon de 20 individus :

![Relation entre poids et taille](./images/davis-wh20.png)

Le modèle suivant prend quant à lui un échantillon de 40 individus :

![Relation entre poids et taille](./images/davis-wh40.png)

En doublant l’effectif, non seulement la droite de régression a une pente plus forte, mais l’intervalle de confiance à 95 % se resserre.

#### Le biais d’échantillonnage

Disposer de milliers voire de millions d’observations ne garantit pas d’obtenir un modèle robuste. Tout peut dépendre en effet de la manière dont l’enquête aura été construite au départ. Demander aux membres du club des supporters du PSG s’ils aiment le football ne sera pas représentatif de l’avis de la population générale. Pas plus que d’effectuer une recherche sur Deezer sur les tendances actuelles sachant que les algorithmes auront déjà été entraînés sur vos écoutes précédentes et qu’ils les auront comparées avec les goûts d’autres abonné·es au profil similaire.

### Des variables explicatives qui ne sont pas pertinentes

L’esprit humain a une tendance naturelle à établir une relation de cause à effet entre deux événements. Observer que 55 % des électeurs de J.-L. Mélenchon mangent du fromage et boivent de la bière, quand c’est le cas de seulement 23 % des pro-Macron, ne permet pas de conclure qu’un amateur de fromage va sans doute voter pour le premier plutôt que pour le second, et encore moins de formuler une hypothèse selon laquelle une bactérie du camembert influerait sur la décision face aux urnes.

Si l’exemple précédent est inventé, le suivant montre une corrélation entre l’évolution du nombre de cas d’autisme dans les établissements scolaires aux États-Unis et d’une part l’évolution de la proportion d’OGM dans les surfaces agricoles, d’autre part l’évolution du volumes de ventes réalisées par l’industrie alimentaire biologique :

![Évolution du nombre de cas d’autisme](./images/evolution-autism.png)

Comme en plus le calcul du coefficient de corrélation de Pearson montre une relation plus forte entre le bio et les cas d’autisme (0,99 contre 0,97 pour les OGM), une interprétation rapide en déduirait l’hypothèse selon laquelle l’agriculture biologique est plus propice à l’apparition de troubles autistiques que les OGM.

Pour les sources des données :

>- [Students With Disabilities](http://nces.ed.gov/programs/coe/indicator_cgg.asp)
>- [Evolution of planted agricultural areas](http://usda.mann.library.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1000)
>- [Organic Industry Survey](http://ota.com/resources/organic-industry-survey)

Et pour terminer sur une pointe d’humour, le site *Le Monde* propose un [générateur aléatoire de comparaisons absurdes](https://www.lemonde.fr/les-decodeurs/article/2019/01/02/correlation-ou-causalite-brillez-en-societe-avec-notre-generateur-aleatoire-de-comparaisons-absurdes_5404286_4355770.html).

En conclusion, *cum hoc sed non propter hoc* (La corrélation n’implique pas la causalité).

### Des échelles de mesure différentes

Toujours sur les mêmes données de l’évolution des cas d’autisme, les courbes sur les graphiques ci-dessous semblent montrer que le secteur de l’agriculture biologique augmente de manière parralèle au nombre de cas d’autisme recensés, tandis que la part d’OGM dans les cultures reste stable, à un seuil proche de zéro.

![Données sur des échelles différentes](./images/evolution-autism-no-scale.png)

Cette interprétation est bien évidemment fausse. Tout d’abord, nous l’avons vu, il n’existe aucune causalité entre les volumes de vente de l’agriculture biologique ou la part d’OGM dans les surfaces agricoles et les cas d’autisme ; ensuite, l'échelle de mesure n’est pas du tout la même : quand la courbe des OGM est exprimée en pourcentages, sur une échelle de 0 à 100, celle des volumes de vente s’échelonne entre 10 000 et 30 000, et celle des cas d’autisme commence à 160 000 pour terminer à près de 500 000.

Pour cette raison, si vous voulez montrer l’évolution de deux courbes, vous devez d’abord passer leurs données sur la même échelle, en adoptant l’une des deux méthodes privilégiées : **la standardisation** (*Z score normalization*) ou **la normalisation** (*Min-Max normalization*).

### Le paradoxe de Simpson

Bien plus difficile à détecter, une bizarrerie mathématique qui montre que, combinés, les résultats de plusieurs groupes sont inversés par rapport à leurs résultats individuels. Il s’agit du paradoxe de Simpson, du nom du statisticien Edward Simpson qui l’a décrit en 1951.

Prenons un exemple issu [du recensement des manchots en Antarctique](./0.about-datasets.ipynb#Size-measurements-for-adult-foraging-penguins-near-Palmer-Station,-Antarctica) (Gorman, 2014). Le graphique ci-dessous montre la corrélation entre la masse corporelle d’un manchot et la taille de son bec.

![Le paradoxe de Simpson](./images/penguins-simpson.png)

La droite de régression ne laisse aucun doute : les becs des manchots rétrécissent à mesure qu’ils prennent du poids. Une conclusion contre-intuitive, non ? On penserait plutôt l’inverse d’un individu lambda, qu’il existe une corrélation positive entre le poids et les autres caractéristiques physiques. Quelle erreur avons-nous commise ici ?

Sur le graphique se distinguent nettement deux groupes de manchots, une observation qui nous laisse penser que nous avons négligé un critère dans notre analyse. Regardons ce qu’il en est pour les manchots mâles et les manchots femelles :

![Le paradoxe de Simpson : hypothèse de facteur de confusion](./images/penguins-by-sex-simpson.png)

Notre hypothèse ne fait que renforcer la conclusion, aussi, les manchots seraient-ils la première espèce animale à voire leur silhouette s’affiner avec la prise de masse ? Définitivement, non. Pour s’en assurer, on devrait plutôt s’intéresser aux différentes espèces qui composent la grande famille des manchots et à leurs disparités physiques :

![Le paradoxe de Simpson : effet inverse sur les sous-groupes](./images/penguins-by-specy-simpson.png)

C’est l’illustration du paradoxe de Simpson, où l’espèce des manchots influe autant sur la cause (masse plus ou moins importante) que sur la conséquence (longueur du bec variant également selon l’espèce). On parle alors de **facteur de confusion**.

### Des problèmes d’ajustement

Les systèmes sont tout autant soumis au problème du **sur-entraînement** (*overfitting*) qu’à celui du **sous-entraînement** (*underfitting*). Un algorithme trop simple ne pourra mettre en évidence la structure des données quand un algorithme trop compliqué – parce que parfaitement ajusté aux données sur lesquelles il s’est entraîné – provoquera des erreurs de généralisation importantes.

On peut estimer par exemple qu’un modèle linéaire sous-ajustera systématiquement par rapport à la réalité et que, a contrario, un modèle polynomial de très haut degré sur-ajustera tellement que ses prédictions se révéleront toutes fausses.

## Pour aller plus loin

* Géron, Aurélien. – [*Hands-on Machine Learning With Scikit-learn, Keras, and Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems*](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/). 3e édition. – Farnham : O'Reilly UK Limited, 2022. – 850 p. – ISBN : 978-1098125974.
* Géron, Aurélien. – [*Machine Learning Notebooks, 3rd edition*](https://github.com/ageron/handson-ml3) (GitHub).