Skip to content
Snippets Groups Projects
Commit f35a6ede authored by Alexandre Roulois's avatar Alexandre Roulois
Browse files

Section Simpson paradox

parent 49fe03fa
No related branches found
No related tags found
1 merge request!21Section on Simpson paradox
%% Cell type:markdown id:b4736480-e9b8-446f-aefd-df4eba3e7c67 tags:
# L’apprentissage automatique
%% Cell type:markdown id:de31a2c2-e401-40ad-a0d4-c7d7459ecd1a tags:
## Définition
%% Cell type:markdown id:c2d1c628-ce48-4939-af73-815e661c3259 tags:
Par apprentissage automatique (*machine learning* en anglais), on désigne l’ensemble des méthodes mathématiques et statistiques qui programment un ordinateur dans le but de l’aider à améliorer sa faculté à résoudre des tâches.
Traditionnellement, on distingue deux grandes méthodes d’aprentissage :
- L’apprentissage **supervisé**, grâce auquel le système apprend à partir de données annotées ;
- l’apprentissage **non supervisé**, où le système est entraîné à détecter quels traits, parmi toutes les variables d’un jeu de données, lui permettront d’en révéler la structure sous-jacente.
L’ambition fondamentale de l’apprentissage automatique est de fournir des modèles prédictifs ou d’effectuer des opérations de détection (anomalies, nouveautés, similitudes…). Et la grande force d’un système intelligent de type *machine learning* réside dans sa faculté à généraliser le résultat de son apprentissage à des cas auxquels il n’a jamais été confronté auparavant.
%% Cell type:markdown id:e83fe41c-8b47-46d3-b48b-4fc51e549351 tags:
## Focus sur l’apprentissage supervisé
%% Cell type:markdown id:d084819f-fc71-4885-822c-43eef6e34508 tags:
### De l’importance des données
%% Cell type:markdown id:a1d5e4dc-ed21-47fe-8f95-d7253dbadcf0 tags:
Afin de programmer efficacement un modèle prédictif dans le cadre d’un apprentissage supervisé, il est impératif d’avoir à disposition un jeu de données annotées qui soit à la fois fiable, équilibré et aussi large que possible. Toute donnée manquante ou toute erreur d’annotation pèsera davantage dans la performance du modèle si le volume de données est faible. Dans le même ordre d’idée, une modalité sur-représentée dans le jeu de données d’entraînement aura plus tendance à être affectée lors de la résolution de la tâche. Si par exemple vous entraînez un outil à classer des cartes à jouer selon les modalités nombre ou figure et que dans le jeu d’entraînement vous n’incluez que des cartes avec une valeur numérique, votre modèle ne détectera jamais les figures.
Le proverbe à garder en tête : *rubbish in, rubbish out*. Si vous fournissez des données absurdes en entrée, le système fournira des données absurdes en sortie. Contrairement à la logique humaine, il semblerait que des prémisses fausses dans un argument informatique ne puissent pas encore aboutir à une conclusion vraie !
> Les oiseaux n’ont pas d’aile.
> Socrate est un oiseau.
> Socrate n’a pas d’aile.
%% Cell type:markdown id:414fb80d-44fe-4597-8360-4bfc780d8828 tags:
### Des algorithmes en œuvre
%% Cell type:markdown id:377f2e24-2568-48f0-867c-1d0342bd2ae5 tags:
Deux grandes familles d’algorithmes se disputent la programmation d’un système intelligent en fonction de la nature de la tâche :
- Soit la prévision est dite *qualitative* (ou *discrète*) et l’on parle de **classification** ;
- soit elle est dite *quantitative* (ou *continue*) et l’on parle alors de **régression**.
Par exemple, une tâche de classification serait de déterminer si une critique est positive ou négative, si tel arbre tient plutôt du chêne ou du bouleau, si une personne est riche ou pauvre, etc. Pour la régression, on chercherait plutôt à estimer quel est le salaire qu’un·e étudiant·e peut espérer à la sortie d’un diplôme, quelles sont les températures attendues pour les prochains jours, ou encore à quel prix pourrait se vendre un T2 avec terrasse dans le 12e arrondissement de Paris.
%% Cell type:markdown id:65fb5452-6e40-40cf-b6fc-5f4d4943533a tags:
### De l’art de paramétrer un modèle
%% Cell type:markdown id:17c6f5db-eada-4f31-8324-2304e7fa3f5b tags:
Grâce aux bibliothèques spécialisées, la mise en place d’un *workflow* pour l’apprentissage est somme toute assez triviale. Il s’agira grossièrement de :
1. Partitionner le jeu de données en deux parties inégales (données d’entraînement et données de test) ;
2. entraîner le modèle et le tester avec des données vérifiées ;
3. évaluer la performance du modèle.
Le véritable travail s’effectue en amont, autant dans la compréhension des données que dans leur préparation. La phase de *pre-processing* est cruciale dans un projet de *machine learning* et peut elle-même utiliser des algorithmes d’apprentissage automatique (ex. : détection d’anomalies, réduction de la dimensionnalité…).
Les opérations à réaliser impliqueront de nettoyer le *dataset* en supprimant par exemple les données aberrantes (comme des revenus salariaux négatifs), en les corrigeant (attribution d’une mauvaise étiquette) ou encore en les normalisant (format des dates, conversion d’une donnée catégorielle vers un type numérique).
Le modèle obtenu, il restera à ajuster finement les paramètres afin d’améliorer la mesure de performance.
%% Cell type:markdown id:dcd3655b-d114-42cc-bc96-e20dd0723739 tags:
## Une affaire de manchots
%% Cell type:markdown id:4001fc66-9891-4be4-8a09-e09cd2fdbdac tags:
À partir de la description de certaines caractéristiques physiques de trois espèces de manchots de l’Antarctique (manchot Adélie, manchot papou et manchot à jugulaire), imaginons pour objectif de fournir un programme qui déterminerait à quelle espèce tel ou tel nouvel individu appartiendrait.
|Longueur du bec|Épaisseur du bec|Longueur des nageoires|Masse|Espèce|
|-:|-:|-:|-:|:-:|
|39.1|18.7|181|3750|Adélie|
|37.8|18.3|174|3400|Adélie|
|49.6|16|225|5700|Gentoo|
|42.7|13.7|208|3950|Gentoo|
|49.3|19.9|203|4050|Chinstrap|
|43.5|18.1|202|3400|Chinstrap|
%% Cell type:markdown id:05323c1f-6b9f-4773-8670-2d51e2cec06b tags:
### Quelques observations
%% Cell type:markdown id:db6b6d6b-e5a2-4ee8-85fa-486370180693 tags:
Sur la seule base des caractéristiques fournies dans le tableau ci-dessus, en dehors du fait que le nombre d’individus est insuffisant, on remarque que :
- Les Gentoos (manchots papous) ont plus de masse que les deux autres ;
- la masse seule ne permet pas de différencier les Adélie des Chinstrap (manchots à jugulaire) ;
- que la longueur du bec ne peut isoler que les Adélie ;
- … et que la longueur des nageoires est également insuffisante pour discriminer les trois espèces.
%% Cell type:markdown id:e26a0356-ab69-44c5-abed-29ee5cc372ae tags:
### Visualiser les données
%% Cell type:markdown id:fc513033-4929-4aec-a14e-214249ac38e5 tags:
L’idée est alors de comparer deux caractéristiques pour dégager des associations nettes et, dans ce domaine, rien de tel qu’un diagramme pour effectuer rapidement des observations.
Essayons sur [le jeu de données complet](./0.about-datasets.ipynb#Size-measurements-for-adult-foraging-penguins-near-Palmer-Station,-Antarctica) (Gorman, 2014) avec les deux premières caractéristiques, la longueur et l’épaisseur du bec des différentes espèces :
![Répartition des espèces de manchots en fonction des dimensions de leur bec](./images/bill-dimensions.png)
Et maintenant avec toutes les caractéristiques entre elles :
![Répartition des espèces de manchots en fonction de leurs caractéristiques physiques](./images/penguin-dimensions.png)
En cherchant les appariements où les cas de chevauchement sont les plus limités, il apparaît que la longueur du bec est la plus discriminante, surtout quand elle est associée à l’épaisseur du bec. L’idée que deux dimensions d’un même organe soient corrélées n’a en plus rien d’aberrant. Si les données avaient été nettement plus volumineuses, il aurait été profitable d’agréger les deux variables. On parle alors d’extraction de variables (*features extraction*) dans le cadre d’une réduction de dimension.
%% Cell type:markdown id:3cc1f05b-82a3-488d-8f0b-f195fe2fc6f0 tags:
### Distribution des données
%% Cell type:markdown id:be94eaf6-4b3f-45c5-9998-46442f1ec8a3 tags:
Dans le jeu de données, le dénombrement des effectifs montre la répartition suivante :
- Adélie : 152
- Gentoo : 124
- Chinstrap : 68
Le déséquilibre entre les résultats pose la question de la représentativité : les manchots à jugulaire sont-ils deux fois moins représentés en Antarctique que les deux autres espèces ?
%% Cell type:markdown id:7857c464-6d0b-4504-9b50-2556d11aa55c tags:
### Partitionnement des jeux d’entraînement et de test
%% Cell type:markdown id:b9fd19af-35b6-41ac-a02c-666d0094a610 tags:
De manière habituelle, on conseille un partitionnement 80/20 ou 75/25 entre le sous-ensemble avec lequel on entraîne un programme et celui avec lequel on va le tester. Sur 344 individus dans le jeu de données, on en sélectionne donc 275 pour le jeu d’entraînement et 69 pour le jeu de test.
On veillera également à ce qu’une espèce ne soit pas sur-représentée. Dans notre cas, les observations étant triées par espèce, sont recensés d’abord les Adélie, puis les Gentoo et enfin les Chinstrap. Comme ces derniers ne sont qu’au nombre de 68 et que le jeu de test sera constitué de 69 individus, ils ne seront pas du tout présents dans le jeu d’entraînement ! Le système sera donc incapable d’effectuer des prédictions convenables. Pour remédier à ce problème, il faudra donc veiller à mélanger les observations avant de constituer les jeux d’entraînement et de test.
%% Cell type:markdown id:6fdeba0b-dc3b-41f9-8d4e-2940a5e47d1c tags:
### Évaluation de la performance du modèle
%% Cell type:markdown id:66f74792-7856-4a87-8540-dc5f2337ac39 tags:
Une fois le modèle entraîné, la dernière étape avant de le confronter à des données inédites consiste à le mesurer au jeu de test et à comparer les prévisions avec les annotations. Le premier résultat à considérer est le taux de succès en divisant le nombre de prédictions correctes avec le nombre total d’observations dans le jeu de test (69).
Prenons le cas fictif où les cinq premières observations et prévisions seraient :
|n|observation|prévision|concordance|
|-:|-|-|-|
|0|Adelie|Adelie|vrai|
|1|Gentoo|Adelie|faux|
|2|Gentoo|Gentoo|vrai|
|3|Chinstrap|Chinstrap|vrai|
|4|Gentoo|Gentoo|vrai|
Quatre prévisions correctes sur cinq donne un taux de succès de 80 %. On parle alors d’exactitude (*accuracy*).
Pour une tâche de régression, on aurait sélectionné une autre mesure de la performance, comme l’erreur quadratique moyenne (*mean squared error*) ou l’erreur absolue moyenne (*mean absolute error*).
%% Cell type:markdown id:59e0b891-4199-4bce-a405-ac7e0be91ee6 tags:
## Les pièges de l’apprentissage automatique
%% Cell type:markdown id:40f687ed-f7f8-46fb-a206-29a18efbcfda tags:
Ce tour d’horizon des concepts-clés du *machine learning* ne saurait être complet sans évoquer quelques-uns des biais inhérents aux modèles statistiques. Comme le dit la pensée populaire :
> « Il y a trois sortes de mensonges : les mensonges, les gros mensonges et les statistiques. »
%% Cell type:markdown id:5233df69-8275-4c68-983b-9f1334712163 tags:
### Des données de mauvaise qualité
%% Cell type:markdown id:5e21753f-ce7c-432e-be83-4ca41573d7e7 tags:
Inutile de revenir sur cette évidence, si vous dites à un enfant qu’une pomme est une orange, l’ordinateur ne saurait être plus intelligent que lui et considérera face à une pomme qu’il a affaire à une orange. Il n’y a guère que Humpty Dumpty, l’œuf philosophe de *Through the Looking-Glass, and What Alice Found There*, pour décider qu’une pomme peut être une orange, et comprendre qu’il s’agit d’une pomme :
> ‘When I use a word,’ Humpty Dumpty said in rather a scornful tone, ‘it means just what I choose it to mean – neither more nor less.’
>
> ‘The question is,’ said Alice, ‘whether you can make words mean so many different things.’
>
> ‘The question is,’ said Humpty Dumpty, ‘which is to be master – that’s all’
Rassurons-nous, le pouvoir chamanique de nommer les choses ressortit encore à l’humain ! Charge à nous de contestons à Humpty Dumpty sa fonction de *maître des significations* (Castoriadis) et, en attendant, le temps consacré au nettoyage des données n’est jamais perdu, que ce soit pour les compléter, les corriger, les normaliser, voire les supprimer.
%% Cell type:markdown id:03c83199-51e4-45a4-b412-b36163e1836e tags:
### Des données qui ne sont pas représentatives
%% Cell type:markdown id:2fb917ff-41e6-4017-a9d4-97c17b059126 tags:
#### Le bruit d’échantillonnage
%% Cell type:markdown id:2c442d1e-2ef5-4939-943b-d4130c0d10da tags:
Lorsque l’échantillon est trop réduit, il ne parvient pas à rendre compte de la réalité. Si vous entraînez un modèle dessus, vous aurez beau obtenir une évaluation encourageante validée par plusieurs méthodes statistiques, les prédictions sur de nouvelles données ne seront guère convaincantes.
Le modèle linéaire ci-dessous, issu d’une [enquête sur les troubles alimentaires](./0.about-datasets.ipynb#Self-Reports-of-Height-and-Weight) (Davis, 1990), montre la relation entre la masse corporelle d’une personne et sa taille pour un échantillon de 20 individus :
![Relation entre poids et taille](./images/davis-wh20.png)
Le modèle suivant prend quant à lui un échantillon de 40 individus :
![Relation entre poids et taille](./images/davis-wh40.png)
%% Cell type:markdown id:01ebb898-0551-4ff6-a9c8-19aec3fed9ba tags:
En doublant l’effectif, non seulement la droite de régression a une pente plus forte, mais l’intervalle de confiance à 95 % se resserre.
%% Cell type:markdown id:dec97353-28e7-446f-bbfc-a3c125ff7750 tags:
#### Le biais d’échantillonnage
%% Cell type:markdown id:916970bf-9317-43c3-a4e3-fbf59b5ea80e tags:
Disposer de milliers voire de millions d’observations ne garantit pas d’obtenir un modèle robuste. Tout peut dépendre en effet de la manière dont l’enquête aura été construite au départ. Demander aux membres du club des supporters du PSG s’ils aiment le football ne sera pas représentatif de l’avis de la population générale. Pas plus que d’effectuer une recherche sur Deezer sur les tendances actuelles sachant que les algorithmes auront déjà été entraînés sur vos écoutes précédentes et qu’ils les auront comparées avec les goûts d’autres abonné·es au profil similaire.
%% Cell type:markdown id:b4314a3b-ed5d-4a12-a634-38dd18633edd tags:
### Des variables explicatives qui ne sont pas pertinentes
%% Cell type:markdown id:81c4f822-13d1-4377-89e1-965fe265b118 tags:
L’esprit humain a une tendance naturelle à établir une relation de cause à effet entre deux événements. Observer que 55 % des électeurs de J.-L. Mélenchon mangent du fromage et boivent de la bière, quand c’est le cas de seulement 23 % des pro-Macron, ne permet pas de conclure qu’un amateur de fromage va sans doute voter pour le premier plutôt que pour le second, et encore moins de formuler une hypothèse selon laquelle une bactérie du camembert influerait sur la décision face aux urnes.
Si l’exemple précédent est inventé, le suivant montre une corrélation entre l’évolution du nombre de cas d’autisme dans les établissements scolaires aux États-Unis et d’une part l’évolution de la proportion d’OGM dans les surfaces agricoles, d’autre part l’évolution du volumes de ventes réalisées par l’industrie alimentaire biologique :
![Évolution du nombre de cas d’autisme](./images/evolution-autism.png)
Comme en plus le calcul du coefficient de corrélation de Pearson montre une relation plus forte entre le bio et les cas d’autisme (0,99 contre 0,97 pour les OGM), une interprétation rapide en déduirait l’hypothèse selon laquelle l’agriculture biologique est plus propice à l’apparition de troubles autistiques que les OGM.
Pour les sources des données :
>- [Students With Disabilities](http://nces.ed.gov/programs/coe/indicator_cgg.asp)
>- [Evolution of planted agricultural areas](http://usda.mann.library.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1000)
>- [Organic Industry Survey](http://ota.com/resources/organic-industry-survey)
Et pour terminer sur une pointe d’humour, le site *Le Monde* propose un [générateur aléatoire de comparaisons absurdes](https://www.lemonde.fr/les-decodeurs/article/2019/01/02/correlation-ou-causalite-brillez-en-societe-avec-notre-generateur-aleatoire-de-comparaisons-absurdes_5404286_4355770.html).
En conclusion, *cum hoc sed non propter hoc* (La corrélation n’implique pas la causalité).
%% Cell type:markdown id:4f867197-daae-4b40-85a4-da6d304f061f tags:
### Des échelles de mesure différentes
%% Cell type:markdown id:60535d0b-2290-4c80-84c5-7f5ffedaa475 tags:
Toujours sur les mêmes données de l’évolution des cas d’autisme, les courbes sur les graphiques ci-dessous semblenet montrer que le secteur de l’agriculture biologique augmente de manière parralèle au nombre de cas d’autisme recensés, tandis que la part d’OGM dans les cultures reste stable, à un seuil proche de zéro.
Toujours sur les mêmes données de l’évolution des cas d’autisme, les courbes sur les graphiques ci-dessous semblent montrer que le secteur de l’agriculture biologique augmente de manière parralèle au nombre de cas d’autisme recensés, tandis que la part d’OGM dans les cultures reste stable, à un seuil proche de zéro.
%% Cell type:markdown id:359ded53-45c2-4ded-b8ce-f24d88b61eb4 tags:
![Données sur des échelles différentes](./images/evolution-autism-no-scale.png)
![](./images/evolution-autism-no-scale.png)
Cette interprétation est bien évidemment fausse. Tout d’abord, nous l’avons vu, il n’existe aucune causalité entre les volumes de vente de l’agriculture biologique ou la part d’OGM dans les surfaces agricoles et les cas d’autisme ; ensuite, l'échelle de mesure n’est pas du tout la même : quand la courbe des OGM est exprimée en pourcentages, sur une échelle de 0 à 100, celle des volumes de vente s’échelonne entre 10 000 et 30 000, et celle des cas d’autisme commence à 160 000 pour terminer à près de 500 000.
%% Cell type:markdown id:7bf4368d-a951-4685-8dd8-10742da9c5be tags:
Cette interprétation est bien évidemment fausse. Tout d’abord, nous l’avons vu, il n’existe aucune causalité entre les volumes de vente de l’agriculture biologique ou la part d’OGM dans les surfaces agricoles et les cas d’autisme ; ensuite, l'échelle de mesure n’est pas du tout la même : quand la courbe des OGM est exprimée en pourcentages, sur une échelle de 0 à 100, celle des volumes de vente s’échelonne entre 10 000 et 30 000, et celle des cas d’autisme commence à 160 000 pour terminer à près de 500 000.
Pour cette raison, si vous voulez montrer l’évolution de deux courbes, vous devez d’abord passer leurs données sur la même échelle, en adoptant l’une des deux méthodes privilégiées : **la standardisation** (*Z score normalization*) ou **la normalisation** (*Min-Max normalization*).
%% Cell type:markdown id:30fa921e-b50d-4e60-99c2-a243030c6365 tags:
### Le paradoxe de Simpson
%% Cell type:markdown id:8d179735-20b4-4eca-bcf1-c0bf250a4fb1 tags:
Bien plus difficile à détecter, le paradoxe de Simpson, du nom du statisticien Edward Simpson qui l’a décrit en 1951, est une bizarrerie mathématique qui montre que, combinés, les résultats de plusieurs groupes sont inversés par rapport à leurs résultats individuels.
Bien plus difficile à détecter, une bizarrerie mathématique qui montre que, combinés, les résultats de plusieurs groupes sont inversés par rapport à leurs résultats individuels. Il s’agit du paradoxe de Simpson, du nom du statisticien Edward Simpson qui l’a décrit en 1951.
Prenons un exemple issu [du recensement des manchots en Antarctique](./0.about-datasets.ipynb#Size-measurements-for-adult-foraging-penguins-near-Palmer-Station,-Antarctica) (Gorman, 2014). Le graphique ci-dessous montre la corrélation entre la masse corporelle d’un manchot et la taille de son bec.
![Le paradoxe de Simpson](./images/penguins-simpson.png)
La droite de régression ne laisse aucun doute : les becs des manchots rétrécissent à mesure qu’ils prennent du poids. Une conclusion contre-intuitive, non ? On penserait plutôt l’inverse d’un individu lambda, qu’il existe une corrélation positive entre le poids et les autres caractéristiques physiques. Quelle erreur avons-nous commise ici ?
Sur le graphique se distinguent nettement deux groupes de manchots, une observation qui nous laisse penser que nous avons négligé un critère dans notre analyse. Regardons ce qu’il en est pour les manchots mâles et les manchots femelles :
![Le paradoxe de Simpson : hypothèse de facteur de confusion](./images/penguins-by-sex-simpson.png)
Notre hypothèse ne fait que renforcer la conclusion, aussi, les manchots seraient-ils la première espèce animale à voire leur silhouette s’affiner avec la prise de masse ? Définitivement, non. Pour s’en assurer, on devrait plutôt s’intéresser aux différentes espèces qui composent la grande famille des manchots et à leurs disparités physiques :
![Le paradoxe de Simpson : effet inverse sur les sous-groupes](./images/penguins-by-specy-simpson.png)
C’est l’illustration du paradoxe de Simpson, où l’espèce des manchots influe autant sur la cause (masse plus ou moins importante) que sur la conséquence (longueur du bec variant également selon l’espèce). On parle alors de **facteur de confusion**.
%% Cell type:markdown id:926bc758-f060-44fe-a5ac-bd11bcf67ab4 tags:
### Des problèmes d’ajustement
%% Cell type:markdown id:615d9158-4103-4bf4-8087-8972c838e217 tags:
Les systèmes sont tout autant soumis au problème du sur-entraînement (*overfitting*) ou du sous-entraînement (*underfitting*). Un algorithme trop simple ne pourra mettre en évidence la structure des données quand un algorithme trop compliqué – parce que parfaitement ajusté aux données sur lesquelles il s’est entraîné – provoquera des erreurs de généralisation importantes.
Les systèmes sont tout autant soumis au problème du **sur-entraînement** (*overfitting*) qu’à celui du **sous-entraînement** (*underfitting*). Un algorithme trop simple ne pourra mettre en évidence la structure des données quand un algorithme trop compliqué – parce que parfaitement ajusté aux données sur lesquelles il s’est entraîné – provoquera des erreurs de généralisation importantes.
On peut estimer par exemple qu’un modèle linéaire sous-ajustera systématiquement par rapport à la réalité et que, a contrario, un modèle polynomial de très haut degré sur-ajustera tellement que ses prédictions se révéleront toutes fausses.
%% Cell type:markdown id:379d864d-0d7e-43c2-b268-c3e674083691 tags:
## Pour aller plus loin
%% Cell type:markdown id:587d9328-3564-478f-82c3-02359ca6cea3 tags:
* Géron, Aurélien. – [*Hands-on Machine Learning With Scikit-learn, Keras, and Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems*](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/). 3e édition. – Farnham : O'Reilly UK Limited, 2022. – 850 p. – ISBN : 978-1098125974.
* Géron, Aurélien. – [*Machine Learning Notebooks, 3rd edition*](https://github.com/ageron/handson-ml3) (GitHub).
......
notebooks/machine-learning/images/penguins-by-sex-simpson.png

35.8 KiB

notebooks/machine-learning/images/penguins-by-specy-simpson.png

22.8 KiB

notebooks/machine-learning/images/penguins-simpson.png

27.9 KiB

0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment