Exercise on dataviz
Compare changes
Files
2
notebooks/data-vizualisation/answer.ipynb
0 → 100644
+ 257
− 0
```
```
Pour les besoins du TD, nous allons établir une liste des variables qui nous intéresseraient dans le cadre d’une tâche banale de classification en apprentissage supervisé. Ici, nous formulons l’idée de prédire la survie d’un·e passager·ère en fonction de certains indicateurs. Il est d’usage de bien identifier les variables explicatives et la variable cible et de travailler sur une copie du fichier original qui restera toujours accessible dans `df` :
```
```
```
```
```
```
Nous posons la question de savoir si le prix payé pour la traversée est fonction de la classe de transport. Après tout, nous sommes habitué·es aujourd’hui à l’idée qu’un même billet avec les mêmes prestations ne soit pas vendu au même tarif à deux personnes différentes, aussi qu’en était-il à bord du *Titanic* ?
```
On remarque que les personnes ayant embarqué à Queenstown, l’actuelle ville de Cobh dans le sud-ouest de l’Irlande, ont en moyenne payé leur ticket moins cher que les autres. Peut-être étaient-ils plus nombreux à embarquer ? Vérifions cette hypothèse avec la méthode `.countplot()` afin de connaître la répartition des passagers et des passagères :
```
Une autre question, serait de savoir s’il n’existait pas une discrimination tarifaire en fonction du port d’embarquement. Pour en juger, affichez un nouveau diagramme en barres avec, en abscisses, la classe de transport, en ordonnées le tarif et le port d’embarquement comme discriminant (paramètre `hue`) :
```
```
```
```