diff --git a/environment.yml b/environment.yml
index 4c16e3c1caadfd3b424b6a3e9df7e23993dda2d9..5151ceab3d2e888693db1e433f24f5eb541d15c4 100644
--- a/environment.yml
+++ b/environment.yml
@@ -11,3 +11,5 @@ dependencies:
   - pip
   - python=3.10
   - seaborn=0.11
+  - scikit-learn=1.1
+  - scipy=1.9
diff --git a/notebooks/machine-learning/0.about-datasets.ipynb b/notebooks/machine-learning/0.about-datasets.ipynb
index 80e312b82fc009db9c603bd4c8d4f0ec464a1910..90d53434e9cb3f54078b8a355ee26b27cbb88c5b 100644
--- a/notebooks/machine-learning/0.about-datasets.ipynb
+++ b/notebooks/machine-learning/0.about-datasets.ipynb
@@ -10,6 +10,50 @@
     "# Ã€ propos des jeux de donnÃ©es"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "id": "60583238-a68b-4126-8577-60cdbdbcb401",
+   "metadata": {},
+   "source": [
+    "## Satisfaction Ã  lâ€™hÃ´pital"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "1c4f5463-1dfb-40a0-be4d-ae77c351642d",
+   "metadata": {},
+   "source": [
+    "**Fichier :** [satisfaction-hopital.csv](./files/satisfaction-hopital.csv)\n",
+    "\n",
+    "Ã‰valuation de la satisfaction dâ€™un patient relativement Ã  son sÃ©jour Ã  lâ€™hÃ´pital."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "0ce5ee58-72ac-4397-acfd-91ab65779218",
+   "metadata": {},
+   "source": [
+    "## Contenu"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "db0bf7d8-71bb-4c42-ad68-69ad68d811af",
+   "metadata": {},
+   "source": [
+    "|Variable|Signification|\n",
+    "|:-:|-|\n",
+    "|*service*|Code (de 1 Ã  8) du service ayant accueilli le patient|\n",
+    "|*sexe*|Sexe du patient (0 homme, 1 femme)|\n",
+    "|*age*|Ã¢ge en annÃ©es|\n",
+    "|*profession*|<ol><li>agriculteur exploitant</li><li>artisan, commerÃ§ant, chef d'entreprise</li><li>cadre, profession intellectuelle ou artistique, profession libÃ©rale</li><li>profession intermÃ©diaire de l'enseignement, de la santÃ©, du travail social ou de la fonction publique, technicien, contremaÃ®tre, agent de maÃ®trise, clergÃ©</li><li>employÃ©</li><li>ouvrier</li><li>Ã©tudiant, militaire, chÃ´meur sans avoir jamais travaillÃ©</li><li>autre</li></ol>|\n",
+    "|*amelioration.sante*|Impression dâ€™amÃ©lioration de la santÃ© du fait du sÃ©jour Ã  lâ€™hÃ´pital (codÃ© de 0 : aggravÃ©e, Ã  3 : nettement amÃ©liorÃ©e)|\n",
+    "|*amelioration.moral*|Impression dâ€™amÃ©lioration du moral du fait du sÃ©jour Ã  lâ€™hÃ´pital (codÃ© de 0 : aggravÃ©, Ã  3 : nettement amÃ©liorÃ©)|\n",
+    "|*recommander*|recommander le service Ã  son entourage (codÃ© 0 : non, 1 : oui, probablement, 2 : oui, sÃ»rement)|\n",
+    "|*score.information*|score relatif Ã  la qualitÃ© de lâ€™information reÃ§ue pendant le sÃ©jour (score variant de 10 Ã  40)|\n",
+    "|*score.relation*|score relatif Ã  la qualitÃ© des relations avec le personnel soignant pendant le sÃ©jour (score variant de 10 Ã  40)|"
+   ]
+  },
   {
    "cell_type": "markdown",
    "id": "bc0377fc-c0fc-439e-afe7-7103b54ca183",
diff --git a/notebooks/machine-learning/1.machine-learning.ipynb b/notebooks/machine-learning/1.machine-learning.ipynb
index 93769e63644fa26102922ceba192532c1de23d0e..485d1be3250c692f627a34fd8868627893a9c052 100644
--- a/notebooks/machine-learning/1.machine-learning.ipynb
+++ b/notebooks/machine-learning/1.machine-learning.ipynb
@@ -272,7 +272,7 @@
     "|3|Chinstrap|Chinstrap|vrai|\n",
     "|4|Gentoo|Gentoo|vrai|\n",
     "\n",
-    "Quatre prÃ©visions correctes sur cinq donne un taux de succÃ¨s de 80 %. On parle alors dâ€™exactitude (*accuracy*).\n",
+    "Quatre prÃ©visions correctes sur cinq donnent un taux de succÃ¨s de 80 %. On parle alors dâ€™exactitude (*accuracy*).\n",
     "\n",
     "Pour une tÃ¢che de rÃ©gression, on aurait sÃ©lectionnÃ© une autre mesure de la performance, comme lâ€™erreur quadratique moyenne (*mean squared error*) ou lâ€™erreur absolue moyenne (*mean absolute error*)."
    ]
diff --git a/notebooks/machine-learning/2.dealing-with-numerical-data.ipynb b/notebooks/machine-learning/2.dealing-with-numerical-data.ipynb
new file mode 100644
index 0000000000000000000000000000000000000000..acef542cbff3a4e26f66a6bdeecf55ee3803633d
--- /dev/null
+++ b/notebooks/machine-learning/2.dealing-with-numerical-data.ipynb
@@ -0,0 +1,1080 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "7f8cb5cf-d21b-48eb-96b3-94a83dcd6cae",
+   "metadata": {},
+   "source": [
+    "# GÃ©rer des donnÃ©es numÃ©riques dans un projet dâ€™apprentissage supervisÃ©"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7c599a71-0737-4bf5-b599-0f68a79536a5",
+   "metadata": {},
+   "source": [
+    "Câ€™est bien connu, les machines adorent les nombres. Ils ont cela de commode quâ€™ils se prÃªtent mieux aux calculs que des symboles comme *pomme* ou *Pommes*. Dans un projet de *machine learning*, les donnÃ©es fournies aux algorithmes dâ€™apprentissage devront toutes Ãªtre reprÃ©sentÃ©es sous forme numÃ©rique et, avant dâ€™aborder la maniÃ¨re de vectoriser des chaÃ®nes de caractÃ¨re, il est plus sage de commencer par la manipulations des nombres, quâ€™ils prennent des valeurs entiÃ¨res ou rÃ©elles.\n",
+    "\n",
+    "Au fil de ce calepin Ã©lectronique, nous programmerons une machine intelligente censÃ©e prÃ©dire une valeur cible pour un ensemble de caractÃ©ristiques, et ce en respectant les Ã©tapes du *workflow* dÃ©crit dans la prÃ©sentationÂ :\n",
+    "\n",
+    "1. Partition du jeu de donnÃ©es en un jeu dâ€™entraÃ®nement et un jeu de test ;\n",
+    "2. entraÃ®nement du modÃ¨le avec un algorithme ;\n",
+    "3. Ã©valuation de la performance du modÃ¨le.\n",
+    "\n",
+    "Nous commencerons Ã  utiliser la librairie [*Scikit-Learn*](https://scikit-learn.org/), spÃ©cifiquement dÃ©diÃ©e aux tÃ¢ches du *machine learning*, mais avant, chargeons quelques-uns des modules courants qui nous seront nÃ©cessaires pour exÃ©cuter les codesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "93ac0581-3977-4425-a038-8143c62390dd",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import matplotlib.pyplot as plt\n",
+    "import pandas as pd\n",
+    "import seaborn as sns\n",
+    "\n",
+    "sns.set_context('notebook')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "bdb74d3b-bb60-4a1d-b5c6-9943a3062e69",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## Identifier une variable alÃ©atoire quantitative"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4914a9e5-8f59-4917-b881-a3bcb9fb5e77",
+   "metadata": {},
+   "source": [
+    "En statistiques, une variable alÃ©atoire est lâ€™une des caractÃ©ristiques dâ€™une observation. Elle peut se reprÃ©senter de maniÃ¨re rudimentaire sous forme de tableau Ã  deux dimensions :\n",
+    "\n",
+    "|Sexe|Taille|\n",
+    "|-|:-:|\n",
+    "|F|180|\n",
+    "|M|172|\n",
+    "|M|167|\n",
+    "|F|178|\n",
+    "\n",
+    "Le tableau Ã©tant composÃ© de trois lignes et de deux colonnes, il est rÃ©putÃ© prÃ©senter deux caractÃ©ristiques pour trois observations dans une structure de dimensions $4\\times 2$.\n",
+    "\n",
+    "Sans se tromper, la variable alÃ©atoire *Sexe* nâ€™est pas de type numÃ©rique quand la variable *Taille*, elle, lâ€™est.\n",
+    "\n",
+    "Comment sâ€™en assurer avec Python ? La propriÃ©tÃ© `dtypes` dâ€™un *data frame* rÃ©pond Ã  lâ€™objectif :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f91e080e-3ebd-4453-bd64-835eae5c87dd",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.DataFrame({\n",
+    "    'gender': ['F', 'M', 'M', 'F'],\n",
+    "    'height': [180, 172, 167, 178]\n",
+    "})\n",
+    "\n",
+    "df.dtypes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a77f499d-2e93-4a5c-9025-ba2231da5390",
+   "metadata": {},
+   "source": [
+    "La variable `height` est bien de type numÃ©rique. Pour autant, une variable alÃ©atoire reprÃ©sentÃ©e sous forme numÃ©rique est-elle systÃ©matiquement quantitative, au sens statistique du terme ?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a98dcd1b-f766-465c-a4a6-40f2088a79e2",
+   "metadata": {},
+   "source": [
+    "### NumÃ©rique â‰  quantitatif"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6e745fc2-561b-4507-b85d-aabe1af9fd3d",
+   "metadata": {},
+   "source": [
+    "Pour quâ€™une variable numÃ©rique soit considÃ©rÃ©e comme quantitative, elle est censÃ©e exprimer une quantitÃ©. AprÃ¨s avoir ajoutÃ© les annÃ©es de naissance des individus, la propriÃ©tÃ© `dtypes` signale que la variable `birth`, conformÃ©ment Ã  lâ€™intuition, est bien de type numÃ©rique :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b9eb769a-5803-40d6-8350-5952dbfdda66",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[\"birth\"] = [1983, 1987, 1987, 2001]\n",
+    "\n",
+    "df.dtypes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "314d9f5f-3a97-43d9-855a-3d543111cc28",
+   "metadata": {},
+   "source": [
+    "TrÃ¨s bien, la variable `birth` est de type numÃ©rique (`int64`), mais est-elle quantitativeÂ ? Pour le dÃ©terminer facilement, il faut se poser la question de savoir si cela fait sens de cumuler les valeurs consignÃ©es. Quand les tailles des individus peuvent former une somme pour obtenir ensuite une moyenne, est-ce raisonnable dâ€™additionner des annÃ©es de naissanceÂ ? Le calcul de la moyenne arithmÃ©tique des annÃ©es de naissance donne pour rÃ©sultat : $1989,5$. Est-il logique de poser ce genre de questionÂ ?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "32a1d256-fe66-456a-a2a4-0193ecd3ba0f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[\"birth\"].mean()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a8f6df12-cc12-4407-815b-b43f696385b5",
+   "metadata": {},
+   "source": [
+    "Eh bien, en fait, oui. Si la moyenne ici nâ€™est pas Ã  proprement parler intÃ©ressante, il est lÃ©gitime de se demander quelle est la mÃ©diane des annÃ©es de naissance des individus interrogÃ©s, elle pourrait expliquer certains rÃ©sultats. En revanche, il nâ€™en serait pas de mÃªme des codes postaux de leur lieu dâ€™habitation ou de leurs numÃ©ros de sÃ©curitÃ© sociale."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "df8f7b6d-2f20-45fd-a3c7-a4b031918926",
+   "metadata": {},
+   "source": [
+    "### Quantitative discrÃ¨te ou continue ?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "810f12fa-2005-4607-83e5-8c0be8fbdd53",
+   "metadata": {},
+   "source": [
+    "La diffÃ©rence est encore parfois plus subtile entre les variables alÃ©atoires quantitatives discrÃ¨tes et continues. Dans lâ€™exemple avec les annÃ©es, la coutume est de considÃ©rer leur valeur comme une discrÃ©tion du temps qui, lui, est continu ; dâ€™un autre cÃ´tÃ©, si le jeu de donnÃ©es comporte une reprÃ©sentation dÃ©cimale des annÃ©es, oÃ¹ $1998,55$ Ã©quivaudrait au 15 juin 1998, rien nâ€™interdit de considÃ©rer quâ€™il existe alors une continuitÃ©.\n",
+    "\n",
+    "Parfois, une distinction commode vÃ©hiculÃ©e par certaines sources consiste Ã  considÃ©rer une donnÃ©e reprÃ©sentÃ©e par un Ã©lÃ©ment de lâ€™ensemble $\\mathbb{Z}$ comme discrÃ¨te, mais appliquer cette prÃ©conisation sans rÃ©flexion peut amener Ã  des erreurs dâ€™interprÃ©tation. Lâ€™Ã¢ge, par exemple, est souvent notÃ© sous forme dâ€™entiers naturels. Il sâ€™agit dâ€™une conventionÂ : personne ne passe rÃ©ellement de $x$ ans Ã  $x+1$ ans sans vivre les intervalles, siÂ ? Pour sâ€™en assurer tout Ã  fait, demandons-nous si le calcul de lâ€™Ã¢ge moyen des individus dâ€™une enquÃªte ferait sens.\n",
+    "\n",
+    "En revanche, si au moment de la prÃ©paration des donnÃ©es de lâ€™enquÃªte, on Ã©tablissait des classes dâ€™Ã¢ge (moins de 18 ans, plus de 35 ans etc.), la variable deviendrait discrÃ¨te, et qualitative. Dâ€™autres donnÃ©es posent les mÃªmes difficultÃ©s, comme la taille, ou le poids, qui, comme elles sont exprimÃ©es avec une unitÃ© et ne peuvent prendre quâ€™une valeur isolÃ©e, sont cataloguÃ©es gÃ©nÃ©ralement comme valeurs discrÃ¨tes. Pourtant, la taille et le poids **dâ€™un individu** peuvent prendre, si mesurÃ©s prÃ©cisÃ©ment, nâ€™importe quelle valeur dans un intervalle (p. ex. : de 0 Ã  300 cm) et exprimer ainsi une continuitÃ©.\n",
+    "\n",
+    "Comment, alors, Ãªtre sÃ»rÂ·es de faire le bon choixÂ ? Dans le doute, une bonne option est de se reposer sur la reprÃ©sentation graphique de la variable en ballottageÂ :\n",
+    "- Un diagrammes en barres pour une quantitative discrÃ¨teÂ ;\n",
+    "- un histogramme pour une quantitative continue.\n",
+    "\n",
+    "Dans notre petit jeu de donnÃ©es, nous avons cataloguÃ© la variable *annÃ©e* comme une quantitative discrÃ¨te. ReprÃ©sentons-la avec un diagramme en barres, puis un histogrammeÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "dab08a7d-1778-4c97-b632-9e9ee7f21ba2",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "figure, (ax_1, ax_2) = plt.subplots(ncols=2, figsize=(10,4))\n",
+    "\n",
+    "sns.countplot(data=df, x=\"birth\", ax=ax_1)\n",
+    "sns.histplot(data=df, x=\"birth\", ax=ax_2)\n",
+    "\n",
+    "ax_1.set(title=\"Un diagramme en barres\", xlabel=\"AnnÃ©e\", ylabel=\"Nombre\")\n",
+    "ax_2.set(title=\"Un histogramme\", xlabel=\"AnnÃ©e\", ylabel=\"Nombre\")\n",
+    "\n",
+    "sns.despine()\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b8876458-428a-4f4f-b19e-77cc430d9561",
+   "metadata": {},
+   "source": [
+    "Quand le premier graphique parle de lui-mÃªme, le second peine Ã  convaincre."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "5e0c9a52-6afb-40fb-a897-a49a4f65d13e",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## La dÃ©licate question du prÃ©-traitement des donnÃ©es"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "5132fc43-5d40-4152-abfe-7d435e3d9921",
+   "metadata": {},
+   "source": [
+    "Un algorithme de *machine learning* est grandement dÃ©pendant de la qualitÃ© des donnÃ©es sur lesquelles il est entraÃ®nÃ©. Pour cette raison, la phase de prÃ©-traitement (*pre-processing*) est cruciale. Il sâ€™agira de ne laisser aucune donnÃ©e manquante dans le jeu de donnÃ©es et dâ€™harmoniser les grandeurs des variables numÃ©riques."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d27cf469-38d0-47c6-bbe2-84e7f75fc2e0",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### Distinguer les variables explicatives"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "cca97370-a986-40e5-921e-213bd87bd338",
+   "metadata": {},
+   "source": [
+    "Toutes les variables alÃ©atoires dâ€™une enquÃªte ne servent pas forcÃ©ment Ã  expliquer un trait. Si lâ€™ambition dâ€™un algorithme est par exemple de prÃ©dire lâ€™appartenance dâ€™un manchot Ã  telle ou telle espÃ¨ce, son sexe ne sera pas un facteur dÃ©terminant, alors que la longueur de ses nageoires le serait probablement.\n",
+    "\n",
+    "CommenÃ§ons par charger le rÃ©sultat dâ€™une enquÃªte sur la satisfaction des patients Ã  lâ€™hÃ´pitalÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8cf3ad26-d808-4792-b1e5-84c75f0c972c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./files/satisfaction-hopital.csv\", delimiter=\";\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4c16c35c-3cd0-4e0b-bf68-b593c506855a",
+   "metadata": {},
+   "source": [
+    "Afin de ne pas dÃ©cider abritrairement des variables Ã  sÃ©lectionner, on dresse une matrice de corrÃ©lation oÃ¹ le score rÃ©vÃ¨le leur dÃ©pendance avec la variable cible. Sur un *data frame*, il suffit dâ€™appeler la mÃ©thode `.corr()`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6172b241-7bbd-4543-b47c-a5fd952d5e14",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "target = \"recommander\"\n",
+    "correlation_matrix = df.corr()\n",
+    "\n",
+    "correlation_matrix[target]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "941e23c7-fc22-4827-a7fa-233102d17399",
+   "metadata": {},
+   "source": [
+    "Par dÃ©faut, le score calculÃ© est le coefficient de corrÃ©lation de Pearson (ou *r* de Pearson), qui rend compte de la dÃ©pendance entre deux variables. On parle bien de dÃ©pendance et non pas de lien de causalitÃ©. Ã‰chelonnÃ© dans un intervalle situÃ© entre $\\mathopen{[}-1;1\\mathclose{]}$, il indique la sensibilitÃ© dâ€™une variable de la paire Ã  la variance de lâ€™autre. Un score de $1$ montre ainsi une corrÃ©lation linÃ©aire positive, un score de $-1$ une corrÃ©lation linÃ©aire nÃ©gative, et un score de $0$ quâ€™il nâ€™existe aucune corrÃ©lation entre les variables.\n",
+    "\n",
+    "Ã€ partir de la matrice de corrÃ©lation, il est facile dâ€™obtenir une carte thermique, parfois plus facile Ã  lireÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cf8e38be-3f23-480f-8a0b-8b6a5d31449c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "_ = sns.heatmap(correlation_matrix)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "63e5ea8f-b889-42d7-8898-fadde628c7a5",
+   "metadata": {},
+   "source": [
+    "Dans lâ€™exemple de lâ€™enquÃªte sur la satisfaction Ã  lâ€™hÃ´pital, on remarque que la variable *recommander* est quelque peu dÃ©pendante du score attribuÃ© par le patient Ã  la relation avec le personnel soignant et Ã  la qualitÃ© de lâ€™information quâ€™il a reÃ§ue. Comme les coefficients de corrÃ©lation sont assez faibles, on pourrait tout aussi bien retenir comme variables explicatives la perception de lâ€™amÃ©lioration du moral et de lâ€™Ã©tat de santÃ© du patientÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "3cf686bc-5b1c-4c13-ba5c-9f06f0245b24",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "features = [\"score.relation\", \"score.information\", \"amelioration.sante\", \"amelioration.moral\"]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e517eeb7-5309-46ba-ab99-730a90fc5c2a",
+   "metadata": {},
+   "source": [
+    "Il ne reste plus quâ€™Ã  reconstituer le jeu de donnÃ©es sur lequel nous allons entraÃ®ner lâ€™algorithme dâ€™apprentissageÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "0ffa617d-a11c-4ff1-a450-51cb83f911b6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data = pd.DataFrame(df[features + [target]])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c729fb68-fe6c-46ef-81a5-804b0776d115",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### La chasse aux donnÃ©es manquantesâ€¦"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4edf0aba-018d-46ff-8689-4f7870783483",
+   "metadata": {},
+   "source": [
+    "Comment repÃ©rer les donnÃ©es manquantes dans un *dataset* et, surtout, comment les gÃ©rerÂ ? Pour une seule variable sans valeur, faut-il supprimer toute lâ€™observationÂ ? Et sâ€™il est question de la remplacer, quelle valeur choisirÂ ?\n",
+    "\n",
+    "La mÃ©thode `.info()` dâ€™un *data frame* nous donne un aperÃ§u de lâ€™Ã©tendue des donnÃ©es manquantesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "c64bb4a7-55ab-45e7-96c7-5e3c2597885f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "0a1f3de5-6f37-4d9e-a771-55efc54ab1e3",
+   "metadata": {},
+   "source": [
+    "Il en ressort que les 534 observations ne sont pas toutes complÃ¨tes, loin sâ€™en faut."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "adfbcee8-a2e2-4225-9965-ae260869b307",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "#### Supprimer les observations avec donnÃ©es manquantes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e4c8cae9-1900-4e81-b8ba-e175ba8a8b96",
+   "metadata": {},
+   "source": [
+    "La premiÃ¨re stratÃ©gie consiste Ã  supprimer les observations concernÃ©es. Les *data frames* disposent dâ€™une mÃ©thode `.dropna()`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6f66b937-5a60-4cd1-81ec-5b411c737f64",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data_copy = data.dropna()\n",
+    "\n",
+    "data_copy.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a863d69d-6eca-41ad-9029-ee644cfa579d",
+   "metadata": {},
+   "source": [
+    "Lâ€™opÃ©ration a dÃ©truit pratiquement 50Â % de lâ€™Ã©chantillon, un rapport qui nous semble trop consÃ©quent pour ce jeu de donnÃ©es. Une meilleure stratÃ©gie consisterait Ã  combler les manques.\n",
+    "\n",
+    "Pour autant, il est primordial que la sÃ©rie contenant la variable cible soit complÃ¨te. Aussi, supprimons les observations oÃ¹ la variable *recommander* nâ€™a pas Ã©tÃ© renseignÃ©eÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "72f81239-2738-4c39-9fb8-983769f7057a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# select rows where target is not null\n",
+    "data = data[data[target].notna()]\n",
+    "data.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d846ee20-fa15-47d2-b36e-8967d438e196",
+   "metadata": {},
+   "source": [
+    "Et, par commoditÃ©, rÃ©indexons le *data frame* avec la mÃ©thode `.reset_index()`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "81cfd867-776a-4f77-b15d-54feb7836372",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data = data.reset_index(drop=True)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7cfaaa82-7de9-45fd-b3f4-bb38cacb6789",
+   "metadata": {},
+   "source": [
+    "#### Remplacer par une valeur"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "7d024fe1-db93-4f5d-9238-e90f445d716b",
+   "metadata": {},
+   "source": [
+    "Plusieurs options se prÃ©sententÂ : remplacer par des zÃ©ros, par une valeur fixe, par la moyenne, par la mÃ©diane ou encore par la valeur la plus reprÃ©sentÃ©e. Chacune de ces options a ses avantages et ses inconvÃ©nients.\n",
+    "\n",
+    "*Scikit-Learn* dispose dâ€™une classe `SimpleImputer` pour rÃ©aliser nâ€™importe laquelle de ces options. Elle prend un paramÃ¨tre `strategy`, dont les valeurs sont Ã  choisir parmiÂ : `mean` (option par dÃ©faut), `median`, `most_frequent`, `constant`. Si la stratÃ©gie `constant` est sÃ©lectionnÃ©e, il faut indiquer la valeur dans un paramÃ¨tre `fill_value`.\n",
+    "\n",
+    "RemplaÃ§ons dans un premier temps les valeurs manquantes par une valeur fixe, le zÃ©roÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b89a0cfa-35fd-4f03-ac6e-db48594c6361",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.impute import SimpleImputer\n",
+    "\n",
+    "# copy of the data\n",
+    "data_copy = pd.DataFrame.copy(data)\n",
+    "# new instance\n",
+    "imputer = SimpleImputer(strategy=\"constant\", fill_value=0)\n",
+    "# fit the imputer to data\n",
+    "imputer.fit(data_copy)\n",
+    "# create a matrice\n",
+    "X = imputer.transform(data_copy)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "50f2adb8-9717-4e03-a48d-bb39d01a2f28",
+   "metadata": {},
+   "source": [
+    "Dans les donnÃ©es avant traitement, la 7e observation contient deux donnÃ©es manquantesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "f1c565e7-f691-44b7-88c5-f407c7cc5574",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "data.iloc[6,:]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "74123eec-e59c-4691-b76c-aac1ba9ad21c",
+   "metadata": {},
+   "source": [
+    "AprÃ¨s traitement, elles ont bien Ã©tÃ© fixÃ©es Ã  0Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "e163344f-271f-4e90-be7a-a78b7522af5b",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# missing values for the 7th sample are now fixed to 0\n",
+    "X[6]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e31af55d-7d37-406d-9ba4-b5a36b2c5d90",
+   "metadata": {},
+   "source": [
+    "Cette mÃ©thode Ã©tant trop destructive, remplaÃ§ons plutÃ´t par la valeur mÃ©dianeÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "9bb56765-cb5f-443c-a0a9-b452639857bf",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# copy\n",
+    "data_copy = pd.DataFrame.copy(data)\n",
+    "# an imputer with median strategy\n",
+    "imputer = SimpleImputer(strategy=\"median\")\n",
+    "# shortcut for fit then transform\n",
+    "X = imputer.fit_transform(data_copy)\n",
+    "\n",
+    "# values for the 7th sample\n",
+    "X[6]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "03e7f2b9-249d-4ff1-bb14-284478a3823c",
+   "metadata": {},
+   "source": [
+    "Dâ€™autres imputeurs existentÂ :\n",
+    "- `KNNImputer`, pour estimer les valeurs manquantes en fonction des valeurs voisinesÂ ;\n",
+    "- `IterativeImputer`, qui estime les valeurs Ã  imputer pour chaque caractÃ©ristique Ã  partir de toutes les autres."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "89b9cc8f-b093-405b-85d8-bdf70c42a927",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### â€¦ et aux donnÃ©es aberrantes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d324792f-6317-41a3-aab6-613eed13ed84",
+   "metadata": {},
+   "source": [
+    "Les mÃªmes stratÃ©gies peuvent sâ€™appliquer aux donnÃ©es aberrantes, les valeurs extrÃªmes pouvant affecter nÃ©gativement certaines mesures. Il sâ€™agit parfois dâ€™un zÃ©ro surnumÃ©raire ou du dÃ©placement de la virgule dans la notation dÃ©cimale dâ€™une quantitÃ©. La moyenne arithmÃ©tique est par exemple trÃ¨s sensible Ã  ces erreurs. Et il en va de mÃªme des algorithmes dâ€™apprentissage automatique."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "20959423-cc01-49dd-a6fc-0df629060008",
+   "metadata": {},
+   "source": [
+    "### SÃ©parer les donnÃ©es en jeux dâ€™entraÃ®nement et de test"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "423ac871-d5a2-4839-828d-ff6fec8c4254",
+   "metadata": {},
+   "source": [
+    "Il serait tout Ã  fait possible de programmer un systÃ¨me intelligent sur lâ€™ensemble des donnÃ©es Ã  disposition, mais il ne permettrait alors pas de rendre compte de sa performance sur des donnÃ©es qui lui sont inconnues. Pour cette raison, il est dâ€™usage de constituer un jeu pour lâ€™entraÃ®ner et un autre pour le mettre Ã  lâ€™Ã©preuve.\n",
+    "\n",
+    "*Scikit-Learn* propose une fonction `train_test_split()` pour faciliter leur mise en place. Non seulement elle sÃ©parera les variables explicatives et la variable cible en deux jeux, mais elle les aura au prÃ©alable mÃ©langÃ©es afin dâ€™Ã©viter tout biais dÃ» au tri des observationsÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "40d3f02e-5e78-498c-8cab-a9ca976e878c",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.model_selection import train_test_split\n",
+    "\n",
+    "# two data frames for: i) the target; ii) the features\n",
+    "y = data[target]\n",
+    "X = data.drop(columns=target)\n",
+    "\n",
+    "# two sets for both data frames\n",
+    "X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "b3b8be6b-ee29-4168-a0b0-ff9ab1c2e9f4",
+   "metadata": {},
+   "source": [
+    "Le paramÃ¨tre `test_size` permet dâ€™indiquer la proportion Ã  utiliser. Lâ€™usage recommande un partage 80/20, 80Â % pour le jeu dâ€™entraÃ®nement et 20Â % pour le jeu de test, mais il est Ã  ajuster en fonction de la quantitÃ© de donnÃ©es Ã  disposition.\n",
+    "\n",
+    "Quant au paramÃ¨tre `random_state`, il permet de contrÃ´ler le gÃ©nÃ©rateur de nombres alÃ©atoires utilisÃ©. Lui transmettre un entier naturel permet dâ€™assurer la reproductibilitÃ© de la transformation. La valeur 42 est souvent renseignÃ©e parce quâ€™il sâ€™agit de la rÃ©ponse Ã  la [question ultime sur la vie, lâ€™Univers et tout le reste](https://en.wikipedia.org/wiki/Phrases_from_The_Hitchhiker%27s_Guide_to_the_Galaxy#The_Answer_to_the_Ultimate_Question_of_Life,_the_Universe,_and_Everything_is_42)."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "2736fd39-6991-45ea-be26-4f67c818f055",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### Mise Ã  lâ€™Ã©chelle"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "5a01460e-6dfd-42e3-a94b-c069b0a5fe2e",
+   "metadata": {},
+   "source": [
+    "Les donnÃ©es dâ€™une observation font rarement toutes rÃ©fÃ©rence Ã  une Ã©chelle commune. Lâ€™Ã¢ge dâ€™un individu sera compris entre 0 et 100, sa taille entre 0 et 200, son score de satisfaction entre 0 et 10, la numÃ©ration de ses globules rouges entre 3Â 000Â 000 et 6Â 000Â 000 etc. Il faut savoir que les algorithmes dâ€™apprentissage sont sensibles Ã  la diffÃ©rence entre les grandeurs et fourniront des prÃ©dictions de mauvaise qualitÃ© si certaines variables sont rÃ©parties dans un espace bien plus vaste que les autres.\n",
+    "\n",
+    "La mise Ã  lâ€™Ã©chelle consiste alors Ã  rÃ©duire leur variance ou leur valeur absolue. Plusieurs mÃ©thodes existent et, parmi les plus utilisÃ©es, citons la **standardisation** et la **normalisation**.\n",
+    "\n",
+    "Avant toutes choses, rÃ©cupÃ©rons une variable descriptive de la satisfaction des patients Ã  lâ€™hÃ´pital, le score de relation avec le personnel soignant et comblons manuellement les donnÃ©es manquantesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b5089a7e-f8a3-4449-90d2-a4eb051720c4",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "score_relation_median = data[\"score.relation\"].median()\n",
+    "score_relation = data[\"score.relation\"].fillna(score_relation_median)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "98912bc7-c7b1-41f5-a5f9-2e9ea51771f3",
+   "metadata": {},
+   "source": [
+    "#### La standardisation"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e2ac119f-a851-431b-b26c-949ed2f5a1ab",
+   "metadata": {},
+   "source": [
+    "La standardisation (*Z score normalization*) consiste Ã  centrer la variable autour de 0 de telle maniÃ¨re que son Ã©cart-type soit Ã©gal Ã  1. La formule donne avec $\\mu$ pour la moyenne et $\\sigma$ pour lâ€™Ã©cart-typeÂ :\n",
+    "\n",
+    "$$f(x) = \\frac{x âˆ’ \\mu}{\\sigma}$$\n",
+    "\n",
+    "Avant de centrer-rÃ©duire la variable *score_relation*, lâ€™affichage de sa moyenne et de son Ã©cart-type donne 35,33 pour la premiÃ¨re et 4,25 pour la seconde."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8d9b02eb-d85b-4bb5-a0c1-e97d03754ee0",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(\n",
+    "    f\"Mean value: { score_relation.mean().round(2) }\",\n",
+    "    f\"Standard deviation: { score_relation.std().round(2) }\",\n",
+    "    sep=\"\\n\"\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d7021e34-c512-4eab-bbd6-7e2d4774ef8a",
+   "metadata": {},
+   "source": [
+    "ConcrÃ¨tement, lâ€™opÃ©ration de standardisation va dâ€™abord soustraire la moyenne puis diviser ensuite le rÃ©sultat par lâ€™Ã©cart-type. Si lâ€™on effectue ce calcul Ã  la main, on obtient bien une moyenne Ã  0 et un Ã©cart-type de 1Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b6101999-82f4-491f-96ee-40a8a2f09c22",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "score_relation_scaled = [\n",
+    "    (n - score_relation.mean()) / score_relation.std()\n",
+    "    for n in score_relation\n",
+    "]\n",
+    "score_relation_scaled = pd.Series( (value for value in score_relation_scaled) )\n",
+    "\n",
+    "print(\n",
+    "    f\"Mean value: { score_relation_scaled.mean().round(2) }\",\n",
+    "    f\"Standard deviation: { score_relation_scaled.std().round(2) }\",\n",
+    "    sep=\"\\n\"\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "31eae630-d67f-45a5-8d69-3c10da031725",
+   "metadata": {},
+   "source": [
+    "Il existe heureusement une classe `StandardScaler` dans *Scikit-Learn* pour effectuer lâ€™opÃ©ration plus simplementÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "6da43185-4b4c-4208-affc-f7c4852838f2",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.preprocessing import StandardScaler\n",
+    "\n",
+    "# standard scaler\n",
+    "scaler = StandardScaler()\n",
+    "\n",
+    "# reshape Serie to match 2d array\n",
+    "score_relation_scaled = scaler.fit_transform(score_relation.values.reshape(-1, 1))\n",
+    "\n",
+    "print(\n",
+    "    f\"Mean value: { score_relation_scaled.mean().round(2) }\",\n",
+    "    f\"Standard deviation: { score_relation_scaled.std().round(2) }\",\n",
+    "    sep=\"\\n\"\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "5d93cd73-a75b-48d3-92a2-dbcf1639e019",
+   "metadata": {},
+   "source": [
+    "#### La normalisation"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "297986b4-6260-466a-8c10-d9559a108d55",
+   "metadata": {},
+   "source": [
+    "Plus simple Ã  apprÃ©hender, la normalisation Min-Max (*Min-Max normalization*) est une mÃ©thode qui va soustraire Ã  chaque valeur la minimale puis la diviser ensuite par lâ€™Ã©cart maximal de la sÃ©rie. Comme la formule est basÃ©e sur les extrÃªmes, elle est particuliÃ¨rement sensible aux donnÃ©es aberrantes.\n",
+    "\n",
+    "$$f(x) = \\frac{x âˆ’ min(x)}{max(x) âˆ’ min(x)}$$\n",
+    "\n",
+    "Le rÃ©sultat nâ€™est plus une variable centrÃ©e rÃ©duite, mais une variable dont les valeurs seront contenues dans un intervalle $[0, 1]$.\n",
+    "\n",
+    "En reprenant lâ€™exemple prÃ©cÃ©dent sur le score de relation, nous appliquons cette fois-ci une classe `MinMaxScaler`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "26c16b3b-5d41-4a2e-9169-edc937fd2e3f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.preprocessing import MinMaxScaler\n",
+    "\n",
+    "scaler = MinMaxScaler()\n",
+    "score_relation_scaled = scaler.fit_transform(score_relation.values.reshape(-1, 1))\n",
+    "\n",
+    "score_relation_scaled[:5]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "1c1785c8-ca09-4a31-b111-c74624c3351c",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## La mise en place dâ€™un pipeline"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "44c7eafd-9783-4072-b648-d34c6881ea40",
+   "metadata": {},
+   "source": [
+    "Les pipelines en *machine learning* ne servent pas Ã  convoyer des fluides, comme par exemple du gaz naturel ou du pÃ©trole brut, mais plutÃ´t des donnÃ©es. Comme les Ã©tapes de transformation sont parfois nombreuses et quâ€™il est impÃ©ratif de les exÃ©cuter dans le bon ordre (remplacer les donnÃ©es manquantes avant de mettre les sÃ©ries Ã  lâ€™Ã©chelle, etc.), *Scikit-Learn* fournit une fonction `make_pipeline()` pour garantir la cohÃ©rence entre ellesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "97e4374a-dbd2-4c79-8f70-bdd6e0616fc4",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from sklearn.linear_model import LinearRegression\n",
+    "from sklearn.pipeline import make_pipeline\n",
+    "\n",
+    "model = make_pipeline(\n",
+    "    SimpleImputer(strategy=\"median\"),\n",
+    "    StandardScaler(),\n",
+    "    LinearRegression()\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "05b5406b-1474-44ec-b7ab-720b8b1556b8",
+   "metadata": {},
+   "source": [
+    "Un pipeline est constituÃ© de plusieurs estimateurs. Tous les estimateurs, Ã  lâ€™exception du dernier, doivent Ãªtre des transformateurs.\n",
+    "\n",
+    "Comme la derniÃ¨re Ã©tape est assurÃ©e par un prÃ©dicteur, il suffit maintenant dâ€™appeler la mÃ©thode `.fit()` pour ajuster le modÃ¨le sur les donnÃ©es dâ€™entraÃ®nementÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "790290c5-b3b9-4d0f-89b8-389ee808a690",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "_ = model.fit(X_train, y_train)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f986c186-1f5d-4432-9718-0b0d6c9d84dc",
+   "metadata": {},
+   "source": [
+    "Un autre avantage non nÃ©gligeable des pipelines est quâ€™ils sont nettement plus rapides que si lâ€™on rÃ©alisait les Ã©tapes une Ã  une."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e077b477-13d8-4a1d-8f84-7c5ec84adbb9",
+   "metadata": {},
+   "source": [
+    "## Effectuer des prÃ©dictions"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "3df4846f-b55c-4d9f-840b-a8d16614ce19",
+   "metadata": {},
+   "source": [
+    "La mÃ©thode `.predict()` permet dâ€™effectuer des prÃ©dictions. En lui envoyant les donnÃ©es du jeu de test (`X_test`), cela permet de comparer avec les rÃ©sultats obtenus pour la variable cible (`y_test`)Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8c4d6495-bc11-4995-8f93-0c8eb16dc848",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# make some predictions\n",
+    "model.predict(X_test)\n",
+    "\n",
+    "# evaluate (R2 score, mainly in [0, 1])\n",
+    "model.score(X_test, y_test)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "0c8798f4-a8de-407f-8b0d-bc048ff0db5c",
+   "metadata": {},
+   "source": [
+    "Le coefficient de dÃ©termination mesure ici la qualitÃ© de la prÃ©diction du modÃ¨le de rÃ©gression linÃ©aire. Dâ€™ordinaire situÃ© dans lâ€™intervalle $[0,1]$, un score de 0,43 montre la faiblesse de notre modÃ¨le, mais ne serait-il pas plutÃ´t ici rÃ©vÃ©lateur dâ€™une erreur de mÃ©thodeÂ ? Quelle serait-elle selon vousÂ ?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "feed50c7-8255-4b1e-93b9-cea1353f9daf",
+   "metadata": {},
+   "source": [
+    "### PrÃ©dire avec des donnÃ©es inÃ©dites"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9af6324c-4aaf-4f75-b486-14f045c58683",
+   "metadata": {},
+   "source": [
+    "Afin dâ€™obtenir des prÃ©dictions Ã  partir de donnÃ©es originales, la seule contrainte est quâ€™elles respectent le format des donnÃ©es sur lesquelles la machine a Ã©tÃ© entraÃ®nÃ©e. Prenons lâ€™exemple de trois nouveaux patients qui attribuent les scores suivants aux quatre variables explicatives retenues par notre modÃ¨leÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "984da706-cf43-49f6-89b0-8a74c6ca5065",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# unseen dataâ€¦\n",
+    "new_data = {\n",
+    "    \"score.relation\": [32, 36, 31],\n",
+    "    \"score.information\": [37, 25, 30],\n",
+    "    \"amelioration.sante\": [3, 2, 1],\n",
+    "    \"amelioration.moral\": [2, 3, 3]\n",
+    "}\n",
+    "\n",
+    "# â€¦ as a data frame\n",
+    "new_data = pd.DataFrame(new_data)\n",
+    "\n",
+    "# get predictions\n",
+    "model.predict(new_data)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4b5d5953-babe-4644-8904-2ca9ccf836d7",
+   "metadata": {},
+   "source": [
+    "## RÃ©capitulatif"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c1e6d3c2-bb43-40f9-876a-6ae4cf3a39ce",
+   "metadata": {},
+   "source": [
+    "Si nous reprenons les diffÃ©rentes Ã©tapes de la programmation de notre petite intelligence artificielleÂ :"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "102b45e5-7618-4a49-a495-8a67af6c747e",
+   "metadata": {},
+   "source": [
+    "### 1e Ã©tapeÂ : extraire les variables cible et explicatives"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "6ab63df5-f207-4daf-89bc-9d5cc5da4142",
+   "metadata": {},
+   "source": [
+    "Lâ€™analyse du jeu de donnÃ©es permet de dÃ©terminer quelles sont les variables explicatives Ã  retenir pour programmer au mieux lâ€™IAÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "0817ac27-c0f7-4029-8488-8d5834bc60fe",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./files/satisfaction-hopital.csv\", delimiter=\";\")\n",
+    "\n",
+    "# uncomment to display the correlation between all variables\n",
+    "#_ = sns.heatmap(df.corr())\n",
+    "\n",
+    "target = \"recommander\"\n",
+    "features = [\"score.relation\", \"score.information\", \"amelioration.sante\", \"amelioration.moral\"]\n",
+    "\n",
+    "data = pd.DataFrame(df[features + [target]])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "2c283d5b-8ffd-486f-833b-5e4fdcdbf438",
+   "metadata": {},
+   "source": [
+    "### 2e Ã©tape : Ã©tablir le jeu dâ€™entraÃ®nement et le jeu de test"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "cec842c6-95e4-4c75-b134-f9fd33212ded",
+   "metadata": {},
+   "source": [
+    "Dans un premier temps, seules sont retenues les observations pour lesquelles la donnÃ©e de la variable cible est connue. Toutes les autres sont supprimÃ©es. Une fonction de *Scikit-Learn* se charge ensuite de la rÃ©partition des donnÃ©es entre tous les jeux nÃ©cessaires (deux jeux pour dâ€™un cÃ´tÃ© la variable cible ; deux autres pour les caractÃ©ristiques retenues)Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1ce5e398-4a6c-433f-bc96-5d3132fcd3bf",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# drop rows where target is missing\n",
+    "data.dropna(subset=target, inplace=True)\n",
+    "\n",
+    "# two data frames for: i) the target; ii) the features\n",
+    "y = data[target]\n",
+    "X = data[features]\n",
+    "\n",
+    "# two sets for both data frames\n",
+    "X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9e4e4690-8ac7-41ff-bdb4-27bc660ca3bd",
+   "metadata": {},
+   "source": [
+    "### 3e Ã©tapeÂ : dÃ©finir les couches du modÃ¨le"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "131aa45d-c4d4-4450-b502-65a2ee52a14e",
+   "metadata": {},
+   "source": [
+    "Dans un modÃ¨le, on retrouve une succession de programmes, appelÃ©s **estimateurs**, oÃ¹ chaque couche reÃ§oit les donnÃ©es transformÃ©es par la prÃ©cÃ©dente. Ainsi, tous les estimateurs Ã  lâ€™exception du dernier sont des **transformateurs**. Ã€ la derniÃ¨re couche se tient le **prÃ©dicteur**, lâ€™algorithme avec lequel les donnÃ©es seront entraÃ®nÃ©es afin dâ€™effectuer des prÃ©dictions sur de nouvelles informationsÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1c324391-b172-4054-9bd5-99cfa6c01d91",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model = make_pipeline(\n",
+    "    # fill the NA values\n",
+    "    SimpleImputer(strategy=\"median\"),\n",
+    "    # scale data\n",
+    "    StandardScaler(),\n",
+    "    # a linear regression\n",
+    "    LinearRegression()\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "dc6efe95-dfba-487a-adbf-d0e4c1cc9368",
+   "metadata": {},
+   "source": [
+    "### 4e Ã©tapeÂ : entraÃ®ner le modÃ¨le et lâ€™Ã©valuer"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "04d9925c-7e3f-4fe4-b47f-2c3123834e1f",
+   "metadata": {},
+   "source": [
+    "Les mÃ©thodes `.fit()` et `.score()` du modÃ¨le servent Ã  rÃ©aliser les deux actions. Il convient de transmettre Ã  la premiÃ¨re les jeux dâ€™entraÃ®nement constituÃ©s Ã  partir des caractÃ©ristiques (`X_train`) et Ã  partir de la variable cible (`y_train`) ; et Ã  la seconde les jeux de test correspondants (`X_test` et `y_test`)Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "143c07e4-ba51-44f9-ab83-d70987d991e6",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# trainâ€¦\n",
+    "model.fit(X_train, y_train)\n",
+    "\n",
+    "# â€¦ then evaluate!\n",
+    "model.score(X_test, y_test)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/notebooks/machine-learning/exercises/0.bias-and-common-errors.ipynb b/notebooks/machine-learning/exercises/0.bias-and-common-errors.ipynb
index cd94771b800874d2a9caa627024760f6e31d58d1..b5ab0c791b4fd2924d66d93f52645fe5b9b9f549 100644
--- a/notebooks/machine-learning/exercises/0.bias-and-common-errors.ipynb
+++ b/notebooks/machine-learning/exercises/0.bias-and-common-errors.ipynb
@@ -227,7 +227,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# your code here"
+    "_ = sns.regplot(data=data, x=\"distance\", y=\"velocity\")"
    ]
   },
   {
@@ -400,7 +400,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.10.6"
+   "version": "3.9.13"
   }
  },
  "nbformat": 4,
diff --git a/notebooks/machine-learning/files/satisfaction-hopital.csv b/notebooks/machine-learning/files/satisfaction-hopital.csv
new file mode 100644
index 0000000000000000000000000000000000000000..9e962d623813707cfe56a770b44950bce3effed4
--- /dev/null
+++ b/notebooks/machine-learning/files/satisfaction-hopital.csv
@@ -0,0 +1,535 @@
+service;sexe;age;profession;amelioration.sante;amelioration.moral;recommander;score.relation;score.information
+3;0;41;4;1;0;1;36;22
+3;1;29;8;2;3;2;33;36
+3;1;83;2;2;1;2;40;37
+3;0;66;3;2;0;2;32;35
+3;1;84;;;;;;
+3;0;84;6;3;3;2;39;28
+3;0;60;3;2;1;1;31;30
+3;0;85;3;3;1;2;;
+3;0;28;3;3;1;1;36;29
+3;1;35;3;3;2;;;
+3;1;84;;;;;;
+3;0;78;;;;;;
+3;0;35;5;3;3;2;38;
+3;0;34;5;3;2;2;37;25
+3;1;49;4;;;;40;
+3;0;30;;;;;;
+3;1;64;;;;;;
+3;0;62;5;2;2;2;34;28
+3;0;89;4;3;1;2;39;33
+3;1;48;3;2;3;2;40;37
+3;1;57;3;2;3;2;40;35
+3;0;76;5;;;;;
+3;0;56;;1;1;1;40;
+3;1;27;4;3;0;1;28;34
+4;0;68;5;3;2;2;39;40
+4;0;54;3;3;3;2;39;22
+4;0;65;3;2;0;0;22;25
+4;0;25;7;3;3;2;35;36
+4;0;61;3;3;1;2;38;38
+4;1;58;2;3;3;2;38;37
+4;0;67;4;3;1;2;37;31
+4;0;62;3;;2;1;33;21
+4;0;37;3;3;1;2;33;29
+4;0;83;;;;;;
+4;0;52;3;3;3;2;40;37
+4;0;69;3;3;1;2;39;28
+4;0;58;3;1;1;2;40;40
+4;0;75;3;3;3;2;37;39
+4;0;59;6;2;1;2;34;32
+4;1;40;;;;;;
+4;1;50;;;;;;
+4;0;83;;;;;;
+4;0;34;3;2;0;0;24;22
+4;0;75;;;;;;
+4;0;69;8;3;3;2;38;36
+4;0;39;4;;;1;36;37
+4;1;69;8;2;1;2;31;
+4;0;58;5;2;1;2;32;36
+4;0;53;2;1;3;2;;28
+4;0;78;;;;;;
+4;0;82;3;;;2;37;37
+4;0;81;;;;;;
+4;0;81;;;;;;
+4;0;66;7;3;3;2;39;38
+4;0;36;8;3;;1;33;33
+4;0;60;4;3;2;2;40;38
+4;0;45;6;3;1;2;38;31
+4;0;78;4;2;1;2;37;30
+4;0;54;3;2;2;2;35;29
+4;1;84;4;3;1;2;40;40
+4;0;59;5;1;2;0;30;18
+4;0;53;4;3;3;2;40;40
+4;0;62;3;3;3;2;37;39
+4;0;46;4;2;1;1;35;40
+4;1;60;8;3;3;2;40;40
+4;0;63;6;3;3;2;38;
+4;0;67;8;2;1;2;40;33
+4;0;77;4;3;2;1;38;31
+4;0;68;5;1;1;1;;35
+4;0;52;3;1;2;2;36;38
+4;1;72;;;;;;
+4;0;64;3;;;;33;
+4;0;67;;;;;;
+4;0;51;5;3;1;2;35;25
+4;0;36;4;3;3;1;39;31
+4;0;78;;;;;;
+4;0;79;;2;1;1;38;24
+4;0;54;3;3;3;2;40;40
+4;0;69;2;3;3;2;;
+4;1;49;3;2;;2;34;
+4;0;67;3;3;3;2;40;40
+4;0;65;;;;;;
+4;0;64;2;3;3;2;;38
+4;0;65;3;2;1;2;30;30
+4;0;72;;;;;;
+4;0;62;4;;2;1;37;
+4;1;83;8;;;;40;
+4;1;49;4;2;3;2;36;39
+4;0;75;3;3;1;2;39;35
+4;1;52;8;3;3;2;40;40
+4;0;58;6;3;3;2;40;40
+4;0;50;2;;;2;40;40
+4;1;27;5;3;3;2;38;34
+1;0;64;3;3;;2;;33
+1;1;45;8;2;;1;36;32
+1;1;54;4;3;3;2;40;22
+1;0;45;5;3;3;2;39;38
+1;1;80;3;1;0;2;26;31
+1;0;81;;;;;;
+1;1;59;1;2;0;1;32;26
+1;1;64;;;;;;
+1;1;42;5;2;0;1;30;16
+1;0;42;8;2;2;2;35;33
+1;0;41;4;2;2;2;35;35
+1;1;81;4;2;1;1;27;23
+1;1;23;4;2;0;2;30;33
+1;1;79;4;1;1;1;31;28
+1;1;54;3;2;2;1;;33
+1;0;61;5;2;1;2;40;35
+1;0;39;5;3;;2;39;33
+1;1;53;4;2;0;0;28;20
+1;0;51;4;1;1;2;40;40
+1;0;32;3;3;1;1;33;13
+1;0;59;3;2;2;1;;
+1;0;63;2;2;1;2;38;35
+1;1;69;3;2;3;2;40;
+1;1;52;4;2;1;1;25;33
+1;1;18;7;3;1;2;31;34
+1;0;64;3;;;2;34;33
+1;1;47;;;;;;
+1;1;46;6;1;0;1;23;25
+1;1;39;5;2;2;2;40;38
+1;0;43;4;3;3;2;37;38
+1;0;40;4;;2;2;40;38
+1;1;64;5;2;1;2;34;26
+1;0;44;6;2;1;2;25;22
+1;0;45;6;1;1;2;33;40
+1;0;86;4;3;3;1;33;25
+1;1;49;6;1;1;1;33;32
+1;0;42;8;;;;;
+1;1;71;5;3;1;2;40;35
+1;0;32;5;2;1;2;39;22
+1;0;56;4;2;3;2;40;40
+1;1;49;2;2;1;2;40;26
+1;1;31;5;3;2;2;34;30
+1;1;66;8;2;1;1;29;28
+1;1;67;6;2;3;2;38;40
+1;1;70;3;1;1;2;34;28
+1;1;62;6;1;1;2;40;30
+1;1;72;2;1;1;1;;26
+1;0;55;5;3;3;2;38;37
+1;1;28;;;;;;
+1;1;62;3;2;1;2;34;24
+1;1;48;6;2;1;2;33;32
+1;1;43;3;2;0;1;21;15
+1;1;70;5;2;2;2;38;31
+1;1;80;5;2;3;2;;39
+1;1;61;;;;;;
+1;1;56;2;3;1;2;38;35
+1;1;80;2;3;3;2;;37
+1;1;21;7;2;2;2;36;31
+1;1;75;4;;;;;
+1;1;40;3;1;2;2;38;37
+1;1;53;5;1;1;2;33;26
+1;0;80;3;2;2;1;;25
+1;0;58;;;;;;
+1;1;51;3;3;3;2;40;40
+1;1;79;;;;;;
+3;1;72;;;;;;
+3;1;40;;;3;2;38;35
+3;1;29;7;3;3;2;30;40
+3;1;40;4;2;2;2;33;23
+3;0;32;5;2;1;1;33;36
+3;0;63;6;3;2;2;;40
+3;1;80;5;1;2;2;36;24
+3;1;29;5;1;3;2;39;38
+3;0;84;5;3;1;2;37;19
+3;1;70;2;1;2;2;39;35
+3;1;87;8;1;1;;40;13
+3;0;43;6;2;2;2;39;40
+3;0;81;3;3;3;1;28;30
+3;0;28;5;3;1;2;39;32
+3;1;76;8;2;3;2;39;26
+3;1;82;5;2;0;1;27;20
+3;1;67;4;3;1;;30;
+3;0;64;3;3;3;1;39;21
+3;1;84;5;3;1;2;39;20
+3;1;95;;;;;;
+3;0;55;2;1;1;2;30;37
+3;0;78;4;;;;;
+3;0;45;;;;;;
+3;0;40;3;3;3;1;35;29
+3;1;90;;;;;;
+3;1;50;2;3;1;2;37;35
+3;1;85;;;;;;
+3;1;77;;;;;;
+3;0;30;4;2;2;2;38;23
+3;1;97;;;;;;
+3;0;27;6;2;1;1;;25
+3;0;36;3;2;1;1;;
+3;0;61;2;2;2;1;30;33
+3;1;91;;;;;;
+3;1;65;4;2;0;1;;
+3;1;63;;;;;;
+3;1;74;8;3;3;2;37;
+3;1;89;8;1;1;;;40
+3;1;77;2;2;;1;;
+3;1;73;8;3;1;1;28;17
+3;0;30;5;2;3;2;40;38
+3;0;36;3;3;3;2;36;39
+3;0;47;3;2;0;1;31;31
+3;0;41;;;;;;
+3;0;34;5;2;2;1;31;38
+3;1;18;7;2;1;1;30;29
+5;1;43;5;3;3;2;39;35
+5;0;66;3;3;1;2;40;38
+5;0;55;3;3;3;2;40;28
+5;0;26;8;2;1;0;;28
+5;0;32;4;3;3;1;32;34
+5;1;63;;;;;;
+5;0;;;;;;;
+5;0;39;7;3;2;2;39;38
+5;1;43;3;3;2;2;25;22
+5;1;75;2;2;2;2;;34
+5;1;46;4;3;3;2;38;39
+5;1;42;5;2;1;1;38;37
+5;0;60;3;2;1;2;;
+5;0;84;3;1;1;1;33;29
+5;1;69;;;;;;
+5;1;19;7;2;2;1;;
+5;1;74;4;2;2;1;28;30
+5;0;23;7;2;1;1;38;40
+5;1;52;5;2;1;1;33;38
+5;0;23;5;;1;1;36;27
+5;1;61;2;2;1;2;40;29
+5;0;27;3;2;1;2;38;37
+5;1;69;4;3;3;2;28;16
+5;0;51;6;3;1;1;38;28
+5;0;65;;;;;;
+5;1;38;;;;;;
+5;0;69;3;2;3;2;37;29
+5;1;70;6;1;0;1;32;16
+5;1;68;4;2;1;2;28;30
+5;1;60;4;1;1;2;39;38
+5;0;29;4;3;1;2;39;40
+5;1;35;3;3;1;2;37;35
+5;1;57;5;3;3;2;;40
+5;1;88;;;;;;
+5;1;45;3;3;2;2;38;37
+5;0;18;7;2;2;2;36;40
+5;0;32;3;3;3;2;34;34
+5;0;44;4;1;1;2;40;39
+5;0;59;2;2;2;1;29;37
+5;0;;;;;;;
+5;1;;;;;;;
+5;0;;;;;;;
+5;1;66;3;;1;2;35;39
+5;0;45;3;3;1;2;;32
+5;1;60;5;2;3;1;40;37
+5;1;88;6;1;0;1;31;15
+5;1;47;5;;1;1;34;22
+5;0;43;5;1;1;2;40;40
+5;1;46;8;1;1;1;37;32
+5;0;39;2;3;1;2;;39
+5;1;67;;;;;;
+5;1;75;3;2;2;2;35;37
+5;1;79;5;;;2;36;26
+5;0;20;7;3;2;1;33;35
+5;0;43;4;3;3;2;35;39
+5;0;63;6;1;1;2;38;40
+5;1;63;3;3;3;2;38;40
+5;1;40;4;;1;2;;
+5;1;62;;;;;;
+5;1;63;;;;;;
+5;1;57;6;2;1;2;;
+5;0;26;4;2;1;2;35;29
+5;0;;;;;;;
+5;0;38;3;1;1;1;30;30
+5;0;45;3;3;1;2;35;28
+5;0;34;3;2;1;1;33;33
+5;1;44;8;3;3;2;39;
+5;1;65;8;3;1;1;39;40
+5;1;96;7;;;;;
+5;1;;;;;;;
+5;1;43;5;2;2;2;29;34
+6;1;75;8;2;1;2;39;
+7;0;38;;;;;;
+7;0;44;6;3;1;2;38;33
+7;0;53;3;3;1;1;40;39
+7;0;38;2;1;1;1;35;26
+7;0;48;3;2;3;2;36;
+7;1;70;5;2;2;1;32;13
+7;0;65;3;1;2;1;;40
+7;0;49;3;3;3;2;35;40
+7;0;47;4;2;2;1;25;18
+7;0;71;3;3;1;2;37;27
+6;1;76;;;;;;
+6;1;66;8;2;1;2;37;36
+6;1;69;4;1;1;1;34;15
+6;1;60;5;2;1;2;32;28
+6;0;64;2;2;2;2;39;40
+6;0;59;2;0;3;0;21;35
+6;0;29;6;2;2;1;28;21
+6;1;33;8;3;2;2;36;37
+6;0;68;3;2;1;2;40;38
+6;0;64;2;3;2;1;34;33
+6;1;90;2;1;0;2;;27
+6;1;66;5;3;1;2;40;40
+6;1;72;5;3;1;2;32;33
+6;1;84;4;3;3;2;34;28
+6;1;75;3;3;1;1;38;39
+6;0;78;;;;;;
+6;1;55;;;;;;
+6;1;92;;;;;;
+6;1;55;8;2;3;1;29;24
+6;1;53;;;;;;
+6;0;48;5;0;0;0;13;21
+6;1;55;3;2;3;2;38;34
+6;1;74;2;2;;;39;20
+6;1;60;3;1;1;2;35;31
+6;1;41;2;1;1;2;34;30
+6;1;75;8;;;;;
+6;1;70;3;3;3;2;38;33
+6;1;57;3;3;3;2;35;36
+6;1;88;3;2;1;2;35;31
+6;1;50;2;3;1;2;40;40
+6;1;50;5;;1;1;32;29
+6;0;25;7;2;3;1;34;33
+6;1;22;7;2;3;2;36;33
+7;0;80;;;;;;
+7;0;70;;;;;;
+7;0;72;6;3;3;2;40;38
+7;0;68;3;3;3;2;40;40
+7;1;54;4;1;2;1;;
+7;0;58;3;3;3;2;38;38
+7;0;52;6;2;3;2;;38
+7;0;41;3;3;1;0;31;25
+7;1;79;8;3;3;2;;40
+7;0;57;6;3;3;2;38;32
+7;1;26;3;1;1;2;35;37
+7;1;59;4;3;1;1;32;35
+7;0;45;;;;;;
+7;0;83;4;3;2;1;35;22
+7;1;47;5;3;3;2;;
+7;1;74;;;;;;
+7;1;69;;;;;;
+7;1;67;4;3;3;2;40;39
+7;0;36;7;3;1;2;33;28
+7;0;76;8;1;1;1;34;27
+7;0;83;;;;;;
+7;0;87;;;;;;
+7;1;76;;;;;;
+7;1;84;5;3;3;2;;
+7;0;57;3;;;2;38;40
+7;0;67;5;;;;28;
+7;0;75;3;3;1;2;;
+7;0;82;4;;;;;
+7;1;84;8;;;0;39;13
+7;1;22;8;1;1;2;;
+7;0;60;3;1;1;2;38;37
+7;0;55;3;3;1;2;33;25
+7;0;40;4;2;1;2;37;32
+7;0;48;6;1;2;1;35;34
+7;1;83;;;;;;
+7;0;55;;3;;;;
+7;0;58;3;;;;;
+7;0;65;3;2;3;2;40;40
+7;1;91;;;;;;
+7;1;85;;;;;;
+7;1;67;;;;;;
+7;0;75;;;;;;
+7;0;46;6;2;;2;39;
+7;0;74;5;1;2;2;36;29
+7;0;69;3;2;1;2;;
+7;0;60;5;2;1;2;32;19
+7;0;55;3;2;3;2;36;34
+7;0;72;6;;;;38;
+7;1;70;3;2;1;2;33;32
+7;1;43;5;1;1;1;;
+7;0;49;3;3;3;1;39;40
+7;0;92;;;;;;
+7;0;64;3;1;1;1;34;34
+7;0;74;3;3;1;2;36;40
+7;0;75;3;3;3;1;40;40
+7;0;64;3;;;;;
+7;0;77;;;;;;
+2;1;82;;;;;;
+2;1;75;4;;;;;
+2;0;60;3;2;1;1;21;
+2;1;64;4;;;1;;
+2;1;61;6;;1;1;30;21
+2;0;50;6;1;1;2;30;25
+2;0;42;6;2;1;0;24;24
+2;0;65;2;2;;2;;36
+2;1;75;6;;;;;
+2;1;90;;;;;;
+2;1;57;4;1;1;2;38;
+2;0;42;3;1;1;2;38;27
+2;0;66;8;1;1;1;38;29
+2;0;60;6;3;1;2;;24
+2;0;73;3;2;1;2;37;31
+2;0;51;3;;2;2;39;40
+2;1;85;4;2;1;2;40;35
+2;0;88;;;;;;
+2;1;82;;;;;;
+2;0;50;4;;;;;
+2;1;82;;;;;;
+2;0;31;5;;;;;
+2;1;39;4;;;2;;32
+2;1;49;5;2;;2;;31
+2;0;54;6;2;2;1;25;22
+2;1;32;4;3;2;1;26;28
+2;0;76;4;2;1;0;31;28
+2;1;40;4;;;;;
+2;0;60;3;2;2;1;32;32
+2;0;55;6;;;2;;
+2;0;52;5;1;1;1;34;23
+2;1;52;3;2;1;2;25;28
+2;0;35;4;;1;1;31;
+2;1;42;;;;;;
+2;1;40;4;1;0;0;;
+2;1;78;;;;;;
+2;1;77;4;;3;2;;
+2;1;49;3;1;1;2;26;32
+2;0;56;;;;;;
+2;0;58;5;2;1;2;40;39
+2;1;39;3;2;2;1;30;28
+2;0;82;3;3;1;2;;38
+2;0;37;4;3;3;2;38;40
+2;0;81;3;1;1;1;;
+2;0;55;;;;;;
+2;0;59;5;;;;;
+2;0;77;3;3;1;2;;
+2;1;68;;;;;;
+2;0;45;3;2;2;1;38;39
+2;1;67;;;;;;
+2;0;51;;;;;;
+2;1;70;;;;;;
+2;0;83;;;;;;
+2;0;72;4;2;1;1;27;33
+2;0;75;3;2;1;2;37;
+2;0;43;2;2;2;2;33;29
+2;1;29;3;2;3;2;36;34
+2;1;67;5;1;3;2;;
+2;1;40;;;;;;
+6;1;37;;3;1;2;37;22
+6;1;50;8;3;3;2;36;30
+6;1;40;5;3;3;1;32;35
+6;1;67;7;;1;2;37;39
+6;1;66;8;2;1;2;29;35
+6;1;79;3;3;2;2;21;36
+6;0;65;5;3;1;2;40;17
+6;1;44;3;;;2;40;38
+6;0;88;;;;;;
+6;1;56;3;;3;2;39;40
+6;1;47;4;3;2;2;37;39
+6;1;58;8;3;3;2;35;39
+6;1;75;6;2;1;1;33;34
+6;1;85;4;2;;1;;
+6;0;75;8;3;1;2;40;40
+6;0;46;4;3;2;2;28;30
+6;1;49;4;1;1;2;39;40
+6;1;61;6;3;3;2;36;17
+6;1;69;8;2;2;2;;31
+6;0;38;8;3;;2;;36
+6;0;48;;;;;;
+6;1;84;8;2;2;1;;18
+6;0;60;3;3;1;2;39;33
+6;1;76;;;;;;
+6;1;60;5;3;3;2;38;24
+6;1;80;2;;;1;;
+6;0;84;;;;;;
+6;1;50;4;;;2;;
+6;0;45;6;3;3;2;38;35
+6;1;47;4;1;1;1;37;
+8;0;73;3;2;1;2;36;38
+8;0;75;3;2;3;2;;
+8;1;43;6;3;3;2;40;40
+8;0;49;2;3;3;2;39;26
+8;1;56;4;;2;2;35;36
+8;1;50;6;;;;;34
+8;1;46;5;1;1;2;40;36
+8;0;63;2;;2;1;;27
+8;1;87;;;;;;
+8;0;73;2;1;1;2;35;20
+8;1;63;4;1;1;2;39;30
+8;1;33;4;2;1;1;38;28
+8;1;32;5;3;3;2;;29
+8;1;21;7;2;1;2;40;27
+8;1;71;3;3;;2;40;35
+8;1;72;;1;0;0;28;17
+8;1;53;4;1;1;1;33;29
+8;1;30;5;;2;2;40;29
+8;1;63;3;;1;1;33;40
+8;1;26;7;3;1;;34;38
+8;1;91;;;;;;
+8;0;54;3;3;2;1;;38
+8;1;55;;;;;;
+8;1;78;8;1;1;1;40;
+8;1;30;5;3;2;2;;
+8;1;45;3;3;3;1;;35
+8;1;44;4;3;0;2;26;27
+8;1;61;;;;;;
+8;1;64;;;;;;
+8;1;44;4;1;1;2;40;37
+8;1;55;4;;3;2;33;36
+8;1;48;4;2;1;1;29;17
+8;1;57;4;;1;1;39;33
+8;1;65;3;;1;2;40;40
+8;1;77;4;3;;1;;
+8;1;72;;;;;;
+8;0;36;2;3;1;2;37;30
+8;0;59;3;2;1;1;26;23
+8;1;19;7;2;1;0;25;20
+8;1;66;2;3;3;2;40;40
+8;0;20;7;2;0;1;;28
+8;0;21;7;2;1;1;29;31
+8;1;26;5;1;0;0;32;
+8;1;32;5;3;1;1;36;38
+8;0;68;;;;;;
+8;0;57;6;2;0;0;;
+8;0;70;3;2;3;1;33;27
+8;0;55;2;3;2;2;38;35
+8;0;39;3;0;1;2;40;30
+8;0;71;;;;;;
+8;0;62;4;3;3;2;38;36
+8;0;22;7;3;3;2;39;37
+8;0;58;2;2;1;2;39;20
+8;1;56;3;3;1;2;40;40
+8;0;70;6;3;1;2;36;38
+8;0;59;4;2;2;2;33;33
+8;0;78;6;3;3;2;40;32
+8;1;77;8;2;2;2;39;25
+8;0;66;6;3;3;2;;
+8;1;58;3;3;1;2;37;35
+8;1;31;3;;;1;33;38
+8;1;69;4;3;1;2;40;31
+8;1;67;4;3;3;2;38;35
+8;1;70;;;;;;
+8;1;81;;;;;;
+8;0;69;;;;;;
+8;1;30;4;2;1;1;32;
+8;1;30;8;1;2;2;30;34
+8;0;50;;;;;;
diff --git a/notebooks/machine-learning/images/birth-barplot.png b/notebooks/machine-learning/images/birth-barplot.png
deleted file mode 100644
index 00e1c3af8a4a6b2d28944a475b6ba5dea84cce33..0000000000000000000000000000000000000000
Binary files a/notebooks/machine-learning/images/birth-barplot.png and /dev/null differ
diff --git a/notebooks/machine-learning/images/birth-histogram.png b/notebooks/machine-learning/images/birth-histogram.png
deleted file mode 100644
index d2ec8066bdbce74b973f068cf234ba75e66aa2db..0000000000000000000000000000000000000000
Binary files a/notebooks/machine-learning/images/birth-histogram.png and /dev/null differ