diff --git a/notebooks/machine-learning/answers/0.bias-and-common-errors.ipynb b/notebooks/machine-learning/answers/0.bias-and-common-errors.ipynb
index bafde20c133a916d453932927ab18586f48c7478..9c1708e42067b8851567cd5a935ec0f5f63ef436 100644
--- a/notebooks/machine-learning/answers/0.bias-and-common-errors.ipynb
+++ b/notebooks/machine-learning/answers/0.bias-and-common-errors.ipynb
@@ -19,158 +19,133 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "4bbfb43b-1feb-4366-b1e7-5536f0f5aacd",
+   "id": "556f4053-3ccb-497e-bbf3-cf2266df3027",
    "metadata": {},
    "outputs": [],
    "source": [
     "import matplotlib.pyplot as plt\n",
     "import pandas as pd\n",
     "import seaborn as sns\n",
+    "from random import random\n",
     "\n",
     "sns.set_context('notebook')"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "220410a9-d71d-4d16-b724-1f31539ed987",
-   "metadata": {},
+   "id": "8638d5e5-1093-4f36-b80e-bf6527434b1e",
+   "metadata": {
+    "tags": []
+   },
    "source": [
-    "## Une Ã©tude de genre"
+    "## Une intelligence artificielle drÃ´lement intelligente"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "cfc33885-ca65-4f89-8eac-04d519b8c6ab",
+   "id": "f0f31bdb-dcd7-4fbf-afcf-58e2a5b5eed3",
    "metadata": {},
    "source": [
-    "Lâ€™enquÃªte [*Self-Reports of Height and Weight*](../0.about-datasets.ipynb#Self-Reports-of-Height-and-Weight) (Davis, 1990) compare une auto-Ã©valuation de leurs tailles et poids dâ€™individus engagÃ©s dans un programme dâ€™exercices avec les mesures rÃ©alisÃ©es par lâ€™Ã©quipe encadrante.\n",
-    "\n",
-    "Imaginons un objectif oÃ¹, en fonction des valeurs renseignÃ©es, on souhaiterait dÃ©duire lâ€™Ã©tiquette *H* ou *F* qui leur est associÃ©e. Chargeons dans un premier temps les donnÃ©es et affichons un rÃ©sumÃ©Â :"
+    "Prenons un jeu de donnÃ©es factice dâ€™une centaine dâ€™observations Ã©tiquetÃ©es pour les unes *cat*, pour les autres *dog*, avec des valeurs associÃ©es que lâ€™on suppose dimensionnÃ©esÂ :"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "2f7609ab-f6d7-459a-bdea-cfab3f255332",
+   "id": "0d646d8d-79a7-4710-962c-205d61006b8f",
    "metadata": {},
    "outputs": [],
    "source": [
-    "# load data\n",
-    "df = pd.read_csv(\"../files/davis.csv\", sep=\"\\t\")\n",
+    "# 5, out of an hundred, are cats\n",
+    "series = {\n",
+    "    \"label\": [ \"cat\" if i < 5 else \"dog\" for i in range(100) ],\n",
+    "    \"value\": [ random() for i in range(100) ]\n",
+    "}\n",
     "\n",
-    "# select variables\n",
-    "target = \"sex\"\n",
-    "features = [\"weight\", \"height\", \"repwt\", \"repht\"]\n",
-    "\n",
-    "# a copy of the data frame\n",
-    "data = df.copy()\n",
-    "data = data[[target] + features]\n",
-    "\n",
-    "data.info()"
+    "df = pd.DataFrame(series)"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "e3479ed2-ec29-4a05-9554-1691a59f3e4d",
+   "id": "9d54a3f7-1230-480c-b861-845c64bb8d79",
    "metadata": {},
    "source": [
-    "Le jeu de donnÃ©es est composÃ©e de 200 observations mais comme toutes ne sont pas remplies pour tous les champs, il convient dans un premier temps de sâ€™en occuper. Nous retenons comme stratÃ©gie de les combler avec la valeur moyenne de la colonneÂ :"
+    "Afin dâ€™Ã©viter un biais Ã©vident relatif aux donnÃ©es non triÃ©es, nous les mÃ©langeons grÃ¢ce Ã  une fonction de randomisationÂ :"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "638eaa6f-d30a-45f3-b888-d727eb00ef53",
+   "id": "b3716192-e089-4615-84d7-35595dcd6f02",
    "metadata": {},
    "outputs": [],
    "source": [
-    "# mean value\n",
-    "repwt_mean = int(data.repwt.mean())\n",
-    "repht_mean = int(data.repht.mean())\n",
-    "\n",
-    "# fill NA\n",
-    "data.repwt.fillna(repwt_mean, inplace=True)\n",
-    "data.repht.fillna(repht_mean, inplace=True)\n",
-    "\n",
-    "data.info()"
+    "df = df.sample(frac=1).reset_index(drop=True)"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "ee52c74a-9e9d-4998-99f6-f370419a7926",
+   "id": "acf511e2-866d-466a-9660-85173a8fa7e9",
    "metadata": {},
    "source": [
-    "La seconde Ã©tape consiste Ã  sÃ©parer le *dataset* en deux parties inÃ©galesÂ : lâ€™une pour le jeu dâ€™entraÃ®nement, constituÃ©e de 80Â % de lâ€™ensembleÂ ; et lâ€™autre pour le jeu de test."
+    "Notre objectif Ã©tant de programmer une machine qui va, pour une valeur de `X`, deviner si nous sommes en prÃ©sence dâ€™un chat ou dâ€™un chien, il est temps dâ€™extraire la variable cible du jeu de donnÃ©esÂ :"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "cece0234-c72c-4f7f-a0db-4805e0f98f0f",
+   "id": "2259be59-bf54-4884-8f7b-a0429af1dd03",
    "metadata": {},
    "outputs": [],
    "source": [
-    "limit = int(len(data) * 0.2)\n",
-    "\n",
-    "# split\n",
-    "train = data[limit:]\n",
-    "test = data[:limit]"
+    "y = df.label\n",
+    "X = df.value"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "f3d0c802-2b5f-48bf-a34c-65ad0b30520b",
+   "id": "d0556dcb-7766-4bdf-be40-5a27ca791c50",
    "metadata": {},
    "source": [
-    "Attachons-nous Ã  Ã©tudier le rapport entre le poids et la taille des individus. Intuitivement, on penserait que ces caractÃ©ristiques sont globalement liÃ©es par une corrÃ©lation positiveÂ : lâ€™augmentation chez lâ€™une entraÃ®ne une augmentation chez lâ€™autre. Si nous affichons une droite de rÃ©gression sur le jeu de donnÃ©es complet, on observe bien le phÃ©nomÃ¨ne attenduÂ :"
+    "Nous pouvons maintenant programmer un prÃ©dicteur qui, pour chaque observation dans `X`, lui associera systÃ©matiquement lâ€™Ã©tiquette *dog*Â :"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "312afd57-af0f-4e38-9154-a05c0402715e",
+   "id": "02714fdd-a566-4807-a4e2-a127e3eab495",
    "metadata": {},
    "outputs": [],
    "source": [
-    "_ = sns.regplot(data=data, x=\"weight\", y=\"height\")"
+    "y_pred = [ \"dog\" for i in X ]"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "84c8a544-351b-4b47-89ba-abfb9f1f031e",
+   "id": "2769bc14-464d-45e7-992a-4d880b413f0e",
    "metadata": {},
    "source": [
-    "Pour autant, il nâ€™en va pas de mÃªme avec les jeux dâ€™entraÃ®nement et de testÂ :"
+    "En comparant les prÃ©dictions `y_pred` avec la rÃ©alitÃ© (`y`), on peut calculer le taux dâ€™exactitudeÂ :"
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
-   "id": "cdc0d499-1ee3-4740-9c9d-2d3b4b0b5f90",
+   "id": "46df19b7-8439-4397-9e8f-39262a156882",
    "metadata": {},
    "outputs": [],
    "source": [
-    "figure, (col_1, col_2)= plt.subplots(1, 2, figsize=(12,4))\n",
-    "\n",
-    "sns.regplot(data=train, x=\"weight\", y=\"height\", ax=col_1)\n",
-    "sns.regplot(data=test, x=\"weight\", y=\"height\", ax=col_2)\n",
+    "accuracy = (y_pred == y).sum()\n",
     "\n",
-    "figure.suptitle(\"Relation entre le poids et la taille des individus\", y=1.05)\n",
-    "\n",
-    "col_1.set(title=\"Jeu dâ€™entraÃ®nement\")\n",
-    "col_2.set(title=\"Jeu de test\")\n",
-    "\n",
-    "sns.despine()\n",
-    "\n",
-    "plt.show()"
+    "print(f\"Le taux dâ€™exactitude (accuracy) de notre prÃ©dicteur est de { accuracy } % !\")"
    ]
   },
   {
    "cell_type": "markdown",
-   "id": "c500a2fa-07c5-45f4-a8c7-548abd3d0c9e",
+   "id": "12e88304-31b6-4a85-b8db-7cf2c8584526",
    "metadata": {},
    "source": [
-    "Ã€ votre avis, quelles erreurs peuvent avoir faussÃ© notre interprÃ©tationÂ ?"
+    "Expliquez pourquoi un algorithme aussi bÃªte que le nÃ´tre a pu obtenir un score aussi Ã©tonnant."
    ]
   },
   {
@@ -264,6 +239,151 @@
    "source": [
     "Bon, appelez BFM TV, Wendy sâ€™est trompÃ©eÂ : 2/3 des points sont en dehors de lâ€™intervalle de confiance Ã  95Â %. Ou alors, peut-Ãªtre avons-nous fait une erreur de mÃ©thodologieÂ ?"
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "220410a9-d71d-4d16-b724-1f31539ed987",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## Une Ã©tude de genre"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "cfc33885-ca65-4f89-8eac-04d519b8c6ab",
+   "metadata": {},
+   "source": [
+    "Lâ€™enquÃªte [*Self-Reports of Height and Weight*](../0.about-datasets.ipynb#Self-Reports-of-Height-and-Weight) (Davis, 1990) compare une auto-Ã©valuation de leurs tailles et poids dâ€™individus engagÃ©s dans un programme dâ€™exercices avec les mesures rÃ©alisÃ©es par lâ€™Ã©quipe encadrante.\n",
+    "\n",
+    "Imaginons un objectif oÃ¹, en fonction des valeurs renseignÃ©es, on souhaiterait dÃ©duire lâ€™Ã©tiquette *H* ou *F* qui leur est associÃ©e. Chargeons dans un premier temps les donnÃ©es et affichons un rÃ©sumÃ©Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "2f7609ab-f6d7-459a-bdea-cfab3f255332",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load data\n",
+    "df = pd.read_csv(\"../files/davis.csv\", sep=\"\\t\")\n",
+    "\n",
+    "# select variables\n",
+    "target = \"sex\"\n",
+    "features = [\"weight\", \"height\", \"repwt\", \"repht\"]\n",
+    "\n",
+    "# a copy of the data frame\n",
+    "data = df.copy()\n",
+    "data = data[[target] + features]\n",
+    "\n",
+    "data.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e3479ed2-ec29-4a05-9554-1691a59f3e4d",
+   "metadata": {},
+   "source": [
+    "Le jeu de donnÃ©es est composÃ©e de 200 observations mais comme toutes ne sont pas remplies pour tous les champs, il convient dans un premier temps de sâ€™en occuper. Nous retenons comme stratÃ©gie de les combler avec la valeur moyenne de la colonneÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "638eaa6f-d30a-45f3-b888-d727eb00ef53",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# mean value\n",
+    "repwt_mean = int(data.repwt.mean())\n",
+    "repht_mean = int(data.repht.mean())\n",
+    "\n",
+    "# fill NA\n",
+    "data.repwt.fillna(repwt_mean, inplace=True)\n",
+    "data.repht.fillna(repht_mean, inplace=True)\n",
+    "\n",
+    "data.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ee52c74a-9e9d-4998-99f6-f370419a7926",
+   "metadata": {},
+   "source": [
+    "La seconde Ã©tape consiste Ã  sÃ©parer le *dataset* en deux parties inÃ©galesÂ : lâ€™une pour le jeu dâ€™entraÃ®nement, constituÃ©e de 80Â % de lâ€™ensembleÂ ; et lâ€™autre pour le jeu de test."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cece0234-c72c-4f7f-a0db-4805e0f98f0f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "limit = int(len(data) * 0.2)\n",
+    "\n",
+    "# split\n",
+    "train = data[limit:]\n",
+    "test = data[:limit]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f3d0c802-2b5f-48bf-a34c-65ad0b30520b",
+   "metadata": {},
+   "source": [
+    "Attachons-nous Ã  Ã©tudier le rapport entre le poids et la taille des individus. Intuitivement, on penserait que ces caractÃ©ristiques sont globalement liÃ©es par une corrÃ©lation positiveÂ : lâ€™augmentation chez lâ€™une entraÃ®ne une augmentation chez lâ€™autre. Si nous affichons une droite de rÃ©gression sur le jeu de donnÃ©es complet, on observe bien le phÃ©nomÃ¨ne attenduÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "312afd57-af0f-4e38-9154-a05c0402715e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "_ = sns.regplot(data=data, x=\"weight\", y=\"height\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "84c8a544-351b-4b47-89ba-abfb9f1f031e",
+   "metadata": {},
+   "source": [
+    "Pour autant, il nâ€™en va pas de mÃªme avec les jeux dâ€™entraÃ®nement et de testÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cdc0d499-1ee3-4740-9c9d-2d3b4b0b5f90",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "figure, (col_1, col_2)= plt.subplots(ncols=2, figsize=(12,4))\n",
+    "\n",
+    "sns.regplot(data=train, x=\"weight\", y=\"height\", ax=col_1)\n",
+    "sns.regplot(data=test, x=\"weight\", y=\"height\", ax=col_2)\n",
+    "\n",
+    "figure.suptitle(\"Relation entre le poids et la taille des individus\", y=1.05)\n",
+    "\n",
+    "col_1.set(title=\"Jeu dâ€™entraÃ®nement\")\n",
+    "col_2.set(title=\"Jeu de test\")\n",
+    "\n",
+    "sns.despine()\n",
+    "\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c500a2fa-07c5-45f4-a8c7-548abd3d0c9e",
+   "metadata": {},
+   "source": [
+    "Ã€ votre avis, quelles erreurs peuvent avoir faussÃ© notre interprÃ©tationÂ ?"
+   ]
   }
  ],
  "metadata": {
diff --git a/notebooks/machine-learning/exercises/0.bias-and-common-errors.ipynb b/notebooks/machine-learning/exercises/0.bias-and-common-errors.ipynb
new file mode 100644
index 0000000000000000000000000000000000000000..cd94771b800874d2a9caa627024760f6e31d58d1
--- /dev/null
+++ b/notebooks/machine-learning/exercises/0.bias-and-common-errors.ipynb
@@ -0,0 +1,408 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "id": "411ba7b3-7d56-45fe-b01e-205275e1988a",
+   "metadata": {},
+   "source": [
+    "# Des biais et des erreurs communes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "4e2fcf4b-d8aa-4bb2-8eab-dfe9a3210604",
+   "metadata": {},
+   "source": [
+    "Les exercices suivants sont destinÃ©s Ã  vous familiariser avec les concepts apprÃ©hendÃ©s lors de lâ€™introduction au *machine learning*. Avant toute chose, importez les librairies utilesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "556f4053-3ccb-497e-bbf3-cf2266df3027",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import matplotlib.pyplot as plt\n",
+    "import pandas as pd\n",
+    "import seaborn as sns\n",
+    "from random import random\n",
+    "\n",
+    "sns.set_context('notebook')"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "8638d5e5-1093-4f36-b80e-bf6527434b1e",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## Une intelligence artificielle drÃ´lement intelligente"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f0f31bdb-dcd7-4fbf-afcf-58e2a5b5eed3",
+   "metadata": {},
+   "source": [
+    "Prenons un jeu de donnÃ©es factice dâ€™une centaine dâ€™observations Ã©tiquetÃ©es pour les unes *cat*, pour les autres *dog*, avec des valeurs associÃ©es que lâ€™on suppose dimensionnÃ©esÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "0d646d8d-79a7-4710-962c-205d61006b8f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# 5, out of an hundred, are cats\n",
+    "series = {\n",
+    "    \"label\": [ \"cat\" if i < 5 else \"dog\" for i in range(100) ],\n",
+    "    \"value\": [ random() for i in range(100) ]\n",
+    "}\n",
+    "\n",
+    "df = pd.DataFrame(series)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "9d54a3f7-1230-480c-b861-845c64bb8d79",
+   "metadata": {},
+   "source": [
+    "Afin dâ€™Ã©viter un biais Ã©vident relatif aux donnÃ©es non triÃ©es, nous les mÃ©langeons grÃ¢ce Ã  une fonction de randomisationÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b3716192-e089-4615-84d7-35595dcd6f02",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = df.sample(frac=1).reset_index(drop=True)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "acf511e2-866d-466a-9660-85173a8fa7e9",
+   "metadata": {},
+   "source": [
+    "Notre objectif Ã©tant de programmer une machine qui va, pour une valeur de `X`, deviner si nous sommes en prÃ©sence dâ€™un chat ou dâ€™un chien, il est temps dâ€™extraire la variable cible du jeu de donnÃ©esÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "2259be59-bf54-4884-8f7b-a0429af1dd03",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "y = df.label\n",
+    "X = df.value"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "d0556dcb-7766-4bdf-be40-5a27ca791c50",
+   "metadata": {},
+   "source": [
+    "Nous pouvons maintenant programmer un prÃ©dicteur qui, pour chaque observation dans `X`, lui associera systÃ©matiquement lâ€™Ã©tiquette *dog*Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "02714fdd-a566-4807-a4e2-a127e3eab495",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "y_pred = [ \"dog\" for i in X ]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "2769bc14-464d-45e7-992a-4d880b413f0e",
+   "metadata": {},
+   "source": [
+    "En comparant les prÃ©dictions `y_pred` avec la rÃ©alitÃ© (`y`), on peut calculer le taux dâ€™exactitudeÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "46df19b7-8439-4397-9e8f-39262a156882",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "accuracy = (y_pred == y).sum()\n",
+    "\n",
+    "print(f\"Le taux dâ€™exactitude (accuracy) de notre prÃ©dicteur est de { accuracy } % !\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "12e88304-31b6-4a85-b8db-7cf2c8584526",
+   "metadata": {},
+   "source": [
+    "Expliquez pourquoi un algorithme aussi bÃªte que le nÃ´tre a pu obtenir un score aussi Ã©tonnant."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "61c8d84f-a791-425e-ae70-306f0da93a55",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## Les relations Ã  distance"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "057d738a-a8a8-4d38-9dd2-b109d1325308",
+   "metadata": {},
+   "source": [
+    "Il paraÃ®t que lâ€™univers est en expansion et que cette expansion va en sâ€™accÃ©lÃ©rant. Câ€™est en tout cas ce que lâ€™Ã©tude de Wendy Freedman et al. a prouvÃ© ([*Freedman, 2001*](../0.about-datasets.ipynb#Stellar-Objects)). Par consÃ©quent, on sâ€™attend Ã  ce quâ€™un objet stellaire sâ€™Ã©loigne dâ€™autant plus vite de nous que la distance qui nous sÃ©pare de lui est grande.\n",
+    "\n",
+    "Chargeons le jeu de donnÃ©es en se concentrant sur des objets proches de nous (entre 30 000 et 100 000 annÃ©es-lumiÃ¨res)Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1cf3ab56-418f-46e3-bc3f-36cf0eec0dbf",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load data\n",
+    "df = pd.read_csv(\"../files/stellar-objects.csv\", sep=\"\\t\")\n",
+    "\n",
+    "# distance: megaparsec (MPC)\n",
+    "# velocity: in km/s\n",
+    "df[\"velocity\"] = df.v_helio.fillna(df.v_flow.fillna(df.v_cmb))\n",
+    "\n",
+    "# objects close to earth, but not that close :)\n",
+    "data = df[(df.distance > 10) & (df.distance < 30)]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f0a306e1-be3e-4431-84a3-32216340c326",
+   "metadata": {},
+   "source": [
+    "Affichons un nuage de points afin de vÃ©rifier la proposition de ces pontes de la NASAÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1fb0d73f-62bd-4777-b4e4-276554e2a599",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "sns.scatterplot(data=data, x=\"distance\", y=\"velocity\")\n",
+    "\n",
+    "sns.despine()\n",
+    "\n",
+    "plt.title(\"Relation between distance and velocity of stellar objects\")\n",
+    "plt.xlabel(\"Distance (MPC)\")\n",
+    "plt.ylabel(\"Velocity (km/s)\")\n",
+    "\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "fbb20849-4a22-4870-940b-8067fd06e548",
+   "metadata": {},
+   "source": [
+    "Euhâ€¦ rien de bien concluant Ã  premiÃ¨re vue, nonÂ ? Afin de dÃ©terminer visuellement sâ€™il existe bien une relation linÃ©aire entre la distance et la vitesse dâ€™Ã©loignement, affichez une droite de rÃ©gressionÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "125c4241-faf9-4209-b8c6-cfc2c1b07105",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# your code here"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "aa3c4eeb-5ce4-44f2-9403-9d50a9e425e9",
+   "metadata": {},
+   "source": [
+    "Bon, appelez BFM TV, Wendy sâ€™est trompÃ©eÂ : 2/3 des points sont en dehors de lâ€™intervalle de confiance Ã  95Â %. Ou alors, peut-Ãªtre avons-nous fait une erreur de mÃ©thodologieÂ ?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "220410a9-d71d-4d16-b724-1f31539ed987",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## Une Ã©tude de genre"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "cfc33885-ca65-4f89-8eac-04d519b8c6ab",
+   "metadata": {},
+   "source": [
+    "Lâ€™enquÃªte [*Self-Reports of Height and Weight*](../0.about-datasets.ipynb#Self-Reports-of-Height-and-Weight) (Davis, 1990) compare une auto-Ã©valuation de leurs tailles et poids dâ€™individus engagÃ©s dans un programme dâ€™exercices avec les mesures rÃ©alisÃ©es par lâ€™Ã©quipe encadrante.\n",
+    "\n",
+    "Imaginons un objectif oÃ¹, en fonction des valeurs renseignÃ©es, on souhaiterait dÃ©duire lâ€™Ã©tiquette *H* ou *F* qui leur est associÃ©e. Chargeons dans un premier temps les donnÃ©es et affichons un rÃ©sumÃ©Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "2f7609ab-f6d7-459a-bdea-cfab3f255332",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# load data\n",
+    "df = pd.read_csv(\"../files/davis.csv\", sep=\"\\t\")\n",
+    "\n",
+    "# select variables\n",
+    "target = \"sex\"\n",
+    "features = [\"weight\", \"height\", \"repwt\", \"repht\"]\n",
+    "\n",
+    "# a copy of the data frame\n",
+    "data = df.copy()\n",
+    "data = data[[target] + features]\n",
+    "\n",
+    "data.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "e3479ed2-ec29-4a05-9554-1691a59f3e4d",
+   "metadata": {},
+   "source": [
+    "Le jeu de donnÃ©es est composÃ©e de 200 observations mais comme toutes ne sont pas remplies pour tous les champs, il convient dans un premier temps de sâ€™en occuper. Nous retenons comme stratÃ©gie de les combler avec la valeur moyenne de la colonneÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "638eaa6f-d30a-45f3-b888-d727eb00ef53",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# mean value\n",
+    "repwt_mean = int(data.repwt.mean())\n",
+    "repht_mean = int(data.repht.mean())\n",
+    "\n",
+    "# fill NA\n",
+    "data.repwt.fillna(repwt_mean, inplace=True)\n",
+    "data.repht.fillna(repht_mean, inplace=True)\n",
+    "\n",
+    "data.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "ee52c74a-9e9d-4998-99f6-f370419a7926",
+   "metadata": {},
+   "source": [
+    "La seconde Ã©tape consiste Ã  sÃ©parer le *dataset* en deux parties inÃ©galesÂ : lâ€™une pour le jeu dâ€™entraÃ®nement, constituÃ©e de 80Â % de lâ€™ensembleÂ ; et lâ€™autre pour le jeu de test."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cece0234-c72c-4f7f-a0db-4805e0f98f0f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "limit = int(len(data) * 0.2)\n",
+    "\n",
+    "# split\n",
+    "train = data[limit:]\n",
+    "test = data[:limit]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "f3d0c802-2b5f-48bf-a34c-65ad0b30520b",
+   "metadata": {},
+   "source": [
+    "Attachons-nous Ã  Ã©tudier le rapport entre le poids et la taille des individus. Intuitivement, on penserait que ces caractÃ©ristiques sont globalement liÃ©es par une corrÃ©lation positiveÂ : lâ€™augmentation chez lâ€™une entraÃ®ne une augmentation chez lâ€™autre. Si nous affichons une droite de rÃ©gression sur le jeu de donnÃ©es complet, on observe bien le phÃ©nomÃ¨ne attenduÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "312afd57-af0f-4e38-9154-a05c0402715e",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "_ = sns.regplot(data=data, x=\"weight\", y=\"height\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "84c8a544-351b-4b47-89ba-abfb9f1f031e",
+   "metadata": {},
+   "source": [
+    "Pour autant, il nâ€™en va pas de mÃªme avec les jeux dâ€™entraÃ®nement et de testÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cdc0d499-1ee3-4740-9c9d-2d3b4b0b5f90",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "figure, (col_1, col_2)= plt.subplots(ncols=2, figsize=(12,4))\n",
+    "\n",
+    "sns.regplot(data=train, x=\"weight\", y=\"height\", ax=col_1)\n",
+    "sns.regplot(data=test, x=\"weight\", y=\"height\", ax=col_2)\n",
+    "\n",
+    "figure.suptitle(\"Relation entre le poids et la taille des individus\", y=1.05)\n",
+    "\n",
+    "col_1.set(title=\"Jeu dâ€™entraÃ®nement\")\n",
+    "col_2.set(title=\"Jeu de test\")\n",
+    "\n",
+    "sns.despine()\n",
+    "\n",
+    "plt.show()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "c500a2fa-07c5-45f4-a8c7-548abd3d0c9e",
+   "metadata": {},
+   "source": [
+    "Ã€ votre avis, quelles erreurs peuvent avoir faussÃ© notre interprÃ©tationÂ ?"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}