From 24b14045c43761ee6ebac783842736b609cfafb2 Mon Sep 17 00:00:00 2001
From: Alexandre Roulois <alexandre.roulois@u-paris.fr>
Date: Tue, 6 Sep 2022 10:05:10 +0200
Subject: [PATCH] Test binder notebook

---
 5.data-frames.ipynb | 1084 +++++++++++++++++++++++++++++++++++++++++++
 environment.yml     |   20 +
 2 files changed, 1104 insertions(+)
 create mode 100644 5.data-frames.ipynb
 create mode 100644 environment.yml

diff --git a/5.data-frames.ipynb b/5.data-frames.ipynb
new file mode 100644
index 0000000..9ee3d60
--- /dev/null
+++ b/5.data-frames.ipynb
@@ -0,0 +1,1084 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "# DÃ©couverte des *data frames*"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Un *data frame* est une structure de donnÃ©es qui peut se concevoir comme une matrice oÃ¹ les colonnes peuvent Ãªtre de types diffÃ©rents, comme dans ce tableau Ã  deux dimensionsÂ :\n",
+    "\n",
+    "|gender|height|\n",
+    "|:-:|:-:|\n",
+    "|F|173|\n",
+    "|F|159|\n",
+    "|M|181|\n",
+    "\n",
+    "Chaque ligne est une *observation* quand les colonnes, autrement appelÃ©es *sÃ©ries*, constituent les variables qui la dÃ©crivent."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## AperÃ§u avec la librairie *Pandas*"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "En python, la librairie *Pandas* est dÃ©volue Ã  gÃ©rer ces structures essentielles pour lâ€™analyse de donnÃ©es. Elle sâ€™importe comme nâ€™importe quel module, Ã  lâ€™exception que lâ€™on a pour habitude de lui associer un alias *pd*Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Lâ€™exemple de lâ€™introduction pourrait se matÃ©rialiser en passant un objet de type `dict` au constructeur de la classe `DataFrame` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "genders = [\"F\", \"F\", \"M\"]\n",
+    "heights = [173, 159, 181]\n",
+    "\n",
+    "series = {\n",
+    "    \"gender\": genders,\n",
+    "    \"height\": heights\n",
+    "}\n",
+    "\n",
+    "df = pd.DataFrame(series)\n",
+    "\n",
+    "print(df)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Chaque sÃ©rie peut Ãªtre interrogÃ©e individuellement :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(df[\"gender\"])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Tout comme il est possible dâ€™accÃ©der Ã  des observations particuliÃ¨res grÃ¢ce au *slicing* :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(df[2:])"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## Importer un fichier CSV"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Dans la pratique, il est rare de devoir crÃ©er un *data frame* manuellement. Comme ces structures servent Ã  manipuler en ensemble large de donnÃ©es, elles les puisent soit de flux (signaux dâ€™entrÃ©es dâ€™un pÃ©riphÃ©rique, calculs Ã  la volÃ©eâ€¦) soit de fichiers."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### MÃ©thodes pour importer un fichier"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La mÃ©thode principale pour importer des donnÃ©es depuis un fichier est `.read_table()` mais, dans la vie rÃ©elle, on lui prÃ©fÃ¨re des mÃ©thodes spÃ©cifiques Ã  certains formats usuelsÂ :\n",
+    "- `.read_csv()` pour le format CSVÂ ;\n",
+    "- `.read_excel()` pour le format XLS de MicrosoftÂ ;\n",
+    "- `.read_json()` pour le format JSONÂ ;\n",
+    "- et `.read_sql()` pour le format SQLite.\n",
+    "\n",
+    "Importons le fichier *arrests.csv* (Friendly), issu dâ€™une enquÃªte plus large autour des articles du journal *Toronto Star*Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_table(\"./data/arrests.csv\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La mÃ©thode `.head()` permet de jeter un Å“il aux cinq premiÃ¨res observations du fichier :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Le rÃ©sultat de lâ€™importation nâ€™est pas probant. Il faut savoir que, par dÃ©faut, le caractÃ¨re de sÃ©paration de la mÃ©thode `.read_table()` est la tabulation et quâ€™il peut se paramÃ©trer avec le paramÃ¨tre `sep` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_table(\"./data/arrests.csv\", sep=\",\")\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Pour les fichiers au format CSV (*comma-separated values*), il est prÃ©fÃ©rable dâ€™opter pour la mÃ©thode spÃ©cifique :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\")\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### Description du jeu de donnÃ©es"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "jp-MarkdownHeadingCollapsed": true,
+    "tags": []
+   },
+   "source": [
+    "Le fichier *arrests.csv* est issu du package R carData (*Companion to Applied Regression Data Sets*). Il recense les personnes arrÃªtÃ©es Ã  Toronto en possession dâ€™une petite quantitÃ© de marijuana. Lâ€™enquÃªte est constituÃ©e de sept variables alÃ©atoires :\n",
+    "\n",
+    "|Variable|Description|Type|\n",
+    "|:-:|:-|:-:|\n",
+    "|*released*|Facteur Ã  deux niveaux pour distinguer les personnes relÃ¢chÃ©es avec une convocation (*Yes*) ou arrÃªtÃ©es sur place (*No*).|qualitative binaire|\n",
+    "|*year*|Vecteur numÃ©rique pour lâ€™annÃ©e de lâ€™arrestation. De 1997 Ã  2002.|qualitative ordonnÃ©e|\n",
+    "|*age*|Vecteur numÃ©rique pour lâ€™Ã¢ge, en nombre dâ€™annÃ©es.|quantitative continue|\n",
+    "|*sex*|Facteurs Ã  deux niveaux pour le sexe de lâ€™individu : *Male* ou *Female*.|qualitative binaire|\n",
+    "|*employed*|Facteur Ã  deux niveaux : lâ€™individu a-t-il une activitÃ© professionnelle (*Yes*) ou non (*N*).|qualitative binaire|\n",
+    "|*citizen*|Facteur Ã  deux niveaux pour qualifier les rÃ©sidents de Toronto (*Yes*) et les autres (*No*).|qualitative binaire|\n",
+    "|*checks*|Vecteur numÃ©rique (0 Ã  6) qui recense le nombre dâ€™apparitions de lâ€™individu sur les bases de donnÃ©es de la police (arrestations, condamnations antÃ©rieures, libÃ©ration conditionnelleâ€¦).|quantitative continue|"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "#### DÃ©finitions"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "jp-MarkdownHeadingCollapsed": true,
+    "tags": []
+   },
+   "source": [
+    "**Variable alÃ©atoire :** DonnÃ©e mesurÃ©e dont le rÃ©sultat est, en partie, dÃ» au hasard. Du point de vue de lâ€™enquÃªteur, les rÃ©ponses des personnes interrogÃ©es sont effectivement imprÃ©visibles.\n",
+    "\n",
+    "**Variable alÃ©atoire quantitative :** DonnÃ©e mesurÃ©e dont on peut faire la somme.\n",
+    "\n",
+    "**Variable alÃ©atoire quantitative discrÃ¨te :** Variable dont la mesure peut prendre une valeur isolÃ©e, comme la taille, le poids ou encore la tension.\n",
+    "\n",
+    "**Variable alÃ©atoire quantitative continue :** Variable dont la mesure pourrait prendre toutes les valeurs dâ€™un intervalle entre deux nombres (Ã¢ge, quotient intellectuel, numÃ©ration globulaire).\n",
+    "\n",
+    "**Variable alÃ©atoire qualitative :** DonnÃ©e mesurÃ©e dont on ne peut pas faire la somme, comme la profession, un taux de satisfaction ou encore le sexe dâ€™un individu. Elle peut Ãªtre de trois typesÂ : ordonnÃ©e, binaire ou non ordonnÃ©e."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### Gestion de lâ€™en-tÃªte"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Le jeu de donnÃ©es dispose de son en-tÃªte propre, imposÃ© par le responsable ayant modÃ©lisÃ© lâ€™enquÃªte. Dans certains cas, il est intÃ©ressant de pouvoir modifier les Ã©tiquettes associÃ©es aux variables, soit pour des questions de lisibilitÃ©, soit pour des questions pratiques.\n",
+    "\n",
+    "Par dÃ©faut, la mÃ©thode `.read_csv()` considÃ¨re la premiÃ¨re ligne comme la ligne dâ€™en-tÃªte, mais il est possible de la neutraliser avec la paramÃ¨tre `header` fixÃ© Ã  `None` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", header=None)\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Dans le cas prÃ©cis, la ligne dâ€™en-tÃªte est devenue une observation comme les autres, avec des valeurs aberrantes. La premiÃ¨re variable du *data frame*, qui devrait Ãªtre un vecteur numÃ©rique, affiche pour elle `NaN` (*Not a Number*). La raison est simpleÂ : dans le fichier de dÃ©part, la premiÃ¨re variable nâ€™est pas nommÃ©e afin dâ€™indiquer quâ€™il sâ€™agit de la colonne dâ€™index des observations, or, comme *Pandas* sâ€™attend Ã  trouver une donnÃ©e numÃ©rique, il la considÃ¨re comme une donnÃ©e aberration.\n",
+    "\n",
+    "Pour passer outre, utilisons le paramÃ¨tre `skiprows` pour lui demander de ne pas tenir compte de la premiÃ¨re ligne du fichier :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", header=None, skiprows=1)\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Il reste Ã  rÃ©tablir lâ€™en-tÃªte en transmettant des Ã©tiquettes personnalisÃ©es au paramÃ¨tre `names` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "names = [\"RelÃ¢chÃ©\", \"AnnÃ©e\", \"Ã‚ge\", \"Genre\", \"En activitÃ©\", \"Torontois\", \"Citations\"]\n",
+    "df = pd.read_csv(\"./data/arrests.csv\", header=None, skiprows=1, names=names)\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La premiÃ¨re colonne est de nouveau la colonne dâ€™index. Si lâ€™on avait voulu parvenir au mÃªme rÃ©sultat tout en conservant lâ€™en-tÃªte original, il aurait simplement fallu lui renseigner la colonne servant dâ€™index avec le paramÃ¨re `index_col`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", index_col=[0])\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Ã€ noter que le nom des variables importÃ©es reste toujours disponible dans un paramÃ¨tre `columns`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.columns"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "## PrÃ©parer un jeu de donnÃ©es"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### ReconnaÃ®tre le type dâ€™une sÃ©rie"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Toute sÃ©rie de donnÃ©es exprimÃ©e par une variable statistique est rÃ©putÃ©e contenir un mÃªme type de donnÃ©es au sein dâ€™un vecteur. Pour connaÃ®tre le type des diffÃ©rents vecteurs, on peut interroger la propriÃ©tÃ© `dtypes` du *data frame* :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", index_col=[0])\n",
+    "df.dtypes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Lorsque le jeu de donnÃ©es contient des donnÃ©es ambiguÃ«s au sein dâ€™une mÃªme sÃ©rie, il peut se rÃ©vÃ©ler utile de prÃ©ciser dÃ¨s lâ€™importation le type des diffÃ©rents vecteurs avec lâ€™option `dtype` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "dtypes= {\n",
+    "    \"released\": \"category\",\n",
+    "    \"sex\": \"category\",\n",
+    "    \"employed\": \"category\",\n",
+    "    \"citizen\": \"category\"\n",
+    "}\n",
+    "df = pd.read_csv(\"./data/arrests.csv\", index_col=[0], dtype=dtypes)\n",
+    "df.dtypes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### Conversion de type"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La solution recommandÃ©e pour convertir une colonne en un autre type de donnÃ©es est de passer par la mÃ©thode `.astype()`. Certaines conversions Ã©tant impossibles, comme par exemple convertir la chaÃ®ne de caractÃ¨res `\"chat\"` en entier, il convient de sâ€™assurer au prÃ©alable de la lÃ©gitimitÃ© de lâ€™opÃ©rationÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[\"year\"] = df[\"year\"].astype(\"category\")\n",
+    "df.dtypes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### Disposer des donnÃ©es manquantes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La gestion des donnÃ©es manquantes est une Ã©tape cruciale de la phase de prÃ©paration dâ€™un *dataset*. Pour une seule variable manquante, faut-il Ã©carter lâ€™observation complÃ¨te, lui attribuer une valeur par dÃ©faut ou encore opter pour une solution plus Ã©laborÃ©eÂ ?\n",
+    "\n",
+    "Chargeons un autre jeu de donnÃ©es, extrait dâ€™une enquÃªte sur les troubles de lâ€™alimentation (Davis, 1997). La mÃ©thode `.info()` permet de visualiser rapidement sâ€™il existe ou non des variables qui contiennent des donnÃ©es manquantesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/davis.csv\", index_col=[0])\n",
+    "\n",
+    "df.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Sur un total de 200 observations, deux des cinq variables comportent des valeurs manquantes. Il sâ€™agit de *repwt* et *repht*, qui comptent chacune 17 donnÃ©es manquantes. Lâ€™Ã©galitÃ© ne doit pas induire en erreurÂ : rien nâ€™assure que les donnÃ©es soient localisÃ©es sur les 17 mÃªmes observations.\n",
+    "\n",
+    "Pour sâ€™en assurer, il faut souvent leur faire la chasse. La mÃ©thode `.isnull()` permet de jeter un coup dâ€™oeil global sur le *data frame*, sur une sÃ©rie particuliÃ¨re ou encore sur une extractionÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[\"repht\"][190:].isnull()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Ã€ lâ€™inverse, il existe une mÃ©thode `.notnull()` pour rÃ©vÃ©ler au contraire les donnÃ©es qui ne sont pas manquantesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.notnull()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "CouplÃ©e aux mÃ©thodes `.any()` et `.sum()`, il est possible de reproduire exactement lâ€™information obtenue plus haut avec la mÃ©thode `.info()`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.isnull().any()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.isnull().sum()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Pour vÃ©ritablement les pister, il peut Ãªtre utile de connaÃ®tre plutÃ´t lâ€™indice des observations concernÃ©esÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.index[df.isnull().any(axis=1)]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "#### Suppression des donnÃ©es manquantes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Sâ€™il sâ€™agit de supprimer moins de 10 % de lâ€™effectif total, la question nâ€™est pas anodine, surtout si le jeu de donnÃ©es est volumineux. Pour rÃ©aliser cette opÃ©ration, il existe la mÃ©thode `.dropna()`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = df.dropna()\n",
+    "df.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Une autre stratÃ©gie consisterait Ã  ne sÃ©lectionner dans un *data frame* que les observations non nulles pour une variable donnÃ©eÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = df[df[\"repwt\"].notna()]\n",
+    "df.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "#### Affecter une valeur prÃ©dÃ©finie"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La mÃ©thode `.fillna()` offre la possibilitÃ© de remplir toutes les donnÃ©es manquantes par une mÃªme valeurÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/davis.csv\", index_col=[0])\n",
+    "\n",
+    "df = df.fillna(0)\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Un attribut `method` autorise une stratÃ©gie plus subtile, en remplaÃ§ant les donnÃ©es manquantes soit par celles qui prÃ©cÃ¨dent (`pad`) soit par celles qui suivent (`bfill`). Il convient alors de sâ€™assurer que les premiÃ¨re et derniÃ¨re observations ne comportent pas de donnÃ©es manquantesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/davis.csv\", index_col=[0])\n",
+    "\n",
+    "df[\"repht\"].fillna(method=\"pad\", inplace=True)\n",
+    "df[\"repwt\"].fillna(method=\"bfill\", inplace=True)\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Plus finement, nous pouvons bÃ©nÃ©ficier des facilitÃ©s de *Pandas* pour attribuer une valeur moins nocive aux donnÃ©es manquantes dâ€™une sÃ©rie, comme la moyenne arithmÃ©tique de lâ€™ensemble de ses valeursÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/davis.csv\", index_col=[0])\n",
+    "\n",
+    "repht_mean = int(df[\"repht\"].mean())\n",
+    "df[\"repht\"].fillna(repht_mean, inplace=True)\n",
+    "\n",
+    "df"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### Recoder des variables"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "#### Vers des vecteurs numÃ©riques"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Comme il est plus facile de manipuler des nombres dans un *data frame*, une opÃ©ration prÃ©lÃ©minaire Ã  toute analyse de donnÃ©es consiste souvent Ã  transformer au maximum les sÃ©ries en vecteurs numÃ©riques. Câ€™est par exemple possible en transmettant un dictionnaire dâ€™Ã©quivalences Ã  la mÃ©thode `.replace()` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", index_col=[0])\n",
+    "\n",
+    "translations = {\n",
+    "    \"Yes\": 1,\n",
+    "    \"No\": 0,\n",
+    "    \"Male\": 0,\n",
+    "    \"Female\": 1\n",
+    "}\n",
+    "\n",
+    "df.replace(translations, inplace=True)\n",
+    "df.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Par cette simple opÃ©ration, notre tableau de donnÃ©es nâ€™utilise dÃ©sormais que des vecteurs numÃ©riques. Il est possible de sâ€™en assurer rapidement :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.dtypes"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Avant de dÃ©finir des conversions, il est toutefois prudent de bien sâ€™assurer des diffÃ©rentes valeurs contenues dans une sÃ©rie avec la mÃ©thode `.unique()` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", index_col=[0])\n",
+    "\n",
+    "print(\n",
+    "    f\"released ==> { df['released'].unique() }\",\n",
+    "    f\"sex      ==> { df['sex'].unique() }\",\n",
+    "    f\"employed ==> { df['employed'].unique() }\",\n",
+    "    f\"citizen  ==> { df['citizen'].unique() }\",\n",
+    "    sep=\"\\n\"\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "#### Vers des vecteurs catÃ©goriels"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Lâ€™opÃ©ration inverse consiste Ã  recoder une variable en plusieurs modalitÃ©s. Pour cela, il existe la mÃ©thode `.cut()` qui permet de segmenter une variable en plusieurs tranches en fonction des modalitÃ©s convenues. Câ€™est souvent le cas de lâ€™Ã¢ge des individus que lâ€™on souhaite regrouper en diffÃ©rentes modalitÃ©sÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", index_col=[0])\n",
+    "\n",
+    "# delimiters are considered right included 'right=True':\n",
+    "# (0-17] (17-24] (24-35] (35-100]\n",
+    "bins = [0, 17, 24, 35, 100]\n",
+    "labels = [\"-18 ans\", \"18-24 ans\", \"25-35 ans\", \"+35 ans\"]\n",
+    "\n",
+    "# segmentation\n",
+    "df[\"cat_age\"] = pd.cut(df[\"age\"], bins=bins, labels=labels)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Pour effectuer une segmentation qui conserve une certaine proportionnalitÃ©, on aurait pu se fonder sur les quartilesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[\"age\"].describe()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## SÃ©lectionner des donnÃ©es"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### SÃ©lectionner une sÃ©rie entiÃ¨re"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Lâ€™opÃ©ration la plus simple consiste Ã  nommer la sÃ©rie Ã  sÃ©lectionner :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df = pd.read_csv(\"./data/arrests.csv\", index_col=[0])\n",
+    "\n",
+    "df[\"checks\"]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Des contraintes peuvent Ãªtre appliquÃ©es Ã  la sÃ©lection des donnÃ©es grÃ¢ce Ã  un prÃ©dicat `[]` :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# nb checks of persons who live outside Toronto only\n",
+    "df[\"checks\"][df[\"citizen\"] == \"No\"]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Pour sÃ©lectionner plus dâ€™une sÃ©rie, il suffit de transmettre la liste de leurs nomsÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[[\"checks\", \"sex\"]]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "tags": []
+   },
+   "source": [
+    "### SÃ©lectionner des observations"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Le *slicing* permet de sÃ©lectionner des observations Ã  l'intÃ©rieur du *data frame* :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[:3]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Tout comme il est possible de limiter Ã  une sÃ©rie particuliÃ¨re :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df[\"sex\"][:3]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Pour appliquer ces restrictions Ã  plusieurs sÃ©ries, il existe une propriÃ©tÃ© `loc` qui prend deux paramÃ¨tres : une *slice* et une liste de sÃ©ries :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.loc[:3, [\"released\", \"employed\", \"citizen\"]]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Appliquer des filtres sur les sÃ©lections\n",
+    "\n",
+    "De multiples conditions peuvent s'appliquer sur les sÃ©ries pour filtrer les donnÃ©es. Si par exemple on voulait ne retenir que lâ€™Ã¢ge et le nombre de citations des hommes de Toronto interpellÃ©s depuis 2000, on traduirait lâ€™Ã©noncÃ© comme ci-dessous. Les opÃ©rateurs de comparaison classiques (`==` `>` `<=`â€¦) ainsi que les opÃ©rateurs *bitwise* `&` `|` `~` peuvent Ãªtre utilisÃ©s."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.loc[:, [\"age\", \"checks\"]][(df[\"sex\"] == \"Male\") & (df[\"citizen\"] == \"Yes\") & (df[\"year\"] >= 2000)]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Le mÃªme rÃ©sultat peut sâ€™obtenir grÃ¢ce Ã  lâ€™appel Ã  une mÃ©thode `.query()`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.query(\"sex == 'Male' & citizen == 'Yes' & year >= 2000 \" ).loc[:, [\"age\", \"checks\"]]"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## DÃ©crire les donnÃ©es\n",
+    "\n",
+    "La librairie *Pandas* fournit un ensemble de mÃ©thodes pour dÃ©crire les donnÃ©es. La premiÃ¨re dâ€™entre elles, `.info()` affiche un rÃ©sumÃ© du *data frame* (nom des variables, prÃ©sence de valeurs nulles, nombre dâ€™observations)Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.info()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "La mÃ©thode `.describe()` fournit quant Ã  elle un aperÃ§u des vecteurs numÃ©riques grÃ¢ce Ã  quelques statistiquesÂ :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "df.describe()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "GrÃ¢ce Ã  un sÃ©lecteur, il est possible de restreindre la description Ã  une sÃ©rie particuliÃ¨re :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(\n",
+    "    df[\"employed\"].describe(),\n",
+    "    df[\"checks\"].describe(),\n",
+    "    sep=\"\\n\\n\"\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "De nombreuses opÃ©rations statistiques peuvent Ãªtre ensuite rÃ©solues avec les mÃ©thodes embarquÃ©es par la librairie :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# max\n",
+    "print(df[\"age\"].max())\n",
+    "\n",
+    "# min\n",
+    "print(df[\"age\"].min())\n",
+    "\n",
+    "# standard deviation\n",
+    "print(df[\"age\"].std())\n",
+    "\n",
+    "# average\n",
+    "print(df[\"age\"].mean())"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Citons une derniÃ¨re mÃ©thode trÃ¨s utile pour obtenir des comptages sur les variables, `.value_counts()`Â :"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "print(df[\"year\"].value_counts())"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Ã€ propos des donnÃ©es"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "> (Friendly) Personal communication from Michael Friendly, York University. \n",
+    "\n",
+    "> (Davis, 1997) Davis, C., G. Claridge, and D. Cerullo (1997) Personality factors predisposing to weight preoccupation: A continuum approach to the association between eating disorders and personality disorders. *Journal of Psychiatric Research* 31, 467â€“480. [personal communication from the authors.]"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.10.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}
diff --git a/environment.yml b/environment.yml
new file mode 100644
index 0000000..ccbddac
--- /dev/null
+++ b/environment.yml
@@ -0,0 +1,20 @@
+name: tal-ml
+channels:
+  - conda-forge
+  - defaults
+dependencies:
+  - beautifulsoup4=4.11
+  - jupyterlab=3.4
+  - jupyterlab-latex=3.1
+  - matplotlib=3.5
+  - nltk=3.6
+  - numpy=1.23
+  - pandas=1.4
+  - pip
+  - python=3.10
+  - scikit-learn=1.1
+  - scipy=1.9
+  - scrapy=2.6
+  - seaborn=0.11
+  - pip:
+    - git+https://github.com/ClaudeCoulombe/FrenchLefffLemmatizer.git
-- 
GitLab