Skip to content
Snippets Groups Projects
Commit b7aa2b73 authored by Alexandre Roulois's avatar Alexandre Roulois
Browse files

First exercise

parent b6d808c7
No related branches found
No related tags found
1 merge request!19First exercise
%% Cell type:markdown id:411ba7b3-7d56-45fe-b01e-205275e1988a tags:
# Des biais et des erreurs communes
%% Cell type:markdown id:4e2fcf4b-d8aa-4bb2-8eab-dfe9a3210604 tags:
Les exercices suivants sont destinés à vous familiariser avec les concepts appréhendés lors de l’introduction au *machine learning*. Avant toute chose, importez les librairies utiles :
%% Cell type:code id:4bbfb43b-1feb-4366-b1e7-5536f0f5aacd tags:
``` python
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
sns.set_context('notebook')
```
%% Cell type:markdown id:61c8d84f-a791-425e-ae70-306f0da93a55 tags:
## Les relations à distance
%% Cell type:markdown id:057d738a-a8a8-4d38-9dd2-b109d1325308 tags:
Il paraît que l’univers est en expansion et que cette expansion va en s’accélérant. C’est en tout cas ce que l’étude de Wendy Freedman et al. a prouvé ([*Freedman, 2001*](../0.about-datasets.ipynb#Stellar-Objects)). Par conséquent, on s’attend à ce qu’un objet stellaire s’éloigne d’autant plus vite de nous que la distance qui nous sépare de lui est grande.
Chargeons le jeu de données en se concentrant sur des objets proches de nous (entre 30 000 et 100 000 années-lumières) :
%% Cell type:code id:1cf3ab56-418f-46e3-bc3f-36cf0eec0dbf tags:
``` python
# load data
df = pd.read_csv("../files/stellar-objects.csv", sep="\t")
# distance: megaparsec (MPC)
# velocity: in km/s
df = pd.read_csv("./galaxies.csv", sep="\t")
df["velocity"] = df.v_helio.fillna(df.v_flow.fillna(df.v_cmb))
# objects close to earth, but not that close :)
data = df[(df.distance > 10) & (df.distance < 30)]
```
%% Cell type:code id:f6e8f95c-1da6-4d6f-b8c0-a6aa5cdddc2d tags:
%% Cell type:markdown id:f0a306e1-be3e-4431-84a3-32216340c326 tags:
``` python
df["velocity"] = df.v_helio.fillna(df.v_flow.fillna(df.v_cmb))
```
Affichons un nuage de points afin de vérifier la proposition de ces pontes de la NASA :
%% Cell type:code id:8396a4ef-9f1f-425a-886e-8d2bf3d979ee tags:
%% Cell type:code id:1fb0d73f-62bd-4777-b4e4-276554e2a599 tags:
``` python
sns.scatterplot(data=data, x="distance", y="velocity")
sns.despine()
plt.title("Relation between distance and velocity of stellar objects")
plt.xlabel("Distance (MPC)")
plt.ylabel("Velocity (km/s)")
#sns.scatterplot(data=df, x="distance", y="velocity", color="orange")
sns.regplot(data=df, x="distance", y="velocity", color="orange")
sns.despine()
plt.show()
```
%% Cell type:code id:6d94f18a-29ec-4da1-b542-b498e3017d2d tags:
%% Cell type:markdown id:fbb20849-4a22-4870-940b-8067fd06e548 tags:
Rien de bien concluant à première vue, non ? Afin de déterminer visuellement s’il existe bien une relation linéaire entre la distance et la vitesse d’éloignement, affichez une droite de régression :
%% Cell type:code id:125c4241-faf9-4209-b8c6-cfc2c1b07105 tags:
``` python
# your code here
_ = sns.regplot(data=data, x="distance", y="velocity")
```
%% Cell type:markdown id:aa3c4eeb-5ce4-44f2-9403-9d50a9e425e9 tags:
Bon, appelez BFM TV, Wendy s’est trompée : 2/3 des points sont en dehors de l’intervalle de confiance à 95 %. Ou alors, peut-être avons-nous fait une erreur de méthodologie ?
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment