Préparer les données pour un projet de machine learning

La préparation des données représente souvent 70 à 80% du travail d'un projet de machine learning. Des données mal préparées produisent des modèles peu fiables, même avec les meilleurs algorithmes. Voici les étapes clés pour garantir des analyses solides.

Explorer et comprendre les données

Avant tout nettoyage, commencez par une exploration :

import pandas as pd
df = pd.read_csv('donnees.csv')
print(df.shape)       # dimensions
print(df.dtypes)      # types de colonnes
print(df.isnull().sum())  # valeurs manquantes
print(df.describe())  # statistiques descriptives

Gérer les valeurs manquantes

Plusieurs stratégies selon le contexte :

Suppression — si peu de lignes concernées (<5%)
Imputation par la médiane/moyenne — pour les variables numériques
Imputation par le mode — pour les variables catégorielles
Indicateur de manquance — quand l'absence est elle-même informative

Traiter les outliers

Les valeurs aberrantes peuvent biaiser les modèles. On les détecte avec :

# Méthode IQR
Q1 = df['colonne'].quantile(0.25)
Q3 = df['colonne'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['colonne'] < Q1-1.5*IQR) |
              (df['colonne'] > Q3+1.5*IQR)]

Encoder les variables catégorielles

Les algorithmes ML travaillent avec des nombres. Pour les variables catégorielles :

One-Hot Encoding — pour les catégories sans ordre (pd.get_dummies)
Label Encoding — pour les catégories ordinales
Target Encoding — pour les variables à forte cardinalité

Normaliser les variables numériques

La mise à l'échelle est essentielle pour beaucoup d'algorithmes :

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_train)

Conclusion

Une préparation rigoureuse des données est le fondement de tout projet ML réussi. En Dataiku, toutes ces étapes peuvent être documentées, reproductibles et auditables grâce aux recettes de préparation visuelles.

Data preparation often represents 70 to 80% of the work in a machine learning project. Poorly prepared data produces unreliable models, even with the best algorithms. Here are the key steps to ensure solid analyses.

Explore and understand the data

Before any cleaning, start with exploration:

import pandas as pd
df = pd.read_csv('data.csv')
print(df.shape)        # dimensions
print(df.dtypes)       # column types
print(df.isnull().sum())   # missing values
print(df.describe())   # descriptive stats

Handle missing values

Several strategies depending on context:

Deletion — if few rows are affected (<5%)
Median/mean imputation — for numeric variables
Mode imputation — for categorical variables
Missingness indicator — when absence is itself informative

Handle outliers

Outliers can bias models. Detect them with:

# IQR method
Q1 = df['column'].quantile(0.25)
Q3 = df['column'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['column'] < Q1-1.5*IQR) |
              (df['column'] > Q3+1.5*IQR)]

Encode categorical variables

ML algorithms work with numbers. For categorical variables:

One-Hot Encoding — for unordered categories (pd.get_dummies)
Label Encoding — for ordinal categories
Target Encoding — for high-cardinality variables

Normalize numeric variables

Scaling is essential for many algorithms:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_train)

Conclusion

Rigorous data preparation is the foundation of every successful ML project. In Dataiku, all these steps can be documented, reproducible and auditable through visual preparation recipes.