Random Forest

Principe (Random Forest)

La méthode Random Forest est un ensemble d’arbres de décision construits sur des sous-échantillons aléatoires des données et des variables.

Chaque arbre vote, et la classe majoritaire est prédite :

\[\hat{y} = \operatorname{mode}\left(\{T_b(x)\}_{b=1}^B\right)\]
\[T_b \text{ est le } b\text{-ième arbre de la forêt.}\]

L’agrégation réduit la variance et améliore la robustesse.

Avantages : robuste, gère les variables catégorielles, peu sensible au surapprentissage.

Limites : moins interprétable, plus lent qu’un arbre de décision unique.

Illustration (Random Forest)

Schéma Random Forest

Exemple illustré (Random Forest)

Imaginons un ensemble de 3 arbres de décision, chacun construit sur un sous-échantillon différent des données. Pour une nouvelle observation, chaque arbre prédit une classe (par exemple 0, 1, 1). La classe finale prédite par la forêt est la classe majoritaire, ici 1.

Pour aller plus loin (Random Forest)