Outliers

Analyse des outliers (valeurs aberrantes) pour trainedml. Affiche les boxplots pour détecter les outliers par variable numérique.

Détection d’outliers par les méthodes IQR et Z-score.

Contexte mathématique

  • IQR: $IQR = Q_3 - Q_1$

  • Z-score: $z = frac{x - mu}{sigma}$

Exemples

>>> from trainedml.viz.outliers import outlier_summary
>>> summary = outlier_summary(df)
>>> print(summary)
class trainedml.viz.outliers.OutliersViz(data)[source]

Bases : Vizs

Classe pour visualiser les outliers via boxplots.

vizs()[source]

Méthode à surcharger dans les classes filles pour générer la visualisation. Appelle automatiquement save() si un save_path a été défini.

trainedml.viz.outliers.outlier_summary(data, method='iqr', threshold=1.5)[source]

Detect outliers in the dataset using IQR or Z-score.

Paramètres:
  • data (pandas.DataFrame) – The dataset.

  • method (str, default='iqr') – Outlier detection method (“iqr”, “zscore”).

  • threshold (float, default=1.5) – Threshold for outlier detection.

Renvoie:

Outlier summary per column.

Type renvoyé:

dict

Notes

IQR method: $Q_1 = 25%$ percentile, $Q_3 = 75%$ percentile $IQR = Q_3 - Q_1$ Outlier if $x < Q_1 - k cdot IQR$ or $x > Q_3 + k cdot IQR$

Z-score method: $z = frac{x - mu}{sigma}$ Outlier if $|z| >$ threshold

Exemples

>>> summary = outlier_summary(df, method='zscore', threshold=3)
>>> print(summary)