Apprentissage sur des données académiques en vue de faciliter l'orientation et l'aide à la décision

par Zelkifilou NJAMEN MOUNGNUTOU
Université de Douala - Master 2 recherche en informatique appliquée option SIS 2020

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2.1.1 La méthode holdout

La plus simple de toutes (mais aussi la plus souvent rencontrée) est la méthode Holdout (Train-Test Split). L'objectif de cette méthode va être de séparer l'ensemble de données

en deux sous ensembles. Le premier va donc être le sous-ensemble de données réservéà l'apprentissage du modèle. Le second va servir à tester ce modèle pour ainsi l'évaluer. Le

sous ensemble de données d'apprentissage est très généralement plus grand que celui de test. On constate une proportion de 70% à 80% pour l'apprentissage et 20% à 30% pour les tests.

Cette technique est efficace, sauf si les données sont limitées. Il peut alors manquer certaines informations sur les données qui n'ont pas étéutilisées pour l'entraînement, et les résultats peuvent donc être hautement biaisés.

En revanche, si l'ensemble de données est vaste et que la distribution est égale entre les deux échantillons, cette approche convient tout à fait. Il est possible de séparer ma-

Mémoire de Master II en Informatique 67 c~NJAMEN M. ZELKIF 2020-2021

Mémoire de Master II en Informatique 68 c~NJAMEN M. ZELKIF 2020-2021

4.2. LES DIFF'ERENTES TECHNIQUES D''EVALUATIONS DES MOD`ELES CHAPITRE DE 4. MACHINE R'ESULTATS LEARNING ET DISCUSSIONS

nuellement les données, ou d'utiliser la méthode train test split de scikit-learn.

4.2.1.2 La méthode K-Folds

La technique K-Folds est simple à comprendre, et particulièrement populaire. Par rapport aux autres approches de Cross-Validation, elle résulte généralement sur un modèle moins biaisé.

Pour cause, elle permet d'assurer que toutes les observations de l'ensemble de données original aient la chance d'apparaître dans l'ensemble d'entraînement et dans l'ensemble de test. En cas de données d'input limitées, il s'agit donc de l'une des meilleures approches.

On commence tout d'abord par séparer l'ensemble de données de manière aléatoire en K folds. La procédure a un paramètre unique appelé» K » faisant référence au nombre de groupes dans lequel l'échantillon sera divisé.

La valeur de K ne doit être ni trop basse ni trop haute, et on choisit généralement une valeur comprise entre 5 et 10 en fonction de l'envergure du dataset. Par exemple, si K=10, le dataset sera diviséen 10 parties.

Une valeur K plus élevée mène à un modèle moins biaisé, mais une variance trop large peut conduire à un sur-ajustement. Une valeur plus basse revient à utiliser la méthode Train-Test Split.

On ajuste ensuite le modèle en utilisant les folds K-1 (K moins 1). Le modèle est validéen utilisant le K-fold restant. Les scores et les erreurs doivent être notés.

Le processus est répétéjusqu'àce que chaque K-fold serve au sein de l'ensemble d'entraînement. La moyenne des scores enregistrés est la métrique de performance du modèle confère figure 4.2.

Dans le cas de figure oùle modèle (estimateur) est un classificateur et que la variable cible (y) est binaire ou multiclasse, on utilise par défaut la technique »StratifiedKfold». Cette méthode rapporte des folds stratifiés, par exemple en maintenant le pourcentage d'échantillons pour chaque classe dans tous les folds. Ainsi, les données des folds d'entraî-nement et de test sont équitablement distribuées.

précédent sommaire suivant