4.2.1.1 La méthode holdout
La plus simple de toutes (mais aussi la plus souvent
rencontrée) est la méthode Holdout (Train-Test Split). L'objectif
de cette méthode va être de séparer l'ensemble de
données
en deux sous ensembles. Le premier va donc être le
sous-ensemble de données réservéà l'apprentissage
du modèle. Le second va servir à tester ce modèle pour
ainsi l'évaluer. Le
sous ensemble de données d'apprentissage est
très généralement plus grand que celui de test. On
constate une proportion de 70% à 80% pour l'apprentissage et 20%
à 30% pour les tests.
Cette technique est efficace, sauf si les données sont
limitées. Il peut alors manquer certaines informations sur les
données qui n'ont pas étéutilisées pour
l'entraînement, et les résultats peuvent donc être hautement
biaisés.
En revanche, si l'ensemble de données est vaste et que
la distribution est égale entre les deux échantillons, cette
approche convient tout à fait. Il est possible de séparer ma-
Mémoire de Master II en Informatique 67 c~NJAMEN M.
ZELKIF 2020-2021
Mémoire de Master II en Informatique 68 c~NJAMEN M.
ZELKIF 2020-2021
4.2. LES DIFF'ERENTES TECHNIQUES D''EVALUATIONS DES MOD`ELES
CHAPITRE DE 4. MACHINE R'ESULTATS LEARNING ET DISCUSSIONS
nuellement les données, ou d'utiliser la méthode
train test split de scikit-learn.
4.2.1.2 La méthode K-Folds
La technique K-Folds est simple à comprendre, et
particulièrement populaire. Par rapport aux autres approches de
Cross-Validation, elle résulte généralement sur un
modèle moins biaisé.
Pour cause, elle permet d'assurer que toutes les observations
de l'ensemble de données original aient la chance d'apparaître
dans l'ensemble d'entraînement et dans l'ensemble de test. En cas de
données d'input limitées, il s'agit donc de l'une des meilleures
approches.
On commence tout d'abord par séparer l'ensemble de
données de manière aléatoire en K folds. La
procédure a un paramètre unique appelé» K »
faisant référence au nombre de groupes dans lequel
l'échantillon sera divisé.
La valeur de K ne doit être ni trop basse ni trop haute,
et on choisit généralement une valeur comprise entre 5 et 10 en
fonction de l'envergure du dataset. Par exemple, si K=10, le dataset sera
diviséen 10 parties.
Une valeur K plus élevée mène à un
modèle moins biaisé, mais une variance trop large peut conduire
à un sur-ajustement. Une valeur plus basse revient à utiliser la
méthode Train-Test Split.
On ajuste ensuite le modèle en utilisant les folds K-1 (K
moins 1). Le modèle est validéen utilisant le K-fold restant. Les
scores et les erreurs doivent être notés.
Le processus est répétéjusqu'àce
que chaque K-fold serve au sein de l'ensemble d'entraînement. La moyenne
des scores enregistrés est la métrique de performance du
modèle confère figure 4.2.
Dans le cas de figure oùle modèle (estimateur)
est un classificateur et que la variable cible (y) est binaire ou
multiclasse, on utilise par défaut la technique
»StratifiedKfold». Cette méthode rapporte des folds
stratifiés, par exemple en maintenant le pourcentage
d'échantillons pour chaque classe dans tous les folds. Ainsi, les
données des folds d'entraî-nement et de test sont
équitablement distribuées.
|