Apprentissage sur des données académiques en vue de faciliter l'orientation et l'aide à la décision

par Zelkifilou NJAMEN MOUNGNUTOU
Université de Douala - Master 2 recherche en informatique appliquée option SIS 2020

précédent sommaire

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.2.1.3 La méthode LOOCV

LOOCV (Leave One Out Cross-Validation) est un type d'approche de validation croisée dans laquelle chaque observation est considérée comme l'ensemble de validation et

Mémoire de Master II en Informatique 69 c~NJAMEN M. ZELKIF 2020-2021

4.2. LES DIFF'ERENTES TECHNIQUES D''EVALUATIONS DES MOD`ELES CHAPITRE DE 4. MACHINE R'ESULTATS LEARNING ET DISCUSSIONS

les autres observations (N - 1) sont considérées comme l'ensemble d'apprentissage. Dans LOOCV, l'ajustement du modèle est effectuéet la prédiction à l'aide d'un ensemble de validation d'observation. De plus, répéter cela N fois pour chaque observation en tant qu'ensemble de validation. Le modèle est ajustéet le modèle est utilisépour prédire une valeur pour l'observation. Il s'agit d'un cas particulier de validation croisée K-fold dans lequel le nombre de plis est le même que le nombre d'observations (K = N). Cette méthode permet de réduire les biais et le caractère aléatoire.La méthode vise à réduire le taux d'erreur quadratique moyen et à éviter le surajustement Lima [45].

4.2.2 La matrice de confusion

La matrice de confusion est un outil qui permet de savoir à quel point le modèle de machine learning est « confus », ou qu'il se trompe. Il s'agit d'un tableau avec en colonne les différents cas réels et en ligne les différents cas d'usage prédits.

Prenons l'exemple d'un test d'orientation scolaire pour les spécialités »Scientifiques» et »Littéraires», la matrice sera la suivante :

Si l'élève doit aller en Scientifique ou Littéraire

	Scientifique	Littéraire	Scientifique
Nombre de Vrai Positif	Nombre de Faux Positif	Littéraire
Nombre de Faux Négatif	Nombre de Vrai Négatif

Tableau 4.1 - Exemple d'une Matrice de Confusion

On obtient donc les quatre valeurs suivantes :

· Vrai positif (VP), les valeurs réelles et prédites sont identiques et positives. L'élève est orientée en Scientifique et le modèle le prédit.

· Vrai négatif (VN), les valeurs réelles et prédites sont identiques et négatives. L'élève n'est pas en Scientifique et le modèle prédit qu'il ne l'est pas donc qu'il est en littéraire.

· Faux positif (FP), les valeurs réelles et prédites sont différentes. L'élève n'est pas Scientifique, mais le modèle prédit qui l'est.

· Faux négatif (FN), les valeurs réelles et prédites sont différentes. L'élève est Scientifique, et le modèle prédit qui l'est.

4.3. RÉSULTAT ET DISCUSSION CHAPITRE 4. RÉSULTATS ET DISCUSSIONS

Mémoire de Master II en Informatique 70 c~NJAMEN M. ZELKIF 2020-2021

L'étude de ces valeurs prédictives permet de définir si le modèle de machine learning est fiable, dans quels cas il commet des erreurs et dans quelle mesure.

à partir de ce tableau (de la matrice de confusion) on peut calculer :

· L'exactitude : qui mesure l'adéquation d'un modèle de classification sous forme de proportion de résultats réels sur le nombre total de cas.

· La précision : qui correspond à la proportion de résultats réels sur tous les résultats positifs. Précision = TP/(TP+FP)

· Le Rappel : qui est la fraction de la quantitétotale d'instances pertinentes qui ont étéréellement récupérées. Rappel = TP/(TP+FN)

· Le score F1 : qui est calculécomme la moyenne pondérée de précision et de rappel comprise entre 0 et 1, la valeur de score F1 idéale étant 1.

· AUC mesure la zone sous la courbe tracée avec les vrais positifs sur l'axe y et les faux positifs sur l'axe x. Cette métrique est utile car elle fournit un nombre unique qui vous permet de comparer les modèles de types différents. AUC est un invariant de seuil de classification. Il mesure la qualitédes prédictions du modèle, quel que soit le seuil de classification choisi.

4.3 Résultat et Discussion

Dans cette section nous allons présenter les résultats que nous avons obtenu après avoir appliquéles modèles d'apprentissage sur notre jeu de donnée (data-set).

Les modèles que nous avons choisi sont ceux de classification car notre problème est une sorte de classification binaire dont la classe à prédire a deux valeurs (Scientifique et Littéraire). Ainsi, ces modèles (Algorithmes) sont : la Régression Logistique, Les Arbres de Décision, les K-PPV, les SVM et les Forêts Aléatoire (Random Forest).

À cet effet, nous avons obtenu les résultats suivants :

· Régression Logistique : 64% (0.6418523)

· Arbre de décision : 60% (0.60123812)

· SVM : 69% (0.69012512)

·

4.3. RÉSULTAT ET DISCUSSION CHAPITRE 4. RÉSULTATS ET DISCUSSIONS

Mémoire de Master II en Informatique 71 c~NJAMEN M. ZELKIF 2020-2021

K-PPV : 65% (0.6541210)

· Forêt Aléatoire : 68% (0.6854102) D'oùle tableau ci-dessous :

Modèle Machine Learning (Algorithme)		Résultat	Régression Logistique
64%	(0.6418523)	Arbre de décision
60%	(0.60123812)	SVM
69%	(0.69012512)	K-PPV
65%	(0.6541210)	Forêt Aléatoire
68%	(0.6854102)

Tableau 4.2 - Synthèse des différents Résultats obtenus

Pour valider ces résultats, nous avons utilisés plusieurs métriques d'évaluation d'erreurs telles que : la validation croisée et la matrice de confusion (AUC, F1-Score, la Précision) comme le montre la figure ci-dessous :

Figure 4.3 - Diagramme des résultats

4.4. CONCLUSION CHAPITRE 4. RÉSULTATS ET DISCUSSIONS

Mémoire de Master II en Informatique 72 c~NJAMEN M. ZELKIF 2020-2021

D'après ce diagramme, nous constatons que les SVM (Support Vecteurs Machines) répondent bien sur le data-set par rapport aux autres modèles utilisés. Outre les SVM il suit les Forêts aléatoires ceci tout simplement parce-que les Random forest sont des combinaisons de plusieurs sous-arbre de décision.

4.4 Conclusion

Parvenu au terme de ce chapitre, oùnous avons détaillél'implémentation de notre approche de segmentation issu du seuillage et de l'ouverture morphologique en vue de la detection des noyaux; ce qui a fournit des résultats assez corrects. Il existe néanmoins plusieurs autres méthodes de segmentation non abordées dans ce travail qui offrent des perspectives très intéressantes. Par ailleurs, nous avons extrait des descripteurs morphologiques, d'intensitéet de texture à partir des images segmentées. Ces descripteurs nous ont permis de tester trois algorithmes d'apprentissage supervisékNN, SVM et les arbres de décision pour la classification de nos images afin de différencier les tumeurs malignes

des tumeurs bénignes. Ce qui nous a fournit également de résultats acceptables, malgréle faible taux faux positis enregistré.

73

? CONCLUSION ET

PERSPECTIVES ?

Le travail que nous avons présentédans ce document est celui de l'automatisation (apprentissage) sur des données académiques en vue de faciliter le processus de l'orienta-tion scolaire et l'aide à la décision au moyen des algorithmes de Machine Learning et du Profil de l'apprenant. Il construit tout d'abord le profil d'un apprenant, puis applique ce dernier sur des algorithmes de Machine Learning en vue de faciliter l'aide à la décision. Outre cela, il compare plusieurs modèles de Machine Learning afin de sélectionner celui qui répond le plus sur le data-set qui d'ailleurs est construit par nous.

En effet, notre recherche s'intègre dans la démarche de promouvoir la numérisation de l'enseignement et surtout la valorisation de l'automatisation d'orientation dans le processus enseignement apprentissage à l'ère du numérique. Bien que les conseillers d'orientation le font déjàce travail d'orientation, nous avons proposédans ce mémoire un Framework (modèle) facilitant cette tâches contre tenu des effectifs pléthorique des élèves dans nos établissements scolaires et surtout de la raretédes conseillers d'orientations dans ces établissements. La littérature nous a montrée qu'au Cameroun nous avons en moyenne un (01) conseiller pour deux milles (2000) élèves soit un pourcentage de 0.02% ce qui rend cette tâche difficile et biaisée à la base.

Pour répondre aux objectifs de recherche, nous avons au cours de se travail, construit le profil d'un apprenant pour une bonne orientation. Il faut noter que, ce profil ne tient pas en compte la situation familiale, ni l'environnement socioéconomique ou socioculturel de l'apprenant mais seul ses acquis ou compétences scolaires.

En outre, nous avons aussi effectuéune étude comparative des algorithmes de Machine Learning pour la recommandation afin de choisir celui qui réponde le mieux sur les données d'exemples que nous avons construit. Cela nous a permis de tirer la conclusion suivant laquelle le Modèle SVM est celui qui répond le mieux suivit des forêt aléatoires...

4.4. CONCLUSION CHAPITRE 4. RÉSULTATS ET DISCUSSIONS

Mémoire de Master II en Informatique 74 c~NJAMEN M. ZELKIF 2020-2021

Cependant, nous avons rencontréquelques difficultés notamment celles liées à l'acqui-sition des données et aussi à la disponibilités de l'électricité. La difficultéliée à l'acquisition des données est due à la confidentialitédont les gestionnaires des bases des données des établissements scolaires sont tenus.

Comme tout travail de recherche, bien que le modèle d'apprentissage présentédans ce travail soit utilisable à 70%, nous sommes convaincu qu'il est loin d'être parfait raison pour laquelle nous souhaiterons apporter dans un futur proche quelques améliorations telles que :

· L'augmentation des données de notre data-set car tout travail de Machine Learning commence par l'acquisition des données. En plus avec un data-set considérable, nous pourrions appliquer du Deep Learning.

· Tester des modèles d'apprentissage non supervisésur des données et les comparer avec les modèles d'apprentissage superviséutilisés dans le cadre de ce travail.

· Modifier la formule du profil afin qu'elle puisse prendre en compte les facteurs so-cioéconomiques et culturels de l'apprenant.

· Considérer parmi nos attributs, l'attribut sexe pour étudier les modèles d'appren-tissages qui sont sexistes ou non.

4 Références 4

[1] Cartelis, «Modèle d'entrepôts en étoile,» 01/08 2022,
https :// www.cartelis.com/blog/data-warehouse-modelisation-etoile/.

[2] Wikipédia, «Orientation scolaire et professionnelle,» Oct 2020, www.wikipedia.org.

[3] MINESEC-CAMEROUN, Guide d'utilisation de la batterie de tests d'aptitudes pour la classe de 3ème, Ministère des Enseignements Secondaires du Cameroun, 2014.

[4] B. Eric and L. Michel, Data Science : Fondamentaux et études des cas, Machine Learning avec Python et R, EDITIONS EYROLLES 61, bd Saint-Germain 75240 Paris Cedex 05 www.editions-eyrolles.com, 2015.

[5] T.-N. Nguyen, D. Lucas, K.-G. Artus, and S. Lars, «Recommender system for predicting student performance,» Procedia Computer Science, pp. 1-9, 01 2010.

[6] E. F. Hanaa, Q. Mohammed, S. Intissar, and M. Khalifa, «Personalized recommender system for e-learning environment based on student's preferences,» International Journal of Computer Science and Network Security, p. 173, oct 2018.

[7] K. KELLOU and A. MOKHTARI, Réalisation d'une plateforme d'expérimentations et de tests d'algorithmes de data mining www.ESIMiner.com, Ecole Nationale Supérieure d'Informatique, 2011.

[8] J. Guichard and M. Huteau, «L'orientation scolaire et professionnelle.» ISBN 2100485164, p. 120, 2005, paris, Dunod.

[9] C. Chassagne,«L'education à l'orientation.»Chemins de formation, p. 18, 1998, paris, Magnard.

[10] ||,«L'education à l'orientation.»Chemins de formation, p. 7, 1998, paris, Magnard.

[11]

RÉFÉRENCES RÉFÉRENCES

Mémoire de Master II en Informatique 76 c~NJAMEN M. ZELKIF 2020-2021

B. Jean-Michel, «Ecole, orientation, société,» PUF, p. 7, 1988, 2e Edition, Paris.

[12] G. Aurélien, Apprentissage supervisé, June 2013.

[13] Wikipédia, «Apprentissage automatique,» Dec 2021, www.wikipedia.org.

[14] B. Alain, INTELLIGENCE ARTIFICIELLE: Apprentissage, L'Institut de Technologie du Cambodge (ITC), June 2013.

[15] Z. Matthieu, «Apprentissage par renforcement développemental,» Ph.D. dissertation, Universitéde Lorraine, 2018.

[16] Wikipédia, «Apprentissage non supervisé,» Oct 2021, www.wikipedia.org.

[17] ||, «Apprentissage par renforcement,» Dec 2021, www.wikipedia.org.

[18] P. GitHub, «Introduction à l'apprentissage automatique, régression,» Jan 2022, https// projeduc.github.io.

[19] A. Lima, «Régression et classification apprentissage automatique supervisé,» Jan 2022, fr.acervolima.com.

[20] I. SOLLAH, Étude comparative entre des techniques de reconnaissance de caractères arabes, July 2019.

[21] Wikipédia, «k-nearest neighbors algorithm,» Fév 2022, wwww.wikipedia.com.

[22] 123dok, «Méthode des k plus proches voisins (kppv),» Fév 2022, wwww.123dok.net.

[23] A. Marwa, «Développement d'une nouvelle approche pour la reconnaissance d'écri-ture manuscrite,» Ph.D. dissertation, UNIVERSITÉDE LA MANOUBA ÉCOLE NATIONALE DES SCIENCES DE L'INFORMATIQUE, 2019.

[24] Wikipédia, «Arbre de décision (apprentissage),» Mars 2022, wwww.wikipedia.com.

[25] ||, «les support vecteur machines,» Mars 2022, wwww.wikipedia.com.

[26] V. N. Vapnik, «The nature of statistical learning theory,» N.Y : Springer-Verlag, p. 314, 1995, version électronique disponible sur internet.

[27] Wikipédia, «Réseau de neurones artificiels,» Mars 2022, wwww.wikipedia.com.

[28]

RÉFÉRENCES RÉFÉRENCES

Mémoire de Master II en Informatique 77 c~NJAMEN M. ZELKIF 2020-2021

l. b. JURI'Predis, «Démystifier le machine learning, partie 2 : Réseaux de neurones artifiiciels,» Nov 2021, wwww.juripredis.com.

[29] Wikipédia, «Fonction d'activation,» Mars 2021, wwww.wikipedia.com.

[30] T. K. Inside Machine Learning, «Fonction d'activation, comment ça marche? - une explication simple,» Avril 2022, wwww.inside-machinelearning.com.

[31] P. Hervé, «Statistiques et rÉseaux de neurones pour un systÈme de diagnostic : Application au diagnostic de pannes automobiles,» Ph.D. dissertation, Laboratoire d'Analyse et d'Architecture des Systèmes du CNRS, UniversitéPaul Sabatier de Toulouse, Mai 1996.

[32] B. M. Deeply Learning, «Fonction d'activation,» Sep 2018, wwww.deeplylearning.fr.

[33] P. Philippe, Fouille de données Notes de cours, Universitéde Lille 3, 2009.

[34] S. Patrick and N. Olfa, «Human-recommender systems : From benchmark data to benchmark cognitive models,» ResearchGate, pp. 127-130, september 2016.

[35] K. Danijel, J. Vedran, and a. Goran, «Machine learning in education - a survey of current research trends,» 29TH DAAAM INTERNATIONAL SYMPOSIUM ON INTELLIGENT MANUFACTURING AND AUTOMATION, pp. 0406-0410, July 2018, dOI : 10.2507/29th.daaam.proceedings.059.

[36] T. Ahajjam and F. Toussef, «Recommender system for orientation student,» Springer Nature Switzerland AG 2020, pp. 367-370, Nov 2020, bDNT 2019, LNNS 81.

[37] O. Emeric, D. Christophe, D. Alexandre, and L. D. Julien, «Une méthodologie d'ap-prentissage automatique pour l'aide à la décision en contexte d'industrialisation,» ISTE Ltd OpenScience, pp. 1-14, July 2019, conference Paper.

[38] Medium, «Les étapes du prétraitement des données,» Fév 2021, wwww.medium.com.

[39] T. D. Science, «6 étapes pour le nettoyage des données et pourquoi c'est important,» Jan 2020, www.datascience.eu.

[40] A. Lima, «Prétraitement des données dans l'exploration de données,» Fév 2021, fr.acervolima.com.

[41] M. P. DataScientest, «Cross-validation : définition et importance en machine learning,» Mai 2021, www.datascientest.com.

[42] B. scientifique de Jean-Charles RISCH, «Evaluer un modèle statistique de classification,» Mai 2015, jcrisch.wordpress.com.

[43] Saagie, «Machine learning : comment évaluer vos modèles? analyses et métriques,» Oct 2021, wwww.saagie.com.

[44] S. Learn, «Cross-validation : evaluating estimator performance,» Mars 2022, www.scikit-learn.org.

[45] A. Lima, «Loocv (leave one out cross-validation) dans la programmation r,» Mars 2022, fr.acervolima.com.

précédent sommaire