|

UNIVERSITE DE DOUALA UNIVERSITY OF DOUALA
Facultédes Sciences Faculty of Sciences
Département de Maths-Info Department of Mathematics and
CS
APPRENTISSAGE SUR DES DONNÉES ACADÉMIQUES EN
VUE DE FACILITER L'ORIENTATION ET L'AIDE À LA DÉCISION
Mémoire rédigéen vue de
l'obtention du diplôme de Master II en informatique
Présentéet soutenu par:
NJAMEN MOUNGNUTOU ZELKIFILOU 21S65508
Sous l'encadrement de:
Douala, 2021
Dr NOUMSI Auguste. CC
4 Résumé4
De nos jours, la quasi-totalitédes systèmes des
établissements scolaires sont informatisés. Ce qui permet la
collecte et le stockage en leur sein des données issues de la gestion
des processus académiques, disciplinaires, administratifs et même
financiers. Les données ainsi collectées au cours de chaque
année permettent le contrôle des activités et la production
des effets académiques. Cependant, lorsqu'elles sont accumulées
sur plusieurs générations, elles constituent un réservoir
qui peut servir pour l'aide à la décision. Les perspectives en ce
sens sont nombreuses : la gestion courante, la compréhension des
facteurs d'échec ou du succès, l'impact de la discipline sur le
succès, l'orientation scolaire etc. Compte tenu de la raretédes
conseillers d'orientation, malgrél'importance de cette activité,
nous proposons dans ce mémoire une solution automatisée d'aide
à la décision pour l'orientation scolaire. Notre démarche
va s'appuyer sur l'existence des données collectées au fil des
années pour construire un système d'aide à la
décision.
Mots clés : Machine Learning,
Système de recommandation, classification, prédiction,
orientation, aide de décision...
4 Abstract 4
Nowadays, almost all school systems are computerised. This
allows the collection and storage of data from academic, disciplinary,
administrative and even financial processes. The data collected in this way
during each year allows the monitoring of activities and the production of
academic effects. However, when accumulated over several generations, they
constitute a reservoir that can be used to assist decision-making. The
perspectives in this sense are numerous: current management, understanding the
factors of failure or success, the impact of discipline on success, school
orientation, etc. Given the scarcity of guidance counsellors, despite the
importance of this activity, we propose in this dissertation an automated
decision support solution for school orientation. Our approach is based on the
existence of data collected over the years to build a decision support
system.
Keywords : Machine Learning, Recommender
system, classification, prediction, orientation, decision support...
4 Dédicace 4
Je dédie ce mémoire à ma famille et à
toutes mes connaissances.
4 Remerciements 4
Au terme de ce travail, nous exprimons notre gratitude infinie
à tous ceux qui ont participéde près ou de loin par leurs
encouragements et précieux conseils ou suggestions rendant possible ce
travail, Nous pensons notamment à:
· Pr. Marie Joseph NIDA NTAMAK Doyen de la
Facultédes Sciences pour le travail qu'elle fait pour que cette
institution soit toujours parmi les meilleurs.
· Pr. BOWONG Samuel chef de département de
Maths-Info de l'universitéde Douala pour tout ce qu'il fait pour les
étudiants en général.
· mon encadreur Dr. Auguste NOUMSI pour sa
disponibilitéillimitée, son soutien inconditionnel, sa constante
bienveillance et les mille critiques apportées pour améliorer ce
travail.
· Dr. Joseph MVOGO, Coordinateur du Laboratoire
d'informatique appliquée pour ses encouragements, ses critiques
scientifiques et sa rigueur.
· Je tiens à remercier sincèrement les
membres du jury qui me font l'immense honneur de juger et d'apprécier ce
travail.
· Je tiens à remercier chaleureusement mes
enseignants Dr Auguste NOUMSI, Dr MOSKOLAI, Dr MVOGO, M. DJEMEN pour les
précieux conseils et enseignements prodigués et la patience dont
ils avaient avec nous.
· Je remercie sincèrement Dr KAMENI E. de l'ENS
de Yaoundésans oublier Dr Victor LOUMGAM de l'Universitéde
YaoundéI et Patrick KENFACK du côtéde la Russie. pour leur
disponibilitéà répondre à mes questions et
sollicitations.
· Je remercie mes camarades, en particulier Taga
Martial, DONGMO APOLINAIRE et tous les autres pour leur esprit de
solidarité, de disponibilitéet de convivialitéqui nous ont
unis durant cette année d'études.
v
4 Table des matières 4
Résuméi
Dédicace iii
Remerciements iv
Liste des tableaux ix
Table des figures xi
INTRODUCTION 1
1 L'ORIENTATION SCOLAIRE 5
1.1 Introduction 5
1.2 Historique de l'orientation scolaire 5
1.3 Les niveaux d'orientation scolaire 6
1.4 Processus d'orientation au Cameroun 7
1.4.1 Les différents tests pour l'orientation 8
1.4.1.1 Le test BV11 8
1.4.1.2 Le test KRX 8
1.4.1.3 Le test PRC 9
1.4.1.4 Le test MECA 9
1.4.1.5 Le test D48 10
1.4.2 Le Tracédes Profils Psychologiques 10
1.5 Conclusion 13
2 REVUE DE LA LITTÉRATURE 14
2.1 Introduction 14
TABLE DES MATIÈRES TABLE DES MATIÈRES
2.2 Le Machine Learning (Apprentissage Automatique) 14
2.2.1 Les Types d'apprentissages 16
2.2.1.1 Apprentissage supervisé 16
2.2.1.2 Apprentissage non supervisé 18
2.2.1.3 Apprentissage par renforcement 19
2.3 Les Algorithmes de Machine Learning 19
2.3.1 Algorithmes de Classification 23
2.3.2 Classification Naïve Bayésienne 23
2.3.3 Algorithme des K-PPV (K-Plus Proches Voisins) ou en
anglais KNN
(K-Nearest Neighbors) 24
2.3.3.1 Principe du K-PPV 25
2.3.3.2 Avantages de la méthode des K-PPV 26
2.3.3.3 Inconvénients de la méthode des K-PPV
26
2.3.4 Les Arbres de décision 26
2.3.4.1 Généralités sur les arbres de
décision 26
2.3.4.2 Construction d'un arbre de décision 29
2.3.4.3 Avantages des Arbres de Décision 30
2.3.4.4 Inconvénients des Arbres de Décision
30
2.3.5 Machines à vecteurs support SVM 30
2.3.5.1 Le Principe des SVMs 31
2.3.5.2 Le SVM Linéaire 32
2.3.5.3 Cas linéairement séparable 33
2.3.5.4 Avantages de SVM 34
2.3.5.5 Inconvénients de SVM 35
2.3.6 Les Réseaux de neurones 36
2.3.6.1 Neurone Biologique 36
2.3.6.2 Les Réseaux de Neurones 36
2.3.6.3 Neurone formel (artificiel) 37
2.3.6.4 Fonctions d'activation 38
2.3.6.5 Les réseaux de neurones célèbres
39
2.3.6.6 Le Perceptron 40
2.3.6.7 Le perceptron multicouches 41
2.3.6.8 L'apprentissage 41
Mémoire de Master II en Informatique vi c~NJAMEN M.
ZELKIF 2020-2021
Mémoire de Master II en Informatique vii c~NJAMEN M.
ZELKIF 2020-2021
TABLE DES MATIÈRES TABLE DES MATIÈRES
|
|
2.3.6.9 Avantages des réseaux de neurones
2.3.6.10 Inconvénients des réseaux de neurones
|
42
43
|
|
2.4
|
État de l'art du ML appliquéà
l'éducation
|
44
|
|
|
2.4.1 Les travaux connexes
|
44
|
|
|
2.4.1.1 Dans le monde
|
44
|
|
|
2.4.1.2 Au Cameroun
|
47
|
|
|
2.4.2 L'aide à la décision
|
48
|
|
2.5
|
Conclusion
|
48
|
3
|
DÉMARCHE MÉTHODOLOGIQUE
|
50
|
|
3.1
|
Cahier de charge (Objectif visé)
|
51
|
|
3.2
|
L'acquisition (Collecte) des données
|
51
|
|
3.3
|
Pré-traitement des données
|
53
|
|
|
3.3.1 Nettoyage des données
|
54
|
|
|
3.3.2 Transformation des données
|
56
|
|
|
3.3.3 Intégration des données
|
57
|
|
|
3.3.4 Réduction des données
|
57
|
|
3.4
|
Modélisation de l'entrepôt de données
|
58
|
|
|
3.4.1 Les modèles logiques d'un entrepôt
|
58
|
|
|
3.4.1.1 Le Modèle en Étoile
|
59
|
|
|
3.4.1.2 Le Modèle en Flocon
|
59
|
|
|
3.4.1.3 Le modèle de galaxie (Constellation)
|
60
|
|
|
3.4.2 Modèle type de l'entrepôt des
données
|
62
|
|
|
3.4.3 Structure multidimensionnelle
|
62
|
|
3.5
|
Classification
|
63
|
|
3.6
|
Conclusion
|
64
|
4
|
RÉSULTATS ET DISCUSSIONS
|
65
|
|
4.1
|
Introduction
|
65
|
|
4.2
|
Les différentes techniques d'évaluations des
modèles de Machine Learning .
|
65
|
|
|
4.2.1 Validation Croisée
|
66
|
|
|
4.2.1.1 La méthode holdout
|
67
|
|
|
4.2.1.2 La méthode K-Folds
|
68
|
|
|
4.2.1.3 La méthode LOOCV
|
68
|
|
TABLE DES MATIÈRES TABLE DES MATIÈRES
Mémoire de Master II en Informatique viii c~NJAMEN M.
ZELKIF 2020-2021
4.2.2 La matrice de confusion 69
4.3 Résultat et Discussion 70
4.4 Conclusion 72
CONCLUSION ET PERSPECTIVES 73
Références 78
ix
4 Liste des tableaux 4
1.1
|
Dans cet exemple l'idée est de présenter la
mésentente
|
8
|
2.1
|
Similitude entre un Neurone biologique et un Neurone formel
|
38
|
2.2
|
Machine learning Algorithmus
|
43
|
4.1
|
Exemple d'une Matrice de Confusion
|
69
|
4.2
|
Synthèse des différents Résultats obtenus
|
71
|
|
x
4 Table des figures 4
1.1 Illustration d'un exercice de KRX (Test de raisonnement
numérique) . . . 9 1.2 Illustration d'un exercice de MECA (Test de
raisonnement Mécanique) . . 10
1.3 Exemple 1 : de Profil 11
1.4 Exemple 2 : de Profil 11
1.5 Exemple 3 : de Profil 12
1.6 Exemple 4 : de Profil 12
1.7 Exemple 5 : de Profil 12
2.1 Illustration du Cadre de l'apprentissage par renforcement
20
2.2 Résuméen image des classes d'apprentissage
20
2.3 Exemple de classification avec un KPPV 25
2.4 Exemple de classification avec les Arbres de
Décision 28
2.5 Exemple de classification avec les Arbres de
Décision 29
2.6 Exemple de classification avec SVM 31
2.7 Hyperplan optimal, marge et vecteurs de support 32
2.8 Exemple de classification avec SVM dans le cas non
séparables 35
2.9 Neurone biologique 36
2.10 Modèle d'un neurone formel (artificiel) 37
2.11 Les fonctions d'activation 39
2.12 Un exemple de perceptron 40
2.13 Un perceptron multicouche 42
2.14 Un autre exemple de perceptron multicouche 42
3.1 Schéma de la démarche méthodologique
50
3.2 Représentation des données après
requêtes SQL 52
3.3 Processus d'acquisition et Pré-traitement des
données 54
Mémoire de Master II en Informatique xi c~NJAMEN M.
ZELKIF 2020-2021
TABLE DES FIGURES TABLE DES FIGURES
3.4
|
Processus de prise de décision
|
59
|
3.5
|
Schéma d'un entrepôt de données en
étoile : tiréde Cartelis [1]
|
60
|
3.6
|
Exemple de dimension représentée en flocon
(Kimball, Ross, 2008, p.55) . .
|
60
|
3.7
|
Structure de la Base d'exemple (Data Frame)
chargéà l'aide de Python . .
|
61
|
3.8
|
Modèle type de l'entrepôt des données
|
62
|
3.9
|
Modèle type de l'entrepôt des données
|
63
|
4.1
|
Validation croisée : évaluation des performances
de l'estimateur
|
67
|
4.2
|
Exemple K-Folds pour la Cross Validation
|
67
|
4.3
|
Diagramme des résultats
|
71
|
|
1
4 INTRODUCTION 4
Selon Wikipédia [2], L'orientation scolaire et
professionnelle, universitaire et de carrière consiste à proposer
à une personne en âge de scolaritéet même aux adultes
(obligatoire ou post-obligatoire, voire permanente ou continue) les
différentes filières dans lesquelles elle pourrait
s'insérer en fonction de ses intérêts, de son parcours
scolaire antérieur, et de sa personnalité.
Le conseiller d'orientation est un professionnel de
l'éducation dont le rôle est d'assurer le suivi
psycho-pédagogique des élèves, d'informer les membres de
la communautéédu-cative sur les réalités du monde
scolaire, les possibilités de formation et leur débouchés
professionnels. À cet égard, il aide les élèves
à faire des choix scolaires et professionnels judicieux et
cohérents en tenant compte de leurs aptitudes, de leurs
intérêts, de leurs attitudes et des réalités du
monde du travail. Pour y parvenir, il fait usage d'un ensemble d'ou-tils, dont
la batterie de tests d'aptitudes pour la classe de 3e du MINESEC-CAMEROUN
[3].
Au cours de ces dernières années, nous avons
observéune forte informatisation des établissements des
systèmes éducatifs. Face à cette numérisation des
données des systèmes éducatifs, il nait le besoin
d'automatiser certaines tâches qui, sont d'une importance capitale dans
la concrétisation des objectifs de l'éducation qui ne sont rien
d'autres que la réussite scolaire. Ainsi, cette réussite commence
par une bonne orientation. Cependant, automatiser la tâche d'orientation
revient à résoudre un problème de prédiction ou de
recommandation. D'oùl'importance de donner au système
éducatif la capacitéd'apprendre à recommander à
partir des exemples existants sans être explicitement programmé.
Cette façon de faire est appelée Machine Learning (Apprentissage
Automatique).
même s'il est actuellement dopépar les nouvelles
technologies et de nouveaux usages, le machine Learning n'est pas un domaine
d'étude récent. On en trouve une première
définition dès 1959, due à Arthur Samuel, l'un des
pionniers de l'intelligence artificielle,
TABLE DES FIGURES TABLE DES FIGURES
Mémoire de Master II en Informatique 2 c~NJAMEN M. ZELKIF
2020-2021
qui définit le machine Learning comme « le
champ d'étude visant à donner la capacitéàune
machine d'apprendre sans être explicitement programmée
». En 1997, ~Eric and Michel
[4], de l'universitéde Carnegie Mellon, propose une
définition plus précise : « A computer program is said
to learn from experience E with respect to some class of tasks T and
performance measure P, if its performance at tasks in T, as measured by P,
improves with experience E ».
Les systèmes de recommandation (SR) sont des outils
logiciels basés sur l'apprentissage automatique (Machine Learning) et
les techniques de récupération des informations (Data Mining) qui
fournissent des recommandations pour des éléments potentiellement
utiles dans l'intérêt de quelqu'un selon Nguyen et al. [5]. Ils
sont largement utilisés dans de nombreux domaines, en particulier dans
le commerce électronique. Récemment, ils sont également
appliqués dans des tâches d'apprentissage en ligne telles que
recommander des ressources (par exemple, des articles, des livres) aux
apprenants (étudiants) et même des cours en fonction de leur
performance et préférence comme dans Hanaa et al. [6].
Compte tenu de la raretédes conseillers d'orientation,
malgrél'importance de cette activité, nous proposons dans ce
mémoire une solution automatisée d'aide à la
décision pour l'orientation scolaire.
Les systèmes d'orientation aujourd'hui se basent sur
plusieurs critères pour orienter les élèves en classe
scientifique ou littéraire. Ces critères sont : l'acquisition
scolaire qui est la moyenne des notes obtenues dans les matières par
groupe en classe de 3 ème; sur la batterie de tests d'aptitudes pour la
classe de 3 ème; sur les préférences des parents et de
l'élève et enfin de la disponibilitédes places dans
l'établissement pour les classes sollicitées. Cependant,
d'année en année nous remarquons une baisse du taux de
réussite des élèves aux examens officiels. Cette baisse du
taux de réussite est dûen majoritéà une mauvaise
orientation scolaire. Face à ce problème, beaucoup ont
tentés de proposer des systèmes de recommandation basésur
le profil de l'apprenant et de ses préférences dans un
système de e-learning. Comment appliquer l'apprentissage
automatique dans la recommandation des choix de série dans
l'enseignement?
Fort du constat fait sur l'importance des TIC dans
l'enseignement-apprentissage, et de l'importance d'une bonne orientation dans
le système éducatif, la présente étude tente de
répondre à la question fondamentale suivante :
Comment faire une bonne orientation
(recommandation) en tenant compte du profil de l'apprenant? Pour
mieux appréhender cette question, il a
TABLE DES FIGURES TABLE DES FIGURES
Mémoire de Master II en Informatique 3 c~NJAMEN M. ZELKIF
2020-2021
étéformulédeux questions qui lui sont
spécifiques :
· Quel profil d'apprenant pour quelle orientation?
· Quelle technique mettre en place afin de pouvoir faire
une bonne recommandation et ainsi appuyer la décision du conseiller
d'orientation?
L'objectif principal de notre recherche est de
produire un modèle d'ap-prentissage sur des données
académiques en vue de faciliter l'orientation et l'aide à la
décision. Étant donnéla quasi inexistence
d'une base d'exemple selon le contexte éducatif camerounais, nous
pouvons donc subdiviser cet objectif en plusieurs sous-objectifs qui suivent
:
1. Construction d'une base d'exemple permettant d'effectuer
l'apprentissage automatique;
2. Proposition d'un modèle d'apprentissage à
partir de la base d'exemple construite.
En ce qui concerne la méthode de travail, nous allons
construire un data-set (ensemble de données pour l'apprentissage ou
l'entrepôt de donnée) à partir des données
récoltées dans différents établissements scolaires
du Cameroun, labelliser ces données dans un cadre utiles pour la
recommandation de l'orientation scolaire puis, appliquer les algorithmes de
classifications existants et utilisés dans le Machine Learning
déçu pour la création d'un modèle d'apprentissage.
Ce data-set sera ouvert publiquement afin de permettre le développement
d'algorithme de plus en plus sophistiquépour l'orientation scolaire au
Cameroun.
Comme résultats attendus, à la fin de ce
mémoire, nous proposerons un Framework pour la recommandation et
l'orientation scolaire basésur le profil de l'apprenant.
Notre travail est subdiviséen quatre grands
chapitres.
· Chapitre 1 : L'orientation Scolaire qui
présente le travail du conseiller d'orientation et du processus
d'orientation au Cameroun.
· Chapitre 2 : L'état de l'art qui
présente les travaux qui ont étéfait dans le Machine
Learning appliquéà l'orientation tant à l'international
qu'au niveau national.
· Chapitre 3 : Démarche méthodologique qui
présente la démarche suivit pour arriver à la solution. En
outre, la conception de l'entrepôt des données.
·
TABLE DES FIGURES TABLE DES FIGURES
Mémoire de Master II en Informatique 4 c~NJAMEN M. ZELKIF
2020-2021
Chapitre 4 : Résultat et Discussion qui présente
la performance du modèle choisi obtenue sur le jeu de données et
une discussion sur ce résultat.
· Conclusion et Perspectives qui conclu ce travail de
recherche et ouvre des nouvelles perspectives futures.
5
L'ORIENTATION SCOLAIRE
1.1 Introduction
L'orientation, disent Guichard and Huteau [8]
désigne à la fois les modalités de production et de
reproduction de la division sociale et technique du travail et l'action de
donner une direction déterminée à sa vie... «
Scolairement, c'est conseiller un enfant sur le métier qu'il peut
choisir » selon Chassagne [9]. L'orientation concerne les jeunes, leurs
familles, de nombreux adultes qui doivent dans leur vie professionnelle se
reconvertir. Elle est également au coeur des politiques
d'éducation et d'emploi parce que l'école doit fournir à
l'économie le personnel qualifiédont elle a besoin. Aussi la
question de l'orien-tation occupe-t-elle depuis plus de cinquante ans une place
majeure dans les décisions d'organisation du système
éducatif. D'oùl'importance de l'étudier dans ce
chapitre.
|