2.5.1 Extraction et prétraitement
Les CV sont extraits via un module OCR ou extraction PDF directe.
Le texte est ensuite nettoyé :
· Suppression des caractères spéciaux
· Mise en minuscule
· Suppression des stopwords (ex. "le", "et", "de")
· Lemmatisation pour réduire les mots à leur
racine
18
2.5.2 Reconnaissance d'entités (NER)
Le modèle spaCy est utilisé dans
un premier temps pour détecter :
· Les noms et prénoms
· Les diplômes (ex. Licence, Master)
· Les compétences techniques ("Python", "SQL")
· Les dates d'expérience professionnelle
Un modèle BERT pré-entraîné (par ex.
CamemBERT pour le français) vient enrichir cette extraction avec une
meilleure compréhension contextuelle.
2.5.3 Vectorisation et représentation
Chaque CV et chaque offre sont convertis en vecteurs
sémantiques à l'aide d'un encodeur BERT. 2.5.4
Calcul de similarité (cosine similarity)
Contexte : Après extraction des textes du CV et de
l'offre, le système utilise un modèle BERT (ou autre encodeur
NLP) pour transformer ces textes en vecteurs numériques (embedding).
Chaque document devient un vecteur dans un espace sémantique.
But : Mesurer à quel point le CV et l'offre d'emploi sont
proches dans cet espace vectoriel. On utilise pour cela la similarité
cosinus (cosine similarity).
(AxB)
Formule mathématique :
sim(A, B) = (||A||x||B||
Avec :
· A et B : vecteurs denses du CV et de l'offre.
· A · B : produit scalaire des deux vecteurs.
· ?A? et ?B? : norme (longueur) des vecteurs A et B.
Interprétation du score :
· Score = 1 ? les deux vecteurs sont identiques
(même orientation) ? documents très similaires.
· Score = 0 ? les vecteurs sont orthogonaux ? aucune
similarité.
· Score < 0 (rare dans ce contexte) ? vecteurs
opposés ? contradiction ou divergence sémantique.
Mathématiquement par là tous s'expliquent et
facile à démontrer une fois le texte converti en vecteur .
Supposons que l'encodage donne ces vecteurs :
· CV ? A = [0.5, 0.1, 0.4]
· Offre ? B = [0.6, 0.0, 0.3] sim(A, B) donnera = 0.965
19
2.5.5 Classement intelligent
Les candidats sont classés selon leur score, et ce
classement est affiché dans le dashboard RH Entreprise.
2.6 Exigences fonctionnelles et non fonctionnelles
Fonctionnelles
· Upload de CV PDF
· Extraction automatique des données pertinentes
· Matching avec des offres d'emploi
· Dashboard RH (score, export, tri) Non
fonctionnelles
· Réactivité de l'interface
· Sécurité des données
(authentification, cryptage)
· Compatibilité mobile et navigateurs
· Performances (temps de traitement < 2 secondes)
2.7 Limites méthodologiques
Certaine limite à signaler :
· Difficultés de traitement de certains formats PDF
complexes 2.8 Conclusion
La méthodologie déployée combine des outils
modernes, une approche agile et des techniques de NLP puissantes afin de
répondre aux besoins du e-recrutement intelligent. Le prochain chapitre
abordera en détail la conception technique du système et ses
différents composants fonctionnels.
20
|