Conception d'un systeme intelligent d'analyse de cv base sur le traitement du langage naturel (NLP) pour une evaluation optimisee des candidatures: application au departement des ressources humaines

( Télécharger le fichier original )
par JOSPIN NKISSA KUDOLYE
UPL Université Protestante de Lubumbashi - Licence 2025

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

2.5.1 Extraction et prétraitement

Les CV sont extraits via un module OCR ou extraction PDF directe. Le texte est ensuite nettoyé :

· Suppression des caractères spéciaux

· Mise en minuscule

· Suppression des stopwords (ex. "le", "et", "de")

· Lemmatisation pour réduire les mots à leur racine

18

2.5.2 Reconnaissance d'entités (NER)

Le modèle spaCy est utilisé dans un premier temps pour détecter :

· Les noms et prénoms

· Les diplômes (ex. Licence, Master)

· Les compétences techniques ("Python", "SQL")

· Les dates d'expérience professionnelle

Un modèle BERT pré-entraîné (par ex. CamemBERT pour le français) vient enrichir cette extraction avec une meilleure compréhension contextuelle.

2.5.3 Vectorisation et représentation

Chaque CV et chaque offre sont convertis en vecteurs sémantiques à l'aide d'un encodeur BERT. 2.5.4 Calcul de similarité (cosine similarity)

Contexte : Après extraction des textes du CV et de l'offre, le système utilise un modèle BERT (ou autre encodeur NLP) pour transformer ces textes en vecteurs numériques (embedding). Chaque document devient un vecteur dans un espace sémantique.

But : Mesurer à quel point le CV et l'offre d'emploi sont proches dans cet espace vectoriel. On utilise pour cela la similarité cosinus (cosine similarity).

(AxB)

Formule mathématique :

sim(A, B) = (||A||x||B||

Avec :

· A et B : vecteurs denses du CV et de l'offre.

· A · B : produit scalaire des deux vecteurs.

· ?A? et ?B? : norme (longueur) des vecteurs A et B. Interprétation du score :

· Score = 1 ? les deux vecteurs sont identiques (même orientation) ? documents très similaires.

· Score = 0 ? les vecteurs sont orthogonaux ? aucune similarité.

· Score < 0 (rare dans ce contexte) ? vecteurs opposés ? contradiction ou divergence sémantique.

Mathématiquement par là tous s'expliquent et facile à démontrer une fois le texte converti en vecteur . Supposons que l'encodage donne ces vecteurs :

· CV ? A = [0.5, 0.1, 0.4]

· Offre ? B = [0.6, 0.0, 0.3] sim(A, B) donnera = 0.965

19

2.5.5 Classement intelligent

Les candidats sont classés selon leur score, et ce classement est affiché dans le dashboard RH Entreprise.

2.6 Exigences fonctionnelles et non fonctionnelles

Fonctionnelles

· Upload de CV PDF

· Extraction automatique des données pertinentes

· Matching avec des offres d'emploi

· Dashboard RH (score, export, tri) Non fonctionnelles

· Réactivité de l'interface

· Sécurité des données (authentification, cryptage)

· Compatibilité mobile et navigateurs

· Performances (temps de traitement < 2 secondes) 2.7 Limites méthodologiques

Certaine limite à signaler :

· Difficultés de traitement de certains formats PDF complexes 2.8 Conclusion

La méthodologie déployée combine des outils modernes, une approche agile et des techniques de NLP puissantes afin de répondre aux besoins du e-recrutement intelligent. Le prochain chapitre abordera en détail la conception technique du système et ses différents composants fonctionnels.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Je ne pense pas qu'un écrivain puisse avoir de profondes assises s'il n'a pas ressenti avec amertume les injustices de la société ou il vit" Thomas Lanier dit Tennessie Williams