Conception d'un systeme intelligent d'analyse de cv base sur le traitement du langage naturel (NLP) pour une evaluation optimisee des candidatures: application au departement des ressources humaines

( Télécharger le fichier original )
par JOSPIN NKISSA KUDOLYE
UPL Université Protestante de Lubumbashi - Licence 2025

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.3 Récolte de données

Nous avions récolté nos données sur kaggle(Automated Resume Job Categorization ) le dataset est nomé `' clean_resume_data.csv `'

df.shape : (2484, 2)

Description du Dataset - Automated Resume Job Categorization

Ce jeu de données est utilisé dans le cadre de projets de classification automatique des curriculum vitae selon les catégories d'emploi correspondantes. Il est fréquemment mobilisé dans les systèmes de recommandation d'offres d'emploi ou de mise en correspondance entre profils candidats et descriptions de postes.

Tableau 5 Contenu du dataset

Attribut Description

Resume			Contient le texte brut du CV, généralement sous forme de paragraphe ou d'ensemble de phrases non structurées.	Category
Étiquette associée à chaque CV, représentant le domaine professionnel (ex. : "Data Science", "HR", "Advocate", "Design", etc.).

Statistiques générales

Voici un aperçu typique basé sur ce jeu de données

· Nombre total de CVs : 2484

· Nombre de catégories transformer en offre d'emplois : environ 24

· Format : CSV

· Colonnes : Resume, Category

· Taille moyenne d'un CV : entre 200 et 500 mots

· Langue du contenu : anglaise

Objectif du projet avec ce dataset

Former un modèle capable de prédire la catégorie de job la plus pertinente à partir du contenu textuel d'un CV non structuré.

Ce dataset nous l'avions modifié en le traduisant en français et en changeant la catégory en offre via le modèle Helsinki-NLP/opus-mt-en-fr.

4.4 Conception et Entraînement du Modèle de Classification pour l'Analyse CV-Offres

Dans ce bloc nous allons décrire en détail la conception, l'architecture, l'entraînement et l'évaluation d'un système de classification automatique permettant d'évaluer la pertinence entre des CV et des offres d'emploi. Le modèle combine des techniques avancées de traitement du langage naturel (NLP)

1 Architecture Globale du Système

Le système complet se compose des étapes suivantes :

1. Prétraitement des données textuelles (nettoyage, normalisation).

2. Encodage sémantique avec un modèle SBERT (Sentence-BERT).

3. Calcul de similarité entre les embeddings CV et offres.

4. Classification avec plusieurs algorithmes (Random Forest, SVM, Réseau de Neurones).

5. Évaluation et optimisation des performances.

o Prétraitement des Données

Ø Netoyage robuste

Un prétraitement minimaliste est choisi pour préserver au maximum la richesse sémantique
originale, les modèles modernes comme SBERT étant robustes aux variations de formatage.

2. Encodage Sémantique avec SBERT

Modèle utilisé : paraphrase-multilingual-MiniLM-L12-v2 Caractéristiques techniques :

· Modèle Transformer pré-entraîné sur plusieurs langues

· Taille des embeddings : 384 dimensions

· Capacité à capturer la sémantique des phrases complètes

· Optimisé pour les tâches de similarité textuelle Optimisations :

· Traitement par lots pour gérer la mémoire

· Barre de progression avec tqdm

· Concatenation efficace des résultats

3. Calcul de Similarité

Métrique utilisée : Similarité cosinus

précédent sommaire suivant