4.3 Récolte de données
Nous avions récolté nos données sur
kaggle(Automated Resume Job Categorization ) le dataset est
nomé `' clean_resume_data.csv `'
df.shape : (2484, 2)
Description du Dataset - Automated Resume Job
Categorization
Ce jeu de données est utilisé dans le cadre de
projets de classification automatique des curriculum vitae selon les
catégories d'emploi correspondantes. Il est fréquemment
mobilisé dans les systèmes de recommandation d'offres d'emploi ou
de mise en correspondance entre profils candidats et descriptions de postes.
Tableau 5 Contenu du dataset
Attribut Description
Resume
|
|
Contient le texte brut du CV, généralement sous
forme de paragraphe ou d'ensemble de phrases non structurées.
|
Category
|
Étiquette associée à chaque CV,
représentant le domaine professionnel (ex. : "Data Science", "HR",
"Advocate", "Design", etc.).
|
|
Statistiques générales
Voici un aperçu typique basé sur ce jeu de
données
· Nombre total de CVs : 2484
· Nombre de catégories transformer en offre
d'emplois : environ 24
· Format : CSV
· Colonnes : Resume, Category
· Taille moyenne d'un CV : entre 200 et 500 mots
· Langue du contenu : anglaise
75
Objectif du projet avec ce dataset
Former un modèle capable de prédire la
catégorie de job la plus pertinente à partir du contenu
textuel d'un CV non structuré.
Ce dataset nous l'avions modifié en le traduisant en
français et en changeant la catégory en offre via le
modèle Helsinki-NLP/opus-mt-en-fr.
4.4 Conception et Entraînement du Modèle de
Classification pour l'Analyse CV-Offres
Dans ce bloc nous allons décrire en détail la
conception, l'architecture, l'entraînement et l'évaluation d'un
système de classification automatique permettant d'évaluer la
pertinence entre des CV et des offres d'emploi. Le modèle combine des
techniques avancées de traitement du langage naturel (NLP)
1 Architecture Globale du Système
Le système complet se compose des étapes suivantes
:
1. Prétraitement des données textuelles
(nettoyage, normalisation).
2. Encodage sémantique avec un
modèle SBERT (Sentence-BERT).
3. Calcul de similarité entre les
embeddings CV et offres.
4. Classification avec plusieurs algorithmes
(Random Forest, SVM, Réseau de Neurones).
5. Évaluation et optimisation des
performances.
o Prétraitement des Données
Ø Netoyage robuste
Un prétraitement minimaliste est choisi pour
préserver au maximum la richesse sémantique originale, les
modèles modernes comme SBERT étant robustes aux variations de
formatage.
2. Encodage Sémantique avec SBERT
Modèle utilisé :
paraphrase-multilingual-MiniLM-L12-v2 Caractéristiques
techniques :
· Modèle Transformer
pré-entraîné sur plusieurs langues
· Taille des embeddings : 384 dimensions
· Capacité à capturer la sémantique
des phrases complètes
· Optimisé pour les tâches de
similarité textuelle Optimisations :
· Traitement par lots pour gérer la
mémoire
· Barre de progression avec tqdm
· Concatenation efficace des résultats
76
3. Calcul de Similarité
Métrique utilisée :
Similarité cosinus
|