WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

Conclusion

Cette étude sur les valeurs d'amélioration des requêtes ne doit pas nous détourner de notre objectif qui est de savoir si le système d'agrégation par Rigidification Régulée permet de créer des ensembles porteurs d'une thématique.

4.4 : Résultats des regroupements et validation sémantique 179

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

La réponse donnée par cette évaluation est bien sûr positive. L'utilisation des agrégats seuls ou conjointement avec les Topics a maintenu la précision de la requête identique dans 62% des cas.

Avec une amélioration dans plus de 55% des cas, les agrégats prouvent à la fois leur cohérence sémantique et le fait qu'ils sont même capables de servir de système d'amélioration des requêtes.

4.4.7 Méthode d'enrichissement des agrégats AGGR sur réseau « eDonkey-5 mois » et validation manuelle (challenge)

Matériel et conditions de test

Nous utilisons ici un réseau de très grande taille. Les agrégats sont fournis par un expert sous la forme de deux listes de mots. Il ne s'agit plus de construire des agrégats mais de chercher à les enrichir. La méthode ne possède pas de paramètre. Elle permet de simplement retourner une liste de mots ordonnée selon un coefficient d'attraction envers l'agrégat.

Résultats sur réseau eDonkey-5-mois - Validation manuelle

La validation est ici une validation manuelle comparée. Dans le cadre d'un « challenge » [Belbeze&al-2009-2], des experts comparent plusieurs méthodes qui ont pour objectif de retourner deux listes de cent mots chacune.

En plus du réseau, l'organisateur du challenge propose deux listes de mots. Ceux-ci sont des mots « bien connus » comme étant utilisés par des pédophiles. Les experts sont des professionnels de la recherche de pédophiles sur Internet. Ils ont la charge de comparer la capacité des méthodes à retourner des mots en employant un classement en quatre types :

? type 1 : le mot est spécifiquement un mot pédophile connu. Il n'a pas d'autre

utilisation. C'est généralement un code, par exemple : « pthc » ;

? type 2 : le mot est utilisé par les pédophiles, mais il peut être utilisé dans d'autres contextes, par exemple : « child » ;

? type 3 : le mot est inconnu des experts, mais il n'a pas d'autre sens connu, c'est soit un nouveau mot de « type 1 », soit une erreur ;

? type 4 : le mot n'a pas de caractéristique pédophile propre, par exemple : « jpg ».

Une comparaison détaillée des méthodes présentées est disponible dans l'article http://antipaedo.lip6.fr/T24/TR/keyword-detection.pdf et nous encourageons le lecteur désirant plus de détails à le consulter. La conclusion de ce comparatif nous informe de plusieurs points :

4.5 : Conclusion 180

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

· il apparait que les méthodes fondées sur les cooccurrences entre les mots sont les plus efficaces ;

· les méthodes recherchant les mots directement reliés aux mots du registre pédophile fonctionnent de manière plus efficace que les méthodes plus complexes.

précédent sommaire suivant