WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Agrégats de mots sémantiquement cohérents issus d'un grand graphe de terrain


par Christian Belbèze
Université Toulouse 1 Capitole - Doctorat en informatique 2012
  

précédent sommaire suivant

4.2.2 Les réseaux eDonkey

Les réseaux eDonkey sont des réseaux de partage de fichiers entre pairs. Conçus au départ pour permettre l'accès et le partage d'informations par tous et pour tous, ils sont souvent détournés. Ils sont utilisés pour le partage de fichiers soumis à des droits d'auteurs ou même de fichiers aux contenus illicites.

Le client le plus célèbre de ces réseaux est à cette date eMule. Dans ces réseaux « point à point », il n'est pas possible de connaître le contenu des échanges sans des accès et des équipements spécifiques. C'est en usurpant le rôle de serveur (serveurs effectuant les opérations d'inventaire et de recherche) ou de client que ces réseaux sont construits. Les deux réseaux de mots sélectionnés pour cette étude sont issus des fichiers eDonkey.

4.2 : Présentation des réseaux testés 126

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

Le réseau « eDonkey-10-semaines »

La technique employée pour récupérer les requêtes utilisateurs ou les noms de fichiers échangés consiste en un rajout de serveurs « espions » dans le réseau. Les serveurs ont pour but, dans ces réseaux « point à point », de maintenir les listes des fichiers et leurs localisations, les fichiers restant physiquement sur les clients. Ainsi les serveurs espions peuvent répondre aux requêtes des utilisateurs en enregistrant celles-ci ainsi que les noms des fichiers échangés. La récupération de ce réseau est définie en détail dans l'article: « 10 weeks in the life of a eDonkey server » [Aidouni&al-2009].

Ce réseau est étudié dans le cadre de la lutte contre la pédophilie sur Internet. Plusieurs travaux incluant ce fichier ou d'autres du même type sont décrits sur le site : http://antipaedo.lip6.fr.

Le réseau est constitué par plus de 170 millions de requêtes faites par des utilisateurs recherchant des fichiers. Après avoir considéré uniquement les seules requêtes contenant plus d'un mot, il reste exactement 73 400 062 requêtes. Le réseau comporte 2 833 164 de noeuds et 68 millions de liaisons. Nous n'appliquerons aucun filtre sur ce réseau.

Son périmètre :

Nous recherchons dans ce réseau les agrégats intégrant 18 mots particuliers (cf. tableau 4.4). Ces 18 mots cibles sont les « mots repères » fournis par Matthieu Latapy pour évaluer la méthode. Certains de ces mots sont des mots « bien connus » utilisés par les pédophiles. D'autres restent des mots « anonymes » que nous ne manipulons que par leur identifiant numérique. Nous ne connaissons ni leur signification ni leur orthographe.

Mots-clés

Texte

Poids

 

Mots-clés

Texte

Poids

 

Mots-clés

Texte

Poids

503664

Null

8

 

43970

1yo

433

 

28846

ptsc

3189

397675

Null

36

 

43170

2yo

536

 

26029

ygold

9183

314597

Null

65

 

38080

raygold

826

 

12603

incest

13619

39471

Null

114

 

166143

3yo

832

 

21847

pthc

45737

262249

Null

123

 

133912

4yo

1042

 
 
 
 

62365

qqaazz

257

 

71725

inceste

1220

 
 
 
 

112145

kidzilla

298

 

57572

incesti

1277

 
 
 
 

Tableau 4.4 : Liste des mots fournis pour rechercher des agrégats les incluant.

Le réseau eDonkey-5-mois

Ce réseau est constitué de mots issus de noms de fichiers présents dans le réseau eDonkey. Un client eDonkey modifié a pendant 150 jours (environ 5 mois) interrogé des serveurs eDonkey en proposant comme requêtes des listes de mots « bien connus » comme étant utilisés par des pédophiles. Ce client a aussi demandé des fichiers à partir de mots plus génériques.

Les mots constituant les noms de fichiers représentent alors une composante connexe à intégrer au réseau. Dans ce réseau le lien entre les mots n'est donc pas : « utilisé conjointement dans une même requête », comme dans les autres réseaux étudiés, mais :

4.2 : Présentation des réseaux testés 127

Chapitre 4. Expérimentations, validations sémantiques et résultats de mesure

« présents ou dans un même nom de fichier ». Cette caractéristique ne change rien à la nature du réseau. C'est un réseau de mots dont les liens sont des utilisations conjointes. La pondération du mot est alors égale au nombre de fichiers dans lequel le mot apparaît. La pondération des liens est calculée à partir du nombre de fichiers où les mots sont utilisés ensemble.

Le réseau contient 2,8 millions de noeuds distincts et 33 Millions de liens. Il est défini plus en détail dans le document « Automatic Identification of Paedophile Keywords », disponible sur le site http://antipaedo.lip6.fr/T24/TR/keyword-detection.pdf [Belbeze&al-2009-21.

Son périmètre :

L'enjeu du « challenge » [Belbeze&al-2009-21 est de trouver les 100 mots qui sont les plus pertinents comme mots utilisés en conjonction de deux listes de mots. Ces listes sont les suivantes : [child, sex, child, porn, 1yo, 2yo, 3yo ; 4yo, 5yo, 6yo, 7yo ; 8yo,9yo,10yo,11yo, 12yo] et [qqaazz, aabbccddee, babyshivid, hussyfan, pthc, ptsc, r@ygold, kingpass].

précédent sommaire suivant