WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Impact de la structure de treillis dans le domaine de fouille de données et la représentation des connaissances.

( Télécharger le fichier original )
par Pascal Sungu Ngoy
Université de Lubumbashi - Diplôme de licence en sciences mathématiques et informatique 2014
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

5.2 Extraction d'informations

L'extraction d'information est une technique qui consiste à extraire des connaissances à partir de différents documents en utilisant entre autres des techniques lin-guistiques.[52]

La Recherche d'Informations(RI) et le Traitement Automatique de la Langue(TAL) sont deux techniques incontournables dès lors qu'il s'agit d'extraire des elements de sens à partir des textes. Une question reste alors pendante : pourquoi seulement les textes?

En effet, la province du Katanga est une province qui dispose d'un potentiel important de ressources minières. les gîtes des substances minières sont localisés dans presque tout le Katanga. Jusqu'à ce jour, certains gisements demeurent encore

59

FIGURE 5.3 - Schéma général de la recherche d'information

inéxploités. Le Katanga et par delà la RDC est devenu un immense chantier. Alors pourquoi ne pas appliquer nos méthodes dans le domaine minière afin de rendre notre étude plus intéressantes?

L'exploration minière est l'un des domaines où la géophysique est très souvent appliquée comme outil de détection directe. Une bonne connaissance dans ce domaine ainsi que les différentes phases d'un projet minier(Prospection, construction de routes d'accès, préparation et déblaiement du site,...) est requise afin d'y appliquer par la suite nos connaissances mathématiques. Le temps nous faisant défaut, cela fera l'objet de nos travaux ultérieurs.[47]

En effet, les données textuelles contiennent des informations et des connaissances utiles et parfois critiques pour la gestion et la prise de décision dans les entreprises. Une bonne étude des techniques de fouilles de ces données se revèle donc primordiale afin de fournir un outil important au décideur.

Ainsi, nous vous présenterons dans la suite de ce paragraphe les fondements de la recherche d'information(section 5.2.1) et le traitement automatique de la langue(section 5.2.2) qui constituent les deux ailes dont requièrent les données textuelles pour nous emmener vers l'extraction d'informations qu'elles renferment.[11]

5.2.1 Recherche d'informations

La recherche d'information (RI) se définit par un ensemble de méthodes et d'ou-tils qui permettent à un utilisateur de formuler une requête et qui selectionnent dans un fond documentaire les documents répondant à ces critères. Les documents sont au préalable indéxés : chaque mot de chaque document est répertorié dans une table inverse, avec ou sans consérvation des positions des mots dans le texte d'ori-gine. L'appariement entre la requête et l'index va déterminer les documents qui sont considérés comme repondant le mieux au besoin informationnel initial.[11]

Une extension de ce schéma permet d'effectuer de la recherche d'information interlangue : le sujet de recherche est formulé dans une langue (par exemple français) différente de celle des documents (par exemple anglais). Dans ce cas le système de RI inclut une étape de traduction du sujet en une requête dans la langue cible. Les documents trouvés peuvent en retour être également traduits dans la langue source.

La recherche d'information passe par plusieurs étapes dont voici les principales [11] :

60

Simplification de documents

La simplification de documents consiste à rendre plus pertinent et plus efficace le processus d'appariement entre requête et index. Elle s'effectue selon les étapes suivantes :

- Suppressions des « mots stop » ou des mots fréquents;

- Racination : Elle consiste à reduire les mots de la même famille morphologique à une racine commune;

- Transformation du texte en un sac ou ensemble de mots.

Indexations

L'indexation peut se faire sur des mots simples ou sur des syntagmes. Dans ce dernier cas, des groupes de mots constituent des index du document. Ces syntagmes peuvent être obtenus par des techniques symboliques (par étiquetage,...), ou encore des techniques statistiques (en étudiant les mots cooccurents dans des documents).

Traitement et appariement des requêtes

Le traitement et l'appariement des requêtes se base sur deux principes :

- En raison de leurs tailles : Les requêtes sont analysées par procedures plus lentes et plus complexes;

- En raison de leurs syntaxes : Elles sont analysées par des procedures symboliques aux contraintes syntaxiques lâches.

Une fois traitées, les requêtes sont appariées avec l'index des documents. Il s'en suit alors trois types d'approches :

1. Le modèle booléen : Ce modèle suit une approche du type base de données : les documents sont recherchés sur la base d'une formule logique sur les descripteurs, et les réponses sont de la forme Oui/Non. C'est le modèle classique en recherche bibliographique où l'on interroge sur le contenu des champs :Auteur, Titre, etc;

2. Le modèle vectoriel : Ce modèle se base sur le principe suivant; plus un document partage des descripteur avec la requête, meilleur il est. Les reponses sont qualifiées par un pourcentage exprimant leur pertinence;

3. Le modèle probabiliste : Il complète le modèle vectoriel en calculant la pertinence de chaque index pour un document en fonction des documents répondant à des requêtes sur une base documentaire comparable. Un pourcentage qualifie la pertinence des réponses.[11]

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Nous voulons explorer la bonté contrée énorme où tout se tait"   Appolinaire