WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Impact de la structure de treillis dans le domaine de fouille de données et la représentation des connaissances.

( Télécharger le fichier original )
par Pascal Sungu Ngoy
Université de Lubumbashi - Diplôme de licence en sciences mathématiques et informatique 2014
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

5.2.2 Traitement automatique de la langue

Les Traitements Automatique des Langues(TAL) est une discipline qui associe étroitement linguistes et informaticiens. Il repose sur la linguistique, les forma-lismes(représentation de l'information et des connaissances dans des formats interprétables par la machine) et l'informatique. Le TAL a pour objectif de développer des logiciels ou des programmes informatiques capables de traiter de façon automatique des données linguistiques. [48]

61

Ainsi le traitement automatique de la langue peut se définir comme étant l'en-semble des méthodes et des programmes qui permettent un traitement par ordinateur du materiau linguistique : analyse de textes, génération de textes, traduction automatique, correction orthographique et grammaticale,...

Nous présentons ici les grands domaines du TAL, en s'appuyant sur un découpage méthodologique classique dans le domaine de la linguistique tel que présenté dans. Les différents domaines qui seront présentés ici sont [49] :

La morphologie

D'un point de vue informatique, un texte est une chaîne de caractère. La première étape de l'analyse d'un texte est la reconnaissance, dans cette chaîne de caractères, d'unités linguistique de base, les mots, ainsi que des informations associées puisées dans un lexique.

Pour commencer, la chaîne de caractères d'entrée doit utiliser un encodage dé-terminer(pour le français, l'encodage ISO-latin-1), les caractères de contrôle(fin de ligne,...) étant eux aussi normalisés. On élimine généralement les caractères non répectoriés.

Ensuite il s'agira de segmenter la chaîne d'entrée en unité élémentaires. Différents choix peuvent être effectués à ce stade, selon les séparateurs choisis : tous les caractères non alphabétiques(espaces, apostrophes, tirets...) ou les espaces seulement; et selon que l'on prend en considération les « mots composés »« pomme de terre » en le considérant comme « une » unité.

La lexique quant à lui est définie comme étant une liste des mots de la langue, et associé à chaque mot les informations linguistiques corréspondantes : catégorie syntaxique, traits morphosyntaxiques(genre, nombre, etc), etc. Il faut cependant bien préciser la définition du lexique compte tenue de plusieurs phénomènes qui surgissent.

- Un mot peut avoir plusieurs sens( polysème ) : « avocat », « coup », « livre »en sont des exemples.

- Plusieurs mots peuvent se trouver partager une forme commune( homographes ) : « montre »est une forme du nom « montre »aussi bien que du verbe « montrer ». « pu »est un autre exemple d'homographes qui est en même temps le participe passé du verbe « pouvoir »mais aussi de « paître ».

- Un mot peu être construit à partir d'un autre : par dérivation (« penser » -+ « pensable » -+ « impensable ») ou par composition (« compter » + « gouttes » -+ « compte-gouttes »; « un » + « jambe » -+ « unijambiste »; « sclérose » + « artère » -+ « artériosclérose » )

Syntaxe

Pour repérer quels mots fonctionnent ensemble dans une phrase, un premier niveau de modélisation consiste à constituer des classes de mots(catégories syntaxiques, parties du discours) possédant un fonctionnement similaire : Nom(N), Verbe(V), Adjectif(A), etc

Les relations syntaxiques entre les mots d'une phrase peuvent se représenter de plusieurs façons. Le modèle en constituants considère des groupes de mots, ou syntagmes, généralement centrés sur un mot de tête(Nom, Verbe, Pronom etc), et les modélises par des catégories spécifiques(Syntagme nominal ou SN, Syntagme

62

FIGURE 5.4 - Représentation syntaxiques d'une phrase

verbal ou SV, Syntagme adjectival ou SA, etc). Ces syntagmes peuvent eux-même être éléments d'autres syntagmes, et la structure d'une phrase est alors un arbre de constituants(figure 5.4(a)). Le modèle en dépendance considère directement les mots de tête(recteurs ou régissants), et leur attache les mots qui en dépendent. La structure d'une phrase est alors un arbre de dépendance(figure 5.4(b)). Une phrase peut donner lieu à plusieurs structures syntaxiques(ambiguïté structurelle). En voici un exemple: « je vois un homme avec un téléscope », dans laquel « avec un téléscope » peut designer la manière dont je vois l'homme (attachement au verbe « vois » qui est un complément circonstanciel de manière) ou au contraire une caractéristique de l'homme (attachement au nom « homme », complément du nom.)

Sémantique

La sémantique, à la manière de la syntaxe, comprend un premier niveau de modélisation qui consiste à former des classes des mots(catégories sémantiques). Ces classes regroupent des mots dont le sens est proche, ou au minimum des mots qui possèdent certaines propriétés sémantiques proches.

Un mot, même syntaxiquement non ambigu, peut posséder plusieurs sens. Par exemple, on pourra distinguer l'« artère » qui veut dire vaisseau sanguin de l'« artère » avenue, même si le second est étymologiquement un sens figuré du premier. Le contexte permet en général de déterminer quel sens est à l'oeuvre dans un énoncé.

Les mots d'une langue entretiennent un réseau riche de relations sémantiques : hyperonymie/hyponymie(« vaisseau »/« artère »), métonymie(partie d'un tout: « vaisseau »/« système cardiovasculaire »), antonymie(« benin »/« malin »),etc

Pragmatique

L'interprétation d'un énoncé depend de son contexte. Dès que l'on veut traiter plusieurs phrases (et même pour une seule phrase), cette dimension intervient.

Le co-texte désigne le texte qui précède(et suit) la phrase courante. Deux facteurs concourent à faire qu'une phrase s'insère bien dans un texte.

- La cohésion régit la continuité du texte. Elle est assuré par l'emploi d'ana-phore(figure de rhétorique qui consiste à répéter le même mot au commencement de plusieurs phrases), l'homogéneité du thème, un emploi judicieux d'el-lipses(figure par laquelle on retranche un ou plusieurs mot dans une phrase), etc

63

- La cohérence détermine l'intelligibilité du texte. Elle s'appuie sur des structures de discours(direct ou indirect).[49]

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle