Système de reconnaissance hors-ligne des mots manuscrits arabe pour multi-scripteurs

( Télécharger le fichier original )
par Riadh BOUSLIMI
FSJEGJ Jendouba - Mastère Recherche : Données, Connaissances et Systèmes Distribués 2006

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

1.2. Réseaux de Neurones

1.2.1. Mise en ouvre des Réseaux de Neurones

Le principe de fonctionnement de réseau de neurone se base sur un modèle neuronique former d'un grand membre de cellules élémentaires appelée «neurone» son fonctionnement est fondé sur celui d'un automate proposé comme une approximation de fonctionnement de neurones biologique. Il convient pour les données linéairement séparables.

1.2.2. Expérimentation et limites sur l'écriture arabe

V' La capacité de classification de réseau de neurone est très fortement limitée.

V' Reconnaître les caractères isolés ainsi un meilleur résultat sur les chiffres qui n'est pas

le cas pour l'écriture manuscrite arabe qui se compose d'un grand nombre

d'allographes et de graphèmes.

V' La reconnaissance via réseau de neurone dépend fortement de qualité de segmentation se qui reflète un problème au niveau de manuscrite arabe vue la présence d'un nombre important de pseudo mots au niveau d'un mot.

1.3. Caractéristiques morphologiques de l'écriture Arabe

L'écriture arabe est semi-cursive dans sa forme imprimée ainsi que manuscrite. Les caractères d'une même chaîne (ou pseudo-mots) sont ligaturés horizontalement et parfois verticalement (dans certaines fontes deux, trois et même quatre caractères peuvent être ligaturés verticalement), occultant ainsi toute tentative de segmentation en caractères. De plus, la forme d'un caractère diffère selon sa position dans les pseudo-mots et même dans certains cas, selon le contexte phonétique. En outre, plus de la moitié des caractères arabes incluent dans leur forme des points diacritiques³. Ces points peuvent se situer au-dessus ou au-dessous du caractère, mais jamais en haut et en bas simultanément. Plusieurs caractères peuvent avoir le même corps mais un nombre et /ou une position de points diacritiques différents. D'autre part, le caractère arabe présente une forme cursive voyellée nécessitant, pour la majorité des lettres, des matrices de dimensions importantes. Ceci laisse jusqu'à présent les formes informatisées des caractères arabes non encore normalisées.

Le mot arabe n'a pas de longueur fixe, il peut comprendre un ou plusieurs pseudo-mots incluant chacun un nombre souvent différent de caractères. L'étude de la morphologie des pseudo-mots montre que l'écriture arabe présente des variations dans des bandes horizontales plus ou moins complexes en fonction de la calligraphie des caractères contenus dans les

3 Diacritiques: marque ajoutée à une lettre pour lui donner une valeur spéciale ou une prononciation particulière qui sert de critère distinctif de sens ou de prononciation.

pseudo-mots. La bande centrale est généralement la plus chargée au point de vue densité d'informations en pixels. Elle correspond aux lieux des ligatures horizontales, aux caractères centrés (sans extensions), aux boucles.

Par ailleurs, la cursivité de l'écriture arabe montre une complexité de la morphologie des caractères, les élongations des ligatures horizontales ainsi que les combinaisons verticales de certains caractères, constituent les problèmes majeurs liés au traitement de cette écriture surtout pour les pseudo-mots.

Figure 7 : Délimitation du pseudo-mot " äYZ[3Ç"

En effet, ces problèmes engendrent une forte inertie à différents niveaux notamment dans:

( Le choix de primitives pertinentes décrivant la variabilité de la morphologie des caractères, sachant que certaines caractéristiques topologiques sont sensibles à la dégradation, notamment les points diacritiques et les boucles.

V La méthode de segmentation en caractères ou même en pseudo-mots (qui peuvent se chevaucher surtout dans le cas du manuscrit).

Tous ces problèmes et bien d'autres, se trouvent accentués dans le cas du manuscrit où d'autres facteurs interviennent (variabilité intra et inter-scripteurs, conditions de l'écriture, fusion de points diacritiques, chevauchement de pseudo-mots, graphismes inégalement proportionnés...).

Face à ces problèmes, la nécessité d'une modélisation robuste s'impose, les méthodes classiques de type statistique, structurel, neuronal, markoviens etc. étant peu efficaces pour prendre en considération toutes les variations morphologiques de l'arabe par suite il est nécessaire d'effectué un traitement par portion.

Par suite nous allons utiliser une méthode de reconnaissance d'écriture manuscrite basée sur une approche analytique permettant de résoudre le problème de segmentation de mots «traitement par portion ».

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Je voudrais vivre pour étudier, non pas étudier pour vivre" Francis Bacon