1.2. Réseaux de Neurones
1.2.1. Mise en ouvre des Réseaux de Neurones
Le principe de fonctionnement de réseau de neurone se
base sur un modèle neuronique former d'un grand membre de cellules
élémentaires appelée «neurone» son
fonctionnement est fondé sur celui d'un automate proposé comme
une approximation de fonctionnement de neurones biologique. Il convient pour
les données linéairement séparables.
1.2.2. Expérimentation et limites sur
l'écriture arabe
V' La capacité de classification de réseau de
neurone est très fortement limitée.
V' Reconnaître les caractères isolés ainsi un
meilleur résultat sur les chiffres qui n'est pas
le cas pour l'écriture manuscrite arabe qui se compose
d'un grand nombre
d'allographes et de graphèmes.
V' La reconnaissance via réseau de neurone
dépend fortement de qualité de segmentation se qui reflète
un problème au niveau de manuscrite arabe vue la présence d'un
nombre important de pseudo mots au niveau d'un mot.
1.3. Caractéristiques morphologiques de
l'écriture Arabe
L'écriture arabe est semi-cursive dans sa forme
imprimée ainsi que manuscrite. Les caractères d'une même
chaîne (ou pseudo-mots) sont ligaturés horizontalement et parfois
verticalement (dans certaines fontes deux, trois et même quatre
caractères peuvent être ligaturés verticalement), occultant
ainsi toute tentative de segmentation en caractères. De plus, la forme
d'un caractère diffère selon sa position dans les pseudo-mots et
même dans certains cas, selon le contexte phonétique. En outre,
plus de la moitié des caractères arabes incluent dans leur forme
des points diacritiques3. Ces points peuvent se situer au-dessus ou
au-dessous du caractère, mais jamais en haut et en bas
simultanément. Plusieurs caractères peuvent avoir le même
corps mais un nombre et /ou une position de points diacritiques
différents. D'autre part, le caractère arabe présente une
forme cursive voyellée nécessitant, pour la majorité des
lettres, des matrices de dimensions importantes. Ceci laisse jusqu'à
présent les formes informatisées des caractères arabes non
encore normalisées.
Le mot arabe n'a pas de longueur fixe, il peut comprendre un
ou plusieurs pseudo-mots incluant chacun un nombre souvent différent de
caractères. L'étude de la morphologie des pseudo-mots montre que
l'écriture arabe présente des variations dans des bandes
horizontales plus ou moins complexes en fonction de la calligraphie des
caractères contenus dans les
3 Diacritiques: marque ajoutée à une lettre pour
lui donner une valeur spéciale ou une prononciation particulière
qui sert de critère distinctif de sens ou de prononciation.
pseudo-mots. La bande centrale est généralement
la plus chargée au point de vue densité d'informations en pixels.
Elle correspond aux lieux des ligatures horizontales, aux caractères
centrés (sans extensions), aux boucles.
Par ailleurs, la cursivité de l'écriture arabe
montre une complexité de la morphologie des caractères, les
élongations des ligatures horizontales ainsi que les combinaisons
verticales de certains caractères, constituent les problèmes
majeurs liés au traitement de cette écriture surtout pour les
pseudo-mots.
Figure 7 : Délimitation du pseudo-mot "
äYZ[3Ç"
En effet, ces problèmes engendrent une forte inertie
à différents niveaux notamment dans:
( Le choix de primitives pertinentes décrivant la
variabilité de la morphologie des caractères, sachant que
certaines caractéristiques topologiques sont sensibles à la
dégradation, notamment les points diacritiques et les boucles.
V La méthode de segmentation en caractères ou
même en pseudo-mots (qui peuvent se chevaucher surtout dans le cas du
manuscrit).
Tous ces problèmes et bien d'autres, se trouvent
accentués dans le cas du manuscrit où d'autres facteurs
interviennent (variabilité intra et inter-scripteurs, conditions de
l'écriture, fusion de points diacritiques, chevauchement de pseudo-mots,
graphismes inégalement proportionnés...).
Face à ces problèmes, la nécessité
d'une modélisation robuste s'impose, les méthodes classiques de
type statistique, structurel, neuronal, markoviens etc. étant peu
efficaces pour prendre en considération toutes les variations
morphologiques de l'arabe par suite il est nécessaire d'effectué
un traitement par portion.
Par suite nous allons utiliser une méthode de
reconnaissance d'écriture manuscrite basée sur une approche
analytique permettant de résoudre le problème de segmentation de
mots «traitement par portion ».
|