Système de reconnaissance hors-ligne des mots manuscrits arabe pour multi-scripteurs

( Télécharger le fichier original )
par Riadh BOUSLIMI
FSJEGJ Jendouba - Mastère Recherche : Données, Connaissances et Systèmes Distribués 2006

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3. Problèmes liés à l'OCR

La tâche de l'OCR n'est pas aisée, La figure n°3 nous montre un schéma général d'un système de reconnaissance de caractères. Des divers problèmes compliquent le processus de reconnaissance, parmi lesquels on peut citer [Al-Badr 1995], [Ben Amara N. 1999]:

V' La qualité du document : un document télécopié ou photocopié plusieurs fois est plus difficile à traiter que la copie originale. L'écriture peut devenir plus mince ou au contraire plus épaisse, dégradée avec des parties du texte qui manquent ou de tâches qui apparaissent, des ouvertures ou des bouchages de boucles ...

V' L'impression : un document composé est de meilleure qualité qu'un document dactylographié qui, à son tour, est plus clair qu'un texte issu d'une imprimante matricielle. Une imprimante à jet d'encre peut introduire des tâches d'encre et un étalement des caractères, une imprimante laser peut générer des lignes ou des fonds ...

V' La discrimination de la forme : selon le style de la fonte utilisée, son corps et sa graisse..., le caractère change de graphisme. Le nombre de formes est d'autant plus important que le nombre de styles d'écriture est élevé. De plus, plusieurs caractères présentent une forte ressemblance tels que:

pour l'arabe: bet , .et ?~? et _j

pourleLatin:UetV,Oet0,Set5,Zet2.

V' Le support de l'information, tel que le papier, joue également sur les performances
de la reconnaissance par sa qualité: son grammage, sa granulation et sa couleur.

V' L'acquisition: la numérisation en temps réel introduit souvent des distorsions dans l'image. Dans le cas hors-ligne la qualité du texte numérisé est un compromis entre les variations de la position (inclinaison, translation, rétrécissement...), la propreté de la vitre du dispositif de numérisation et sa résolution.

V' Les variations des dimensions : un «pitch » de 10, 12 ou de 16 ... (10, 12 ou 16 cpi (character per inch)). Un pitch de 10 implique des caractères plus grands aussi bien en largeur qu'en hauteur que ceux d'un pitch de 12.

En plus de ces problèmes un système OCR devrait être capable de distinguer entre un texte et une figure, de reconnaître les caractères ligaturés et d'être indépendant des variations de l'espace aussi bien inter-mots que de l'interligne.

Les problèmes posés par la reconnaissance optique de l'écriture manuscrite, sont plus complexes que ceux liés à l'écriture imprimée. Les erreurs de lecture dans le cas du manuscrit sont dues aux variations infinies de l'écriture de nature aléatoire qui dépendent de facteurs particuliers du scripteur et des conditions de l'écriture.

Figure 3 : Schéma général d'un système de reconnaissance de caractères.

4. Processus de reconnaissance

Un système de reconnaissance fait appel généralement aux étapes suivantes : acquisition, prétraitements, segmentation, extraction des caractéristiques, classification, suivis éventuellement d'une phase de post-traitement.

4.1. Phase d'acquisition

L'acquisition permettant la conversion du document papier sous la forme d'une image numérique (bitmap). Cette étape est importante car elle se préoccupe de la préparation des documents à saisir, du choix et du paramétrage du matériel de saisie (scanner), ainsi que du format de stockage des images.

La numérisation du document est opérée par balayage optique. Le résultat est rangé dans un fichier de points, appelés pixels, dont la taille dépend de la résolution [Belaïd A. 1995]. La Figure 4 montre différents niveaux de résolution utilisés pour le même document. On peut remarquer la dégradation occasionnée par 75 ppp, l'insuffisance des 300 ppp pour le graphique, et l'inutilité des 1200 ppp pour l'ensemble.

La technicité des matériels d'acquisition (scanner) a fait progrès ces dernières années. On trouve aujourd'hui des scanners pour des documents de différents types (feuilles, revues, livres, photos, etc.). Leur champ d'application va du "scan" de textes au "scan" de photos en 16 millions de couleurs (et même plus pour certains). La résolution par défaut est de l'ordre de 300 à 1200 ppp selon les modèles.

Figure 4 : Différents niveaux de résolution [A. Belaïd et Y. Belaïd 1992]

4.2. Phase de prétraitement

Le prétraitement consiste à préparer les données issues du capteur à la phase suivante. Il s'agit essentiellement de réduire le bruit superposé aux données et essayer de ne garder que l'information significative de la forme représentée. Le bruit peut être dû aux conditions d'acquisition (éclairage, mise incorrecte du document, ...) ou encore à la qualité du document d'origine.

Parmi les opérations de prétraitement généralement utilisées on peut citer : l'extraction des composantes connexes, le redressement de l'écriture, le lissage, la normalisation et la squelettisation (figure 5).

Figure 5 : effets de certaines opérations de prétraitement. a. La binarisation

La binarisation c'est le passage d'une image en couleur ou définie par plusieurs niveaux de gris en image bitonale (composée de deux valeurs 0 et 1) qui permet une classification entre le fond (image du support papier en blanc) et la forme (traits des gravures et des caractères en noir).

Pour des images de niveaux de gris, on peut trouver dans [O. D. Trier & T. Taxt 1995] une liste des méthodes de binarisation, proposant des seuils adaptatifs (ex. s'adaptant à la différence de distribution des niveaux de gris). [Y. Liu & S. Srihari 1997] proposent une solution pour les images d'adresses postales. La recherche du seuil passe par plusieurs étapes : binarisation préliminaire basée sur une distribution de mixture multimodale, analyse de la texture à l'aide d'histogrammes de longueurs de traits, et sélection du seuil à partir d'un arbre de décision.

Figure 6 : Exemple de Binarisation adaptative [H. Emptoz & F. Lebougoies 2003]

b. Extraction de composantes connexes

Une composante connexe (CXX) est un ensemble de points dans le plan. Elle peut correspondre à un point diacritique, un accent, au corps d'un caractère ou d'une chaîne de caractères... Une fois localisés les CXX sont regroupées pour former les mots. Cette technique est utilisée pour le repérage des points diacritiques dans les images de textes arabes [N. Ben Amara 1999].

c. Redressement de l'écriture

L'un des problèmes rencontrés en OCR est l'inclinaison des lignes du texte, qui introduit des difficultés pour la segmentation. L'inclinaison peut provenir de la saisie, si le document a été placé en biais, ou être intrinsèque au texte. Il convient alors de le redresser afin de retrouver la structure de lignes horizontales d'une image texte. Si á est l'angle d'inclinaison, pour redresser l'image, une rotation isométrique d'angle -á est opérée grâce à la transformation linéaire suivante [Steinherz 1999] :

d. Lissage

L'image des caractères peut être entachées de bruits dus aux artefacts de l'acquisition et à la qualité du document, conduisant soit à une absence de points ou à une surcharge de points. Les techniques de lissage permettent de résoudre ces problèmes par des opérations locales qu'on appelle opérations de bouchage et de nettoyage [Burrow 2004].

L'opération de nettoyage permet de supprimer les petites tâches et les excroissances de la forme. Pour le bouchage il s'agit d'égaliser les contours et de boucher les trous internes à la forme du caractère en lui ajoutant des points noirs.

Plusieurs autres techniques similaires sont utilisées dont la méthode statistique, une méthode basée sur la morphologie mathématique [N. Ben Amara 1999].

e. Normalisation

Après la normalisation de la taille, les images de tous les caractères se retrouvent définies dans une matrice de même taille, Pour faciliter les traitements ultérieurs (Figure n° 7).

Le principe de la normalisation est d'essayer de normaliser localement différentes parties du mot, de manière à augmenter la ressemblance d'une image à une autre.

Cette opération introduit généralement de légères déformations sur les images. Cependant certains traits caractéristiques tels que la hampe dans les caractères (Ø Ù á Ç par exemple) peuvent être éliminées à la suite de la normalisation, ce qui peut entraîner à des confusions entre certains caractères [Steinherz 1999].

Figure 7 : Exemple de normalisation de mots manuscrits [A. Belaïd 2002]. f. Squelettisation

Le but de cette technique est de simplifier l'image du caractère en une image à « ligne » plus facile à traiter en la réduisant au tracé du caractère. Les algorithmes de squelettisation se basent sur des méthodes itératives. Le processus s'effectue par passes successives pour déterminer si un tel ou tel pixel est essentiel pour le garder ou non dans le tracé [Steinherz 1999].

La squelettisation des caractères arabes peut induire en erreur : deux points diacritiques sont souvent confondus avec un seul [N. Ben Amara 1999].

précédent sommaire suivant

"Ceux qui vivent sont ceux qui luttent" Victor Hugo