Système de reconnaissance hors-ligne des mots manuscrits arabe pour multi-scripteurs

( Télécharger le fichier original )
par Riadh BOUSLIMI
FSJEGJ Jendouba - Mastère Recherche : Données, Connaissances et Systèmes Distribués 2006

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

4.3. Phase de segmentation

Dans cette phase les différentes parties logiques d'une image sont extraites. A partir d'une image acquise il y'a d'abord séparation des blocs de texte et des blocs graphiques, puis à partir d'un bloc de texte il y'a extraction des lignes, ensuite à partir de ces lignes sont extraits les mot puis les caractères (ou parties du caractère) [Al-B adr 1995].

4.4. Phase d'extraction des caractéristiques

C'est l'une des étapes les plus délicates et les plus importantes en OCR. La reconnaissance d'un caractère passe d'abord par l'analyse de sa forme et l'extraction de ses traits caractéristiques (primitives) qui seront exploités pour son identification.

Les types de caractéristiques peuvent être classés en quatre groupes principaux : caractéristiques structurelles, caractéristiques statistiques, transformations globales, et superposition des modèles et corrélation [Kermi 1999] [Al-Badr 1995].

a. Caractéristiques structurelles:

Les caractéristiques structurelles décrivent une forme en terme de sa topologie et sa géométrie en donnant ses propriétés globales et locales. Parmi ces caractéristiques on peut citer [Kermi 1999]:

v Les traits et les anses dans les différentes directions ainsi que leurs tailles. v Les points terminaux.

v Les points d'intersections.

v Les boucles.

I Le nombre de points diacritiques et leur position par rapport à la ligne de base. I Les voyellations et les zigzags (hamza).

I La hauteur et la largeur du caractère.

I La catégorie de la forme (partie primaire ou point diacritique, etc).

I Plusieurs autres caractéristiques peuvent être tirés, suivant qu'ils soient extraits d'une courbe, un trait ou un segment de contour.

b. Les caractéristiques statistiques:

Les caractéristiques statistiques décrivent une forme en terme d'un ensemble de mesures extraites à partir de cette forme. Les caractéristiques utilisés pour la reconnaissances de textes arabes sont : le zonage (zonning), les caractéristiques de lieu géométrique (Loci) et les moment [Kermi 1999].

I Le zonage consiste à superposer une grille n×m sur l'image du caractère et pour chacune des régions résultantes, calculer la moyenne ou le pourcentage de points en niveaux de gris, donnant ainsi un vecteur de taille n×m de caractéristiques.

I La méthode Loci est basée sur le calcul du nombre de segments blancs et de segments noirs le long d'une ligne verticale traversant la forme, ainsi que leurs longueurs [AlBadr 1995].

I La méthode des moments : les moments d'une forme par rapport à son centre de gravité sont invariants par rapport à la translation et peuvent être invariants par rapport à la rotation [Al-Badr 1994]. Ils sont aussi indépendants de l'échelle. Ces caractéristiques peuvent être facilement et rapidement extraites d'une image de texte, ils peuvent tolérer modérément les bruits et les variations [T sang 2000].

c. Les transformations globales:

La transformation consiste à convertir la représentation en pixels en une représentation plus abstraite pour réduire la dimension des caractères, tout en conservant le maximum d'informations sur la forme à reconnaître.

Une des transformations les plus simples est celle qui représente le squelette ou le contour d'un caractère sous forme d'une chaîne de codes de directions [Al-Badr 1995]. La chaîne de code obtenue est souvent simplifiée pour réduire les redondances et les changements brusques de direction.

d. Superposition des modèles (template matching) et corrélation:

La méthode de `template matching' appliquée à une image binaire (en niveaux de gris ou squelettes), consiste à utiliser l'image de la forme comme vecteur de caractéristiques pour être comparé à un modèle (template) pixel par pixel dans la phase de reconnaissance, et une mesure de similarité est calculée [Kermi 1999].

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Il faut répondre au mal par la rectitude, au bien par le bien." Confucius