WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Reconnaissance des caractères arabes imprimés par l'approche neuro-génétique.

( Télécharger le fichier original )
par Marwa AMARA
Ecole nationale des sciences de l'informatique - Master  2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE DES CARACTÈRES

ARABES IMPRIMÉS

3. Obtenir les pics représentant les positions des lignes de base de lignes dans la page;

4. Chercher au-dessus de chaque ligne de base détectée la plus faible densité de pixels, et marquer cette position comme la limite supérieure de la ligne (X1);

5. Rrechercher la position au dessous de la ligne de base la plus basse densité de pixels, et la marquer comme la limite inférieure de la ligne (X2);

6. Répétez l'opération pour chaque ligne de base détectée.

- Segmentation en mots /sous-mots : Après la séparation des lignes, nous passons à la localisation des sous mots (ou mots) et des points diacritiques. [EI01] proposent la méthode Bounding Box pour l'obtention des sous mots et des points diacritiques séparés. L'algorithme utilisé pour obtenir les composantes connexes est une simple procédure itérative qui compare les lignes par balayages successives des lignes de l'image afin de déterminer si les pixels noirs dans n'importe quelle paire de lignes sont connectés ensemble. Les rectangles de délimitation sont étendus pour inclure tout regroupement de pixels noirs connectés par balayage successives des lignes. La figure suivante décrit les étapes suivies pour la lettre »Ta» :

FIGURE 3.6 - Processus de construction des composantes connexes à partir de balayage de lignes d'image »Ta»

L'algorithme, comme illustré dans la figure ci-dessus, est le suivant :

48

CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE DES CARACTÈRES

ARABES IMPRIMÉS

1. Tout d'abord, tous les pixels noirs sont scannés et représentés par un petit rectangle;

2. Dans chaque rangée, les limites qui se croisent sont fusionnées en un seul rectangle;

3. De même, les limites qui se croisent verticalement sont fusionnées en un seul rectangle;

4. Les étapes [2] et [3] sont répétées jusqu'à ce qu'aucune autre fusion ne soit possible.

La distinction entre les sous-mots et les signes diacritiques se fait simplement en vérifiant si la ligne base passe par une boîte englobant ou non. Si la boite englobante est située sur la ligne de base alors c'est un sous-mot, si non c'est un signe diacritique.

- Segmentation en caractères : Nous avons utilisé une méthode simple pour la séparation des caractères. C'est l'histogramme de projection verticale. La plupart des caractères arabes se connectent le long de la ligne de base principale. Les caractères causent une irrégularité dans l'histogramme de projection verticale. L'étape de segmentation de caractères tente à segmenter chaque sous-mot à un certain nombre de segments. Chaque segment peut représenter une seule lettre arabe ou seulement une partie d'une lettre arabe (graphème). La segmentation d'un sous-mot est réalisée en quatre étapes principales :

1. Retirez tous les signes diacritiques existants dans le sous-mot; Comme tous les composants étaient précédemment classés en sous-mots et signes diacritiques. La suppression des signes diacritiques se réalise en effaçant tous les pixels à l'intérieur des boîtes englobant qui ont été classés comme signes diacritiques;

2. Analyser chaque colonne de pixels dans l'image du sous-mot. Si une colonne de pixels comprend un seul pixel qui se trouve sur la ligne de base inférieure, marquer ce point comme un des points où il est possible de faire une coupe de segmentation;

3. Obtenir la projection verticale de l'image sous-mot. Rechercher tous les pics dans la projection et marquer leurs positions comme des positions où la segmentation est nécessaire. Ce sont des positions où l'irrégularité dans le texte se produit et indique la détection d'un nouveau caractère;

4. A chaque position où la segmentation est nécessaire, nous recherchons dans la direction droite le point le plus proche où il est acceptable d'appliquer une coupe. La segmentation, est donc faite à cette position.

Notez qu'une coupe de segmentation est faite au plus gauche de sous-mot et que tout sous-mot doit inclure au moins un segment.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Des chercheurs qui cherchent on en trouve, des chercheurs qui trouvent, on en cherche !"   Charles de Gaulle