WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Reconnaissance des caractères arabes imprimés par l'approche neuro-génétique.

( Télécharger le fichier original )
par Marwa AMARA
Ecole nationale des sciences de l'informatique - Master  2010
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE 3. CONTRIBUTIONS À LA RECONNAISSANCE DES CARACTÈRES

ARABES IMPRIMÉS

reconstruire un sous-mot selon les positions de segments de caractères dans l'image de sous-mot. Certains segments de caractères peuvent être des sous-mots.

- Reconnaissance des lignes : Les lignes de texte en arabe sont composées des mots où chaque mot est composé d'un ou plusieurs sous-mots. Dans un texte arabe imprimé,

la taille d'espace inter-mots est supérieure à celui de l'espace entre les sous-mots.

FIGURE 3.10 - Détection des espaces dans une ligne

Par conséquent, il existe une valeur de seuil qui peut être utilisé pour établir une distinction entre l'espace inter-mots et l'espace inter-sous mot. Un algorithme simple est utilisé pour déterminer cette valeur seuil. Cet algorithme passe par les étapes suivantes :

1. Déterminer toutes les distances des espaces au sein d'une ligne;

2. Disposer ces distances dans l'ordre décroissant;

3. Obtenir la différence entre chacune des deux valeurs successives;

4. Obtenir la différence maximale;

5. Obtenir les deux distances d'espaces donnant cette différence maximale;

6. Considérer la plus grande valeur de ces deux distances comme la valeur de seuil.

Une fois que la valeur seuil est obtenue, les mots et les sous-mots sont alignés sur une seule ligne, et les espaces blanc sont insérés entre eux selon ce seuil.

- Reconnaissance de la page : Après la reconnaissance des lignes, elles sont toutes regroupées dans un texte selon la position de chaque ligne dans l'image de page originale.

3.3.2.6 Post traitement

Afin de vérifier l'exactitude des mots et sous-mots reconnus, un modèle prédéfini vocabulaire est utilisé. L'existence de chaque mot (ou sous-mot) est vérifiée dans le vocabulaire. Si un mot n'est pas trouvé, il est remplacé par le mot le plus proche dans le vocabulaire.

55

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Entre deux mots il faut choisir le moindre"   Paul Valery