4.5. Phase de classification
La classification dans un système OCR regroupe deux
tâches : l'apprentissage et la reconnaissance et décision. A cette
étape les caractéristiques de l'étape
précédente sont utilisées pour identifier un segment de
texte et l'attribuer à un modèle de référence
[Kermi 1999].
a. L'apprentissage
Il s'agit lors de cette étape d'apprendre au
système les propriétés pertinentes du vocabulaire
utilisé et de l'organiser en modèles de
références.
L'idéal serait d'apprendre au système autant
d'échantillons que de formes d'écritures différentes, mais
cela est impossible à cause de la grande variabilité de
l'écriture qui conduirait à une explosion combinatoire de
modèles de représentation. La tendance consiste alors à
remplacer le nombre par une meilleure qualité des traits
caractéristiques [N. Ben Amara 1999], [Al-Badr 1995]. L'apprentissage
consiste en deux concepts différents : l'entraînement et
l'adaptation. L'entraînement consiste à enseigner au
système la description des caractères tandis que l'adaptation
sert à améliorer les performances du système en profitant
des expériences précédentes. Certains systèmes
permettent à l'utilisateur d'identifier un caractère lorsqu'ils
échouent à le reconnaître et ils utilisent l'entrée
de l'utilisateur à chaque fois que le caractère est
rencontré [Al-Badr 1995].
Les procédés d'apprentissage sont
différents selon qu'il s'agisse de reconnaissance de caractères
imprimés ou manuscrits ou de reconnaître des textes monofonte ou
multifonte. D'une manière générale, on distingue deux
types de techniques d'apprentissage : supervisé et non
supervisé.
ü L'apprentissage est dit supervisé s'il est
guidé par un superviseur appelé professeur. Il est
réalisé lors d'une étape préliminaire de
reconnaissance en introduisant un grand nombre d'échantillons de
référence. Le professeur indique dans ce cas le nom de chaque
échantillon. Le choix des caractères de référence
est fait à la main en fonction de l'application. Le nombre
d'échantillons peut varier de quelques unités à quelques
dizaines, voir même quelques centaines par caractère [N. Ben Amara
1999], [Kermi 1999].
ü L'apprentissage non supervisé ou sans
professeur consiste à doter le système d'un mécanisme
automatique qui s'appuie sur des règles précises de regroupement
pour trouver les classes de référence avec une assistance
minimale. Dans ce cas les échantillons sont introduits en un grand
nombre par l'utilisateur sans indiquer leur classe [N. Ben Amara 1999].
b. Reconnaissance et décision
La décision est l'ultime étape de
reconnaissance. A partir de la description en paramètres du
caractère traité, le module de reconnaissance cherche parmi les
modèles de référence en présence, ceux qui lui sont
les plus proches.
La reconnaissance peut conduire à un succès si
la réponse est unique (un seul modèle répond à la
description de la forme du caractère). Elle peut conduire à une
confusion si la réponse est multiple (plusieurs modèles
correspondent à la description). Enfin elle peut conduire à un
rejet de la forme si aucun modèle ne correspond à sa description.
Dans les deux premiers cas, la décision peut être
accompagnée d'une mesure de vraisemblance, appelée aussi score ou
taux de reconnaissance [N. Ben Amara 1999].
Les approches de reconnaissance peuvent être
regroupées en trois groupes principaux: l'approche statistique,
l'approche structurelle, et l'approche stochastique.
i. Approche statistique
Elle est fondée sur l'étude statistique des
mesures que l'on effectue sur les formes à reconnaître.
L'étude de leur répartition dans un espace métrique et la
caractérisation statistique des classes, permettent de prendre une
décision de reconnaissance du type « plus forte probabilité
d'appartenance à une classe » [N. Ben Amara 1999].
Les approches statistiques bénéficient des
méthodes d'apprentissage automatique qui s'appuient sur des bases
théoriques fondées, telles que la théorie de la
décision bayésienne, les méthodes de classification non
supervisées ... En reconnaissance, le problème revient à
affecter une forme inconnue à l'une des classes obtenues pendant
l'apprentissage [Al-Badr 1995].
Nous pouvons citer trois méthodes statistiques parmi
celles les plus couramment utilisées :
ü L'approche bavésienne
L'approche bayésienne consiste à choisir parmi
un ensemble de caractères, celui pour lequel la suite de primitives
extraites a la plus forte probabilité à posteriori par rapport
aux caractères préalablement appris [Anigbogu 1992].
ü La méthode du plus proche voisin
L'algorithme KNN (K Nearest Neighbors) affecte une forme
inconnue à la classe de son plus proche voisin en la comparant aux
formes stockées dans une classe de références
nommée prototypes. Il renvoie les K formes les plus proches de la forme
à reconnaître suivant un critère de similarité. Une
stratégie de décision permet d'affecter des valeurs de confiance
à chacune des classes en compétition et d'attribuer la classe la
plus vraisemblable (au sens de la métrique choisie) à la forme
inconnue [N. Ben Amara 1999 , Burrow 2004].
Cette méthode présente l'avantage d'être
facile à mettre en oeuvre et fournit de bons résultats. Son
principal inconvénient est lié à la faible vitesse de
classification due au nombre important de distances à calculer.
ü Les réseaux de neurones
Un réseau de neurones est un graphe orienté
pondéré. Les noeuds de ce graphe sont des automates simples
appelés neurones formels. Les neurones sont dotés d'un
état interne, l'activation, par lequel ils influencent les autres
neurones du réseau. Cette
activité se propage dans le graphe le long d'arcs
pondérés appelés liens synaptiques [Amat 1996].
En OCR, les primitives extraites sur une image d'un
caractère (ou de l'entité choisie) constituent les entrées
du réseau. La sortie activée du réseau correspond au
caractère reconnu. Le choix de l'architecture du réseau est un
compromis entre la complexité des calculs et le taux de reconnaissance
[souici 1997].
Par ailleurs, le point fort des réseaux de neurones
réside dans leur capacité de générer une
région de décision de forme quelconque, requise par un algorithme
de classification, au prix de l'intégration de couches de cellules
supplémentaires dans le réseau [Lippman 1987].
ü Modèle Markovien caché (H.M.M)
- C'est une méthode probabiliste qui consiste en un
ensemble d'états et les probabilités de transition entre ces
états. En plus des observations faites par le système sur une
image. Ces dernières sont représentées par des variables
aléatoires, dont la distribution dépend de l'état. Elles
constituent une représentation séquentielle des
caractéristiques de l'image d'entrée [N. Ben Amara 1996, 1999,
2000] et [Miled 2001].
ii. Approche structurelle
Les méthodes structurelles reposent sur la structure
physique des caractères. Elles cherchent à trouver des
éléments simples ou primitives, et à décrire leurs
relations. Les primitives sont de type topologiques telles que : une boucle, un
arc... et une relation peut être la position relative d'une primitive par
rapport à une autre [Anigbogu 1992], [Ha 1996]. Parmi les
méthodes structurelles nous pouvons citer :
ü Les méthodes de tests
Elles consistent à appliquer sur chaque
caractère traité des tests de plus en plus fins sur la
présence ou l'absence de primitives, de manière à
répartir les échantillons en classes. Le processus le plus
habituel consiste à diviser à chaque test l'ensemble des choix en
deux jusqu'à n'obtenir qu'une seule forme correspondant au
caractère entré. Ce choix dichotomique est très rapide et
très simple à mettre en oeuvre, mais il est très sensible
aux variations du tracé [N. Ben Amara 1999].
ü La comparaison de chaînes
Les caractères sont représentés par des
chaînes de primitives. La comparaison du caractère traité
avec le modèle de référence, consiste à mesurer la
ressemblance entre les deux chaînes et à se prononcer sur
celui-ci. La mesure de ressemblance peut se faire par calcul de distance ou par
examen de l'inclusion de toute ou une partie d'une chaîne dans l'autre
[N. Ben Amara 1999].
iii. Approche stochastique
Contrairement aux méthodes précédemment
décrites, l'approche stochastique utilise un modèle pour la
reconnaissance, prenant en compte la grande variabilité de la forme. La
distance communément utilisée dans les techniques de «
comparaison dynamique » est remplacée par des probabilités
calculées de manière plus fine par apprentissage. La forme est
considérée comme un signal continu observable dans le temps
à différents endroits constituant des états
«d'observations ». Le modèle décrit ces états
à l'aide de probabilités de transitions d'états et de
probabilités d'observation par état. La comparaison consiste
à chercher dans ce graphe d'états, le chemin de
probabilité forte correspondant à une suite
d'éléments observés dans la chaîne d'entrée.
[N. Ben Amara 1999]. Ces méthodes sont robustes et fiables du fait de
l'existence d'algorithmes d'apprentissage efficaces [Seymore 1999]. Si
l'apprentissage est lent, la reconnaissance est par contre très rapide
car les modèles comprennent généralement peu
d'états et le calcul est relativement immédiat. Les
méthodes les plus répondues dans cette approche sont les
méthodes utilisant les modèles de Markov cachés (HMM).
4.6. Phase de Post-Traitement
Le post-traitement est effectué quand le processus de
reconnaissance aboutit à la génération d'une liste de
lettres ou de mots possibles, éventuellement classés par ordre
décroissant de vraisemblance. Le but principal est d'améliorer le
taux de reconnaissance en faisant des corrections orthographiques ou
morphologiques à l'aide de dictionnaires. Quand il s'agit de la
reconnaissance de phrases entières, on fait intervenir des contraintes
de niveaux successifs : lexical, syntaxique ou sémantique.
Le post-traitement se charge également de vérifier
si la réponse est correcte (même si elle est unique) en se basant
sur d'autres informations non disponibles au classifieur.
5. Quelques systèmes de reconnaissance
d'écriture arabe (AOCR)
Plusieurs chercheurs ont mené plusieurs travaux afin de
proposer des systèmes d'AOCR. Voici dans ce qui suit un tableau
récapitulatif précisant les caractéristiques et les
performances de certains systèmes AOCR [N. Ben Amara 2003].
Tableau n°1 : Tableau récapitulatif précisant
les caractéristiques et les performances de certains systèmes
AOCR[N. Ben Amara 2003]
Tableau n°1 : Tableau récapitulatif précisant
les caractéristiques et les performances de certains systèmes
AOCR [N. Ben Amara 2003] (Suite)
Tableau n°1 : Tableau récapitulatif précisant
les caractéristiques et les performances de certains systèmes
AOCR [N. Ben Amara 2003] (Suite)
|