WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Traduction automatisée des langues africaines. Cas du lingala.


par Assandé Jacob TANO
International Data Science Institute - Master Data Science - Big Data 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

3- le modèle `Transformer'

Le `Transformer' est un modèle d'apprentissage profond introduit en 2017, utilisé principalement dans le domaine du traitement du langage naturel.

Comme les réseaux neuronaux récurrents (RNN), les `Transformers' sont conçus pour traiter des données séquentielles, comme le langage naturel, pour des tâches telles que la traduction et le résumé de textes. Toutefois, contrairement aux RNN, les 'Transformers' n'exigent pas que les données séquentielles soient traitées dans l'ordre. Par exemple, si les données d'entrée sont une phrase en langage naturel, le 'Transformer' n'a pas besoin de traiter le début de cette phrase avant la fin. Grâce à cette caractéristique, le `Transformer' permet une parallélisation beaucoup plus importante que les RNN et donc des temps de formation(entraînement) réduits.

Depuis leur introduction, les `Transformers' sont devenus le modèle de choix pour résoudre de nombreux problèmes en NLP, L'intérêt du `Transformer' réside dans le fait qu'il fait largement appel à l'attention. Le mécanisme d'attention permet à un réseau

4 Token : On appelle ici token les différents mots constituant une phrase

Master Data Science - Big Data 27

TANO Assandé Jacob

 

de neurones d'apprendre à se focaliser sur certaines caractéristiques d'une séquence en cours de traitement pour la décision L'utilisation classique de l'attention vient du modèle de traduction automatique, où la sortie est produite selon le contexte des données en entrée. [ 12 ]

a. Architecture

Six encodeurs empilés, chaque encodeur prenant en entrée la sortie de l'encodeur précédent (sauf le premier qui prend en entrée les embeddings), suivi de six décodeurs empilés, prenant en entrée la sortie du décodeur précédent et la sortie du dernier encodeur (sauf pour le premier décodeur qui ne prend en entrée que la sortie du dernier encodeur). [ 15]

Figure 16 : Représentation simplifiée d'un `Transformer'

b. Description

l Chaque encodeur se compose de deux sous-couches: une couche d'auto-attention

5

suivie d'un FFNcomplètement connecté. Chaque sous-couche possède en sortie une couche qui ajoute, additionne, les sorties de la couche et du raccord à une connexion dite résiduelle (qui connecte directement les valeurs d'entrée de la couche à la sortie de la couche) et qui normalise l'ensemble;

l Chaque décodeur se compose de trois couches : une couche d'auto-attention suivie d'une couche d'attention avec le dernier encodeur, puis d'un FFN complètement connecté. Chaque sous-couche possède en sortie une couche qui ajoute, additionne, les sorties de la couche et du raccord à une connexion dite résiduelle (qui connecte directement les valeurs d'entrée de la couche à la sortie de la couche) et qui normalise l'ensemble.

5 FFN : Feed Forward Network

Master Data Science - Big Data 28

TANO Assandé Jacob

 

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"En amour, en art, en politique, il faut nous arranger pour que notre légèreté pèse lourd dans la balance."   Sacha Guitry