WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Contrainte Psycho-Physiques et Electrophysiologiques sur le codage de la stimulation électrique chez les sujets porteurs d'un implant cochléaire

( Télécharger le fichier original )
par Stéphane GALLEGO
Université Lyon I - Doctorat 1999
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

Article 10 :

PRESERVATION DE L'ENVELOPPE TEMPORELLE
POUR LA COMPRESSION DU SIGNAL DE PAROLE

S. Gallégo
Proceeding du congrès de la société française d'Audiologie, Clermont-Ferrand, déc 1998
Sous presse

L'objectif de cet article a été double :

Nous avons voulu montrer qu'il était possible de reconnaître de la parole par l'enveloppe du signal acoustique. Les résultats montrent qu'avec simplement 4 canaux laissant passer l'enveloppe jusqu'à 250 Hz, il est possible de reconnaître plus de 80% des phonèmes,

Nous avons voulu montrer qu'avec un type de compression fondée sur l'enveloppe et n'utilisant pas les temps d'attaque et de retour, il est possible de ne pas détériorer l'intelligibilité.

Préservation de l'enveloppe temporelle pour la compression du signal de parole.

Stéphane Gallégo

Laboratoire CNRS UPRESSA 5020, Lyon
Laboratoires MXM, Vallauris
Centres GAM surdité, Mougins
e-mail : sgallecioemxmlab.com

Introduction : La perception des fluctuations d'amplitude lentes joue un rôle certain dans la délimitation des unités linguistiques (voyelles, syllabes ou mots). Ces fluctuations d'enveloppe sont également impliquées dans plusieurs distinctions phonétiques importantes. Plusieurs études ont montré que la reconnaissance des signaux de parole pouvait être effectuée sur la base des indices d'enveloppe temporelle. Katz et Berry (1971), Van Tassel et al (1987), et plus récemment Shannon (1995) ont obtenu d'excellents scores d'intelligibilité de la parole en modulant des bruits blancs ou des bandes de bruits par l'enveloppe de signaux de parole (figure 1).

2 3 4 1 2 3 4 1 2 3 4 Nimber of bands

Figure 1: Reconnaissance des consonnes, voyelles et phrases chez huit sujets normoentendants en fonction du nombre de bandes de bruits filtrés à la place de la structure fine du signal après environ 10h d'apprentissage. D'après Shannon et al, 1995

Les bonnes performances d'intelligibilité de la parole obtenues chez des sujets porteurs d'implants cochléaires mono-électrodes (Hochmair et Hochmair-Desoyer, 1985) ou du système percutané lnaired à quatre canaux (Dorman et al, 1990) témoignent également de l'importance des indices d'enveloppe dans la compréhension de la parole. Des études (Lawson, Wilson et Finley, 1992), montrent que l'intelligibilité chez les sujets porteurs de l'implant cochléaire lnaired est fonction du nombre de canaux actifs. Avec six canaux, le score est proche du sans faute. Des études chez le normo-entendant, principalement investiguées par l'équipe de Drullman (Noordhoek & Drullman, 1997) ont caractérisé la perte d'intelligibilité en fonction de la dégradation de l'enveloppe temporelle des mots. Les résultats montrent que l'information est principalement contenue dans les fréquences comprises entre 1 à 32 Hz. Plus le spectre de l'enveloppe est réduit plus l'intelligibilité est faible.

Les résultats obtenus chez des patients présentant une surdité sensorineurale par stimulation acoustique (Bacon & Viemeister, 1985 ; Moore, Shailer & Shooneveldt, 1992 ; Lorenzi et al, 1997, Demany et Lacher-Fougère, 1997) ou électrique (Shannon, 1992, Kohlrausch, 1993) sont similaires à ceux obtenus chez des sujets normo-entendants. Ces Résultats montrent que le mécanisme responsable de l'intégration temporelle des sons (et de l'extraction de l'enveloppe) n'est pas affecté par une atteinte cochléaire. Ils suggèrent donc que ce mécanisme se situe à un niveau central (rétro- cochléaire) plutôt que périphérique (cochléaire).

Expérience 1 : Nous avons voulu évaluer l'importance de l'enveloppe de la parole en éliminant toute la
structure fine du signal. Ce genre de traitement peut présenter un intérêt pour les surdités ayant une
forte dégradation de la sélectivité fréquentielle, seul le facteur temporel intervient dans ce genre de test

(par exemple les surdités profondes ou sévères ont une tonotopie cochléaire très frustre, seules les caractéristiques temporelles du signal peuvent être codées).

Son principe de base est de garder l'enveloppe du signal pour différents canaux (1 à 4) et de remplacer la structure fine de chaque canal par un bruit passe-bande équilibré en énergie (figure 2).

Contrairement aux travaux de Shannon (1995), nous ne voulons pas qu'il y ait une séance d'entraînement longue qui permet d'améliorer les scores de reconnaissance (8 à 10 heures par sujet testé). Cela permet, d'éviter un recodage des sons. L'expérience sans entraînement permet de mesurer l'intelligibilité correspondant à celle obtenue par un traitement de la voix la plus naturelle possible.

Filtre
500-1000 Hz

Filtre passe bas
250 Hz

Redressement

Filtre
1000 .2000 H7

Filtre
2000-4000 Hz

Filtre
eoneloo H7

Redressement

Redressement

Redressement

Bruit rose

Filtre
2000-4000 Hz

Signal de
Parole

Signal
Traité

Figure 2 : Schéma simplifié du traitement de signal effectué pour remplacer les structures fines de chaque canal par un bruit rose filtré.

Nous avons choisi les listes de mots utilisées classiquement en cabinet d'audioprothèse pour mesurer l'intelligibilité. Ce sont 40 listes de 10 mots dissyllabiques numérisées sur CD ROM, elles ont été élaborées par monsieur Fournier. Pour chaque mot deux mesures d'intelligibilité ont été effectuées : 1- la reconnaissance du mot (0 ou 100%), 2- le pourcentage de phonèmes reconnus dans les mots (de 0 à 100%).

Pour chaque sujet testé nous avons passé deux listes par condition sur l'oreille droite. L'intensité de stimulation est à environ 30 dB SL. Quatre conditions dans un ordre aléatoire ont été choisies ( un canal (2000-4000 Hz) ; 2 canaux (1000-2000, 2000-4000 Hz) ; 3 canaux (1000-2000, 2000-4000, 4000-8000 Hz) ; 4 canaux (500-1000, 1000-2000, 2000-4000, 4000-8000 Hz)).

Figure 3 : Pourcentage et déviation standard de phonèmes reconnus (graphe de gauche) et pourcentage et déviation standard de mots reconnus (graphe de droite) en fonction du nombre de canaux pour une population de 20 normo-entendants.

100 100 - - -

20

80
60
14 40

3

20

1 2 3 4

Nombre de tonere

Nombre de «noue

Les mots et phonèmes sont très bien reconnus par les normo-entendants (90 % pour les mots et 95 % pour les phonèmes chez certains sujets). Les résultats sont similaires à ceux décrit par Shannon et al, 1995, mais dans ses conditions expérimentales, il y avait un entraînement au préalable d'une dizaine d'heures. Ces résultats corroborent aussi ceux de Lawson et al, 1992 obtenus chez les sujets implantés cochléaires. L'intelligibilité (des mots et des phonèmes) croit en fonction du nombre de canaux. Une analyse statistique par Anova montre des différences statistiques de performances en fonction du

nombre de canaux utilisés (p<0.001 : 43, 42, 41, 32, 32, 21). Les résultats montrent qu'un système auditif qui peut faire la différence entre quatre fréquences et qui a une résolution temporelle normale peut avoir un intelligibilité d'environ 95 % sans qu'il soit besoin de recoder l'information auditive sous une forme différente. Cela peut en partie expliquer les performances obtenues chez certains enfants sourds profonds utilisant la prothèse à transposition de fréquence de Lafon (Lafon, 1996).

L'utilisation de l'enveloppe chez les sujets atteints d'une surdité de perception est actuellement mal adaptée avec les appareils conventionnels. Lorsque l'on adapte l'énergie acoustique par une aide auditive au sujet atteint d'une surdité de perception, on utilise actuellement des systèmes de compression qui ont des seuils de déclenchement avec des temps d'attaque et de retour variables. Cela entraîne évidemment des distorsions de l'enveloppe temporelle du signal en dynamique Une compression qui permettrait de ne pas déformer l'enveloppe tout en préservant le spectre fréquentiel instantané serait sûrement plus avantageuse.

Expérience 2 : L'expérience précédente a montré l'importance de l'enveloppe sur l'intelligibilité et a soulevé le problème de distorsion de l'enveloppe lors de la compression du signal dans les aides auditives actuelles. Nous avons ensuite voulu estimer les performances d'un type de compression ou d'extension du signal de la parole. Des tests d'intelligibilité dans le bruit ont été choisis pour évaluer la qualité de la compression. La technique utilisée pour compresser ou étendre le signal se base sur la modification de l'enveloppe temporelle en préservant sa forme et la structure spectrale du signal. L'avantage de ce type de technique est d'éliminer tout effet indésirable de distorsion lorsque le signal n'est pas stationnaire.

Lorsqu'un sujet a un recrutement important, il est intéressant d'utiliser cette technique de compression car elle préserve la structure fine et la forme de l'enveloppe du signal. Moore, 1992 montre que pour simuler une surdité avec une audition normale (surdité de perception) l'enveloppe du signal doit être comprimée par sa racine carrée (compression de 1/2).

L'objectif du traitement du signal est de préserver le spectre instantané et la forme de l'enveloppe temporelle du signal lors d'une compression. Il est donc nécessaire d'extraire séparément l'enveloppe et la structure fine du signal, puis de compresser uniquement l'enveloppe.

Puissance
(X-'1)

Redressement

Filtre passe bas
250 Hz

Signal de
Parole

29

Filtre passe bas __H

250 Hz

Signal
Traité

Figure 4 : Schéma simplifié du traitement de signal effectué pour compresser l'enveloppe du signal bruité. Si l'on veut compresser par 1/2 la puissance sera --1/2.

Pour chaque sujet testé nous avons passé une liste par condition sur l'oreille droite. L'intensité de stimulation est à environ 30 dB SL. Pour chaque sujet six types de compressions avec quatre rapports signal sur bruit ont été choisis ( compression de 1/8, 1/4, 1/2, 1 et expansion de 2 et 4 ; rapport signal sur bruit de 12, 6, 0 et-6 dB).

L'exemple figure 5 nous montre que le fait de compresser un signal diminue le rapport signal sur bruit. Inversement une extension du signal augmente le rapport signal sur bruit. Malgré cela les résultats figure 5 ne montrent pas de différence statistique (par une anova à deux facteurs à mesure répétée) de l'intelligibilité en fonction du facteur de compression (ou d'extension). Ce type de compression ne modifie apparemment pas l'intelligibilité dans le bruit. Comme nous nous y attendions, le traitement du signal utilisé permet de préserver la forme de l'enveloppe ainsi que les structures fines du signal, ce qui se traduit par la stabilité de la compréhension de la parole dans le bruit.

gee

laa

g ion

ew

RO

g

°

"

I

10

40

-à 0 6 12

ROmMari mienOlibrue (104

40

110

-6 0 12

mignml/bre idlj

-fi 0 12

%neer! 0ignaV0re {dol

6 0 12

%oued eigned/brun {dl]

-a 0

Re9mor1 161/.01/11/0e

Il tee 60 RO 40

1

-Il 0 6 12

nomplaigne/bnall tai

Î 100

"

40

110

a 100 I MO I 40 I 40

I20

0

Figure 5 : Exemple du traitement de signal pour le mots 'le bouchon' pour les différents taux de compression X (gauche); Intelligibilité des phonèmes pour différentes compressions à différents rapports signal sur bruit sur une population de 20 sujets (droite).

Bien qu'artificiellement le rapport signal sur bruit se dégrade lors d'une compression (figure 5), l'intelligibilité reste identique. L'utilisation de ce type de traitement semble être intéressant pour les aides auditives par rapport aux compressions utilisées actuellement.

Afin de valider ce type de compression, il semble intéressant de poursuivre ces investigations sur des sujets atteints d'une surdité de perception. Plusieurs sous-groupes, en fonction du niveau de surdité, doivent être étudiés (de la surdité moyenne à profonde).

Bibliographie :

Bacon SP, Veimeister NF. Temporal modulation transfer functions in nomal-hearing and hearing impaired subjects. Audiology, 1985, 24,117-134

Demany L, Lacher-Fougère S. Consequences des pathologies cochléaires sur la perception des modulations sonores. Cahier de l'audition, 1997, 10, 3; 15-17

Dorman MF, Soli S, Dankowski K, Smith L, McCandless G, Parkin J. Acoustic cues for consonant identification by patients using Inaired cochlear implant. J Acous Soc Am, 1990, 88, 2074-2079

Hochmair-Desoyer IJ, Hochmair ES, Stiglbrunner HK. Psychoacoustic temporal processing and speech understanding in cochlear implants patients. In RA Schindler & MM Merzenich (Eds), Cochlear implants, New York :Raven Press, 1985, 291394

Katz SJ, Berry RC. Speech modulated noise. 81nd Meeting of Acoustical Society of America, 1971.

Kohlrausch A. Comment on 'Temporal modulation transfer functions in patients with cochlear imlants'. J Acous Soc Am, 1993, 93, 1649-1650

Lafon J.C. Transposition et modulation pour que les sourds entendent. Bull. Audiophonologie, 1996, 12, 3&4

Lorenzi C, Micheyl C, Berthommier F, Portalier S. Modulation masking in listeners with sensorineural hearing Ioss. J Speech & Hear Res, 1997, 40, 200-207

Lawson DT, Wilson BS, Finley CC. New processing strategies for multichannel cochlear protheseses. Progress in brain research, 1992.

Moore BJC, Shailer MJ, Schooneveldt GP . Temporal modulation transfer functions for band-limited noise in subjects with cochlear hearing loss. Brit J Audiol, 1992, 26, 229-237

Noordhoek IM, Drullman R. Effect of temporal intensity modulations on sentence intelligibility. J Acous Soc Am, 1997, 101, 498-502

Shannon RV, Zeng FG, Kamath V, Wygonski J, Ekelid M. Speech recognition with primarily temporal cues. Science, 1995, 270, 303-304

Shannon RV. Temporal modulation transfer functions in patients with cochlear implants. J Acous Soc Am, 1992, 91, 21562164

Tasell D Van, Solli SD, Kirby VM, Widin GP. Speech waveform envelope cues for consonant recogniton. J Acous Soc Am, 1987, 82, 1152-1161

Discrimination d'enveloppe

Les caractéristiques acoustiques de l'enveloppe, telles que l'intensité, le temps de montée, le temps de descente, et la fréquence de fluctuation déterminent respectivement les sensations de force, d'attaque, de chute, de rugosité et de tempo. La forme de l'enveloppe temporelle est également impliquée dans la perception du timbre et dans les processus de reconnaissance d'objets sonores. Une note de piano, par exemple, possède une attaque rapide et une chute relativement lente. Cette même note enregistrée sur une bande puis écoutée en sens inverse change de timbre et évoque celui d'un accordéon. Cet effet souligne bien l'importance des indices temporels dans la perception du timbre car les spectres de puissance des versions 'avant' et 'arrière' du signal sont identiques.

Des travaux portant sur la mesure de l'activation des zones corticales avec une stimulation sonore ont montré que le traitement cortical d'un signal de parole était très différent des versions 'avant' et 'arrière'. Le signal de parole émis à l'envers (par rapport au temps) n'était pas traité par le cerveau comme un signal de parole.

La mesure de la TMTF semble donc insuffisante pour évaluer les capacités des sujets implantés à analyser l'enveloppe du signal.

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"L'imagination est plus importante que le savoir"   Albert Einstein