WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Préservation de l'enveloppe temporelle pour la compression du signal de parole

( Télécharger le fichier original )
par Stéphane GALLEGO
Université Lyon I -  1998
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

ASPECTS ACOUSTICO-PHONETIQUES

Une fréquence de fluctuation de 4 Hz correspond à la fréquence d'occurrence des syllabes ou des mots dans la parole continue. La perception des ces fluctuations d'amplitude lentes jouent donc un rôle certain dans la délimitation des unités linguistiques (voyelles, syllabes ou mots).

Ces fluctuations d'enveloppe sont également impliquées dans plusieurs distinctions phonétiques importantes. Une différence de force sonore peut nous renseigner sur la présence ou l'absence de voisement produit par la vibration des cordes vocales au moment de l'articulation. Elle permet ainsi la distinction entre consonnes sonores et sourdes (/b/ versus /p/, par exemple). Une différence d'attaque nous informe également sur la nature fricative ou affriquée (4/ versus hl, par exemple) des consonnes. Finalement, plusieurs études ont montré que la reconnaissance des signaux de parole pouvait être effectuée sur la base des indices d'enveloppe temporelle.

Table 4-1.

Assignment of consonant features

 
 
 

Consonant

Voicing

Nasalité

Frication

Duration

Place

Envelope

m

2

2

I

1

1

4

n

2

2

1

1

2

4

f

1

1

2

1

1

3

V

2

1

2

1

1

2

s

1

1

2

2

2

3

I

1

I

2

2

3

3

a

2

1

2

1

1

2

z

2

1

2

2

2

2

P

1

1

1

1

1

I

b

2

1

1

1

1

2

t

1

1

1

1

2

I

d

2

1

1

1

2

2

k

1

1

1

1

4

1

g

2

I

1

I

4

2

d3

2

1

2

1

3

2

I

2

1

1

1

2

4

Figure 18 : Decomposition des consonnes en partie élémentaires indissociable qu'est le trait phonétique. L'enveloppe, la durée et le voisement (voicing) sont des traits définis uniquement par des caractéristiques temporelles. D'après Wilson et al, 1990.

 
 

b. 'a ta'

1 2 3 0lI

 
 
 
 

70 Cc/ J3 .74 lel le

 
 

c. 'a no' d ma'

e. 'a wa'

f. 'a yo'

 
 

g. 'a snc'

h. 'a cha'

 

i. 'a tha'

13g4ÎIL0.400J,

Figure 19 : Exemple de

l'amplitude de l'enveloppes sur 9 consonnes comprise entre deux voyelles. D'après Summerfield, 1985

Katz et Berry (1971), Van Tassel et al (1987), et plus récemment Shannon (1995) ont obtenu d'excellents scores d'intelligibilité de la parole en modulant des bruits blancs ou des bandes de bruits par l'enveloppe de signaux de parole.

100

80

ir7--

U

CJ -

a. 20

°F Consonants Vowels Sentences

1 2 3 1 1 2 3 4 1 2 3 4

Number of bands

A

4

C

g, 40 r

g. 20 67A1°

73 l-

'

LI/

Vcicing F Manne

c.:

0 Place

f

2 3 4 1 2 3 4 1 2 3
Number of bands

Figure 20 : Reconnaissance des

consonnes, voyelles et phrases chez huit sujets normo-entendants en fonction du nombre de bandes de bruits filtrés à la place de la structure fine du signal. D'après Shannon et al, 1995

a

o

u

Y

10

90

10

10

70

10
10
50

90

50

10

90

50

50
90
10

10

90

a

en o

D

e

I--

y

25133142

IIIIIIIIIIII

RESPONSE

r

m

n
,j

b

d

g
p

k

h sh

s

RESPONSE

I rmnj vbdgp t k h shs f

501

 

3

16

13316 1

13 1

I I

1

 

1 1 1

 

I

 

94

 
 

6

 
 
 
 
 
 
 
 
 

42

53

6

 
 
 
 
 
 
 
 
 

17

72

11

 
 
 
 
 
 
 
 

14

 
 

22

44 14

 
 
 
 
 
 
 
 
 

11

6

14 53

3

3

 
 
 
 

11

 
 
 
 

6

8 22

42

14

8

 
 
 
 
 
 
 
 

6

8

11

61

8

 
 

3

3

 
 
 
 
 

6 8

6

 

81

 
 
 
 
 
 
 
 
 
 
 

3

6

67

3

11

 
 
 
 
 
 

3

3

 

19

47

17

3

 
 
 
 
 
 
 

3

8

19

69

 
 
 
 

6

8

 
 
 
 
 
 
 

86

 
 
 
 
 
 
 
 
 
 
 

6

89

 

6

 
 
 
 
 
 
 
 
 

22

56

22

Figure 21 : Reconnaissance sans lecture labiale des voyelles et consonnes chez un groupe de
six sujets porteur d'un implant cochléaire mono-électrode Vienna de 3M
D'après Hochmair et Hochmair-Desoyer, 1985.

RESPONSE

cn

D

--1 s

D sh

20 13

F-- ch

z 7 7 rn

d

bdgp 1001

7 60 33

20 80

60 33 7 7 80 7

20 80

20 13

7

111111111113 1

k s sh th ch z rn n n 1 y

1111111

100

13 47 7

7 53:27

20 60

13

7 7

7 13

47 13 7

27 60 7..«

I 187

1

7

7

100

7 93

40 20

Figure 22 : Reconnaissance sans lecture labiale des consonnes chez un groupe de trois sujets porteur d'un implant cochléaire Inaired à quatre canaux. D'après Dorman et al, 1990.

RESPONSE RESPONSE

bdgp t ksshthchz mn
· I b d g k s sh th ch z nv I y

b 51 120

1 6

 

13 13

 

601201

 
 
 

d 14 48

28

 
 

d

40 20

 
 

40

g 3 31

48

6

3 9

 
 

20 40

20

 
 

20

P

 

46

43_6

 
 
 
 
 
 
 

100

t --

 

23

28 46

 
 
 
 

80

20

 
 

k 3

 

1 1

26 57

3

 
 
 
 
 
 
 

60

.1 6

3

17

6

26 14

6 6


·

 
 
 

4800

20

sh

 
 

97

3


·

 
 

100

 

th 20 3

3 9

 

17 37

3 3

th

40 20

 
 

20 20

 
 
 
 

83

ch

 
 

20

60 20

z 6

 

3 3

 

60 14 3

z

 
 
 

80 20._

in 1 3

 

3

60

6 20

 
 
 
 

20 40

40

 
 
 

14:57

14 14

 
 
 
 

20 60

20

 
 
 

74 17

 
 
 
 
 

100

 
 
 

6 3

60:23 9

 
 
 

60 20

20

III 1 1 1 1 1 1 1 1 1 I 1100 y

11111111111 002011

 

Les bonnes performances d'intelligibilité de la parole obtenues chez des sujets porteurs d'implants cochléaires mono-électrodes (Hochmair et Hochmair-Desoyer, 1985.) ou du système percutané Inaired à quatre canaux (Dorman et al, 1990) témoignent également de l'importance des indices d'enveloppe dans la compréhension de la parole.

Des études (Lawson, Wilson et Finley, 1992), montrent que l'intelligibilité chez les sujets porteurs de l'implant cochléaire Inaired est fonction du nombres de canaux actifs. Avec six canaux, le score est proche du sans faute.

Voi

.5. Nsl

E- Fric


·7
.3

Dur

Pic

Male

Female

Figure 23 : Identification de la parole et des trait phonétiques en fonction du nombre de canaux utilisés par l'implant cochléaire Inaired. D'après Lawson, Wilson et Finley, 1992

Env

4 3 2 1

Channels

Des comparaisons entre le système Inaired à quatre canaux (qui fait principalement passer des informations temporelles) et le système Nucleus à 20 canaux (qui fait principalement passer des informations tonotopiques) montrent une supériorité dans la discrimination des consonnes (signaux non-stationnaires) pour le système Inaired et au contraire une supériorité du système Nucleus dans la discrimination des voyelles (signaux casi-périodiques) (Tyler RS et al, 1997).

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Nous voulons explorer la bonté contrée énorme où tout se tait"   Appolinaire