WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Amélioration de la performance de TCP dans les réseaux mobiles ad hoc.

( Télécharger le fichier original )
par Yassine DOUGA
Université dà¢â‚¬â„¢Oran 1 Ahmed Ben Bella  - Doctorat  2016
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

CHAPITRE III : APPROCHES POUR L'AMELIORATION DE TCP DANS UN ENVIRONNEMENT SANS FIL

Nous définissons l'espace des états S comme : S = UN x BN.

b) Les actions du système

Nous définissons les actions séquentielles par : {at} pour (t=0, 2, 3..) où l'action at est une décision prise à l'instant `t'. L'ensemble des actions pour un état donné est A(S)= {Asbw, Aubw} ou l'action Asbw sert à sélectionner une valeur de débit par rapport à la qualité vidéo VQt relativement au facteur d'utilisateur UFil. L'action Aubw sert à remplacer et mettre à jour la dernière valeur de débit (par rapport au feedback de l'utilisateur) en fonction des feedbacks (table 6) afin d'être considérée dans les prochaines adaptations.

c) La transition des états

La transition des états entre st à st+1 est déterminée par rapport au facteur UFil et au débit disponible à l'instant t.

La probabilité de transition peut être obtenue à l'aide de la formule suivante :

Pat(St, St+1) = {St+1|St, at}

= {(UFt+1 , BWt+1)|(Rt, BWt) , at} 3.7

= {UFt+1 |UFt , UFt+1 = at}Pr{ BWt+1| BWt}

Pr {St+1 | St, at} peut être obtenu comme suit : Connaissant le débit BWt qui a permis de télécharger le segment en cours, nous pouvons estimer la probabilité de distribution du débit BWt+1du prochain segment en utilisant la matrice de transition du modèle de Markov.

Pr {Rt+1| Rt, Rt+1=at} est calculé par rapport à l'action at.

d) La fonction de récompense

Les récompenses sont associées aux états décisionnels en fonction de l'action choisie. Dans notre approche, nous souhaitons maximiser la satisfaction de l'utilisateur. A cet effet, nous avons appliqué la fonction de récompense sur le MOS des utilisateurs (QoE).

Dans un MDP, la récompense est le gain obtenu quand une action particulière est réalisée avec succès. Dans notre cas, nous nous concentrons uniquement sur la fonction de récompense qui capte la satisfaction des utilisateurs pour les valeurs de débit accessibles.

= RQt(St = s) 3.8

3.10

CHAPITRE III : APPROCHES POUR L'AMELIORATION DE TCP DANS UN ENVIRONNEMENT SANS FIL

RQt calcule la récompense de l'état lorsque l'action at est exécutée. Ce pourcentage est calculé en fonction du feedback de l'utilisateur.

La table 8 liste les différentes valeurs (pourcentage) de récompense pour les différents états selon les valeurs du MOS :

MOS

Récompense

1

20%

2

10%

3

0%

4

-10%

5

-20%

Table 8 : Pourcentage de récompense par rapport au MOS

La valeur maximale de récompense est obtenue lorsque le taux VQt + 1 satisfait le débit adapté BWt+1 en fonction des facteurs d'utilisation. Formellement cela se traduit par :

VQt+1 = BWt+1VQt+1 est la qualité de la vidéo à l'instant t+1 et BWt+1 ? B est le débit estimée du lien.

Enfin, nous pouvons formuler le problème d'adaptation utilisant les paramètres de TCP comme un problème d'optimisation. L'objectif est de trouver une politique optimale ð(s) pour une action exécuté à l'état St, de sorte que la récompense soit maximisée.

Nous résolvons notre PDM par l'algorithme du Q-Learning dans lequel l'acquisition des connaissances (les perspectives de gains et des transitions d'état de l'environnement) est obtenue par interaction avec l'environnement. Dans le Q-Learning, une Q-fonction est utilisé pour mesurer la qualité d'une combinaison (état-action), sur la base des gains perçus.

Considérons Qð (st, at), l'état-action et la fonction de qualité de st à l'état final ST :

(St, at) = Q(St, at) + ar + y max Q (St+1, me t) - Q (St, at)] 3.9

Où E [0 ; 1] et ãE [0 ; 1] sont respectivement le taux d'apprentissage et le facteur de discount.

Pour toutes les transitions des états obtenu entre l'état s jusqu'à l'état S, nous calculons les récompenses prévues pendant l'exécution de l'action a. Ensuite nous déduisons les récompenses optimales en sélectionnant l'action qui nous permet d'atteindre

104

105

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Aux âmes bien nées, la valeur n'attend point le nombre des années"   Corneille