Quels sont les enjeux de l'audio orienté objet ?

par Axel MORVAN
ESRA Rennes - Institut Supérieure des Techniques du Son 2003

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

1.3.3 Audio «Orienté Objet» (Object Based)

Un objet désigne un son seul, ayant une position sous forme d'azimut et d'élévation, connaissant une variante temporelle, qui se déplace dans la scène sonore. Ils peuvent être plusieurs à constituer une scène. Étant un format indépendant du système d'écoute, l'ambisonique peut être exporté en object based. Chaque objet possède son canal de mixage et ses métadonnées. En plus des données de position, des paramètres sur la taille de l'objet donnant un son plus ou moins directif sont possible. Le moteur de rendu recevra alors l'info d'envoyer le son à l'enceinte la plus proche ou à un ensemble d'enceintes. Le paramètre «Object Divergence» allant de 0 à 1 permet la création d'objet fantôme, à 45° (si l'on utilise les coordonnées sphérique) à gauche et à droite de l'objet d'origine. C'est le même principe que le potentiomètre «center%» dans le pan 5.1 de Pro Tools.

Chaque audio décrit comporte un identifiant, un code avec des informations sur son format, la localisation du fichier, la langue associée, ou encore la durée du programme, pouvant proposer le même contenu avec plusieurs longueurs selon le temps dont dispose l'auditeur. (Les métadonnées sur la diégèse du son pour du contenu VR ne sont pas spécifiées par l'ADM).

Mots clés: Object Based, ADM, Métadonnées, VR

Sources:

AES Convention Paper «Méthode d'enregistrement en Audio Orienté Objet» le 7 Juin 2016, Paris. Audio Definition Model Recommandation ITU-R BS.2076-2 (10/2019)

L'audio Object Interaction définit les limites de l'interaction accordé à l'auditeur. Si le programme à l'indicateur 1, il accorde une certaine liberté de modification sur le gain ou la localisation des sons.

Si l'interaction sur le gain est autorisée, le sous élément «Audio Object Interaction» donne une intervalle limite ou une liberté totale. L'auditeur pourra si il le souhaite, n'entendre que l'ambiance du match par exemple.

Si l'interaction sur la position est autorisée, le sous élément «Audio Object Interaction» donne une intervalle limite sur l'azimut, l'élévation et la distance (données Sphériques ou Cartésiennes).

1.4 Fonctionnalités de l'ADM

1.4.1 Les Fonctions d'adaptations de l'ADM

Une fois l'audio référencé, plusieurs paramètres entrent également en compte. La «Zone d'exclusion» définit les différentes limites de l'espace 3D (avec des données cartésiennes X,Y,Z) afin de masquer dynamiquement les points de sources à ne pas utiliser pendant la lecture. Les données nommées «Audio Programme Reference Screen», elles, indiquent les références de l'écran utilisé par le créateur de contenu. Ces coordonnées (Polaire ou cartésiennes) peuvent influer sur la spatialisation, et permettent l'adaptabilité spatiale du projet. Si par exemple le contenu contient l'indicateur «ScreenRef Flag», informant que l'audio Orienté Scène (Scene Based) est lié à la taille de l'écran, le moteur de rendu adaptera la scène au système de la salle recevant le contenu.

Pour ce qui est de l'adaptation d'un contenu en Binaural, la fonction «Head Locked» (illustrée en Annexe 3 Figure A9) définie si un objet doit bouger en fonction des mouvements de tête (ambiance par exemple), ou ne pas en prendre compte (voix off par exemple). Le contenu pourra être binauralisé par le moteur de rendu, donnant à l'auditeur le choix du ratio champs direct/champs réverbéré de l'acoustique virtualisé, et pourquoi pas des HRTF. La mesure du Loudness est effectuée avec la norme recommandée ITU-R BS.1770 fonctionnant pour les formats mono, stéréo, et multicanaux.(cf Annexe figures A3 et A4)

Mots clés: Interaction, Audio Programme Reference Screen, ITU-R BS.1770, Matrice, Binaural

La norme EBU R128 est quant à elle utilisée pour le «Loudness Rec Type, afin d'indiquer quelle pratique a été suivie dans la correction du Loudness»; et enfin le «Loudness Correction Type» comment l'audio a été corrélé (temps réel ou hors ligne).

Une matrice divisée en trois segments interconnectés (partie encodage, décodage et direct) effectuera les downmix/upmix, en se servant de la base de données et des identifiants de chaque piste. Des valeurs de gain et de déphasage peuvent être constantes ou variables pour permettre au moteur de rendu d'ajuster ces valeurs, possiblement avec une autre source de métadonnées. Des sous-éléments sont également disponibles pour choisir la définition de la conversion. Une fois que le contenu est au format ADM, tout l'audio est encapsulé dans un fichier BWF (Broadcast Wave Format), un simple fichier WAV contenant nos metadata XML.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Il faudrait pour le bonheur des états que les philosophes fussent roi ou que les rois fussent philosophes" Platon