Création de contenus audio pour le MPEG-H

Le MPEG-H Audio est un format audio immersif interactif qui permet de créer des expériences sonores fortement personnalisables. Développé par le Fraunhofer-Institut für Integrierte Schaltungen (ou Fraunhofer IIS, la branche Circuits Intégrés de l'institut Fraunhofer), il permet de définir des options de personnalisation pendant le processus de production en MPEG-H Audio, notamment la position des objets, les niveaux réglables des dialogues, l'audio description personnalisable et même la programmation multilingue. Les spectateurs pourront ensuite ajuster ces paramètres selon leurs préférences.

Préparation d'un projet en MPEG-H Audio

Une fois les paramètres initiaux réglés, la création d'une production en MPEG-H Audio est simple. La fréquence d'échantillonnage doit être 48 ou 96 kHz, la taille du tampon ASIO (buffer) doit correspondre à 512 ou 1024 échantillons et le mode de panoramique 3D doit compter 3 niveaux. Chaque piste de Nuendo peut être un composant (objet ou lit audio) du format MPEG-H. Il est conseillé d'organiser les pistes audio ou les stems à assigner en tant que composants dans des sous-groupes. Le plugin Renderer pour le MPEG-H vous permet de configurer les paramètres des métadonnées, de surveiller les changements en temps réel puis d'exporter ces réglages sous forme de modèle ADM MPEG-H ou de fichier Master MPEG-H. Le Renderer doit être inséré dans le bus de sortie du Main Mix, celui-ci devant correspondre à la plus grosse configuration d'enceintes possible dans votre studio. Un assistant de configuration vous aide à préparer les séances d'un projet MPEG-H Audio en quelques clics, notamment les paramètres essentiels plus le routing de base, un lit audio basé sur des canaux et un preset MPEG-H.

    Concepts de création de scène en MPEG-H

    Le but du format MPEG-H Audio est d'offrir une expérience interactive et personnalisée, ce qui nécessite toute une série de métadonnées. On mixe généralement la musique et les effets dans un lit audio, après quoi on peut configurer les objets sonores supplémentaires pour qu'ils se déplacent librement dans l'espace et pour qu'ils puissent être personnalisés par l'utilisateur final. Ainsi, les manifestations sportives peuvent par exemple disposer d'un canal principal auquel s'ajoutent des objets sonores qui permettent au spectateur de choisir le commentaire principal dans différentes langues, les contenus provenant des différentes équipes et plus encore. Pour le spectateur, les possibilités vont de l'interactivité simple par pression sur un bouton de la télécommande jusqu'au contrôle plus complexe des éléments sonores qui peuvent être activés dans le menu d'interactivité avancée du format MPEG-H Audio. Une scène en MPEG-H Audio est composée de presets, de composants et de groupes de commutation.

      Presets

      Pour l'utilisateur final, le moyen de personnalisation le plus important est le preset qui rassemble des composants, des groupes de commutation et leurs niveaux respectifs. Une scène créée dans le plugin Renderer peut contenir un à huit presets, le premier d'entre eux correspondant au mix audio par défaut avec des réglages de gain neutres. À titre d'exemple, une manifestation sportive pourrait être présentée avec trois presets : « Défaut » pour la configuration standard, « Dialogue+ » pour une meilleure intelligibilité et « Lieu » pour l'ambiance uniquement. Le créateur du contenu peut choisir librement les noms de preset qui s'afficheront sous forme d'incrustations pour l'utilisateur final.

      Composants

      Les composants sont les plus petites unités adressables d'une scène en MPEG-H Audio, le nombre de canaux audio par composant étant dépendant du type de piste audio qui lui est assigné. Une piste mono assignée à un objet dans l'éditeur de modèle ADM forme un composant constitué d'un seul signal mono, tandis qu'un composant multi-objet 5.1+4 sera formé d'un signal audio 10 pistes. De façon générale, les composants basés sur les canaux – aussi appelés lits audio – sont la représentation d'un groupe dont toutes les automatisations ont été appliquées en amont du Renderer. L'autre type de composant est l'objet audio. Sa position est déterminée par les métadonnées de position transmises avec le contenu audio et interprétées par l'appareil de restitution.

      Switch Groups

      Les groupes de commutation fournissent aux composants des caractéristiques que le spectateur doit choisir. Par exemple, une piste de commentaires multilingue dans laquelle l'utilisateur final ou l'appareil de restitution peut choisir la langue à utiliser. Un menu déroulant permet d'assigner les composants sélectionnés au groupe de commutation.

      Interactivité

      On peut ajouter des options d'interactivité avancées, par exemple la délimitation du gain de lecture d'un objet à l'intérieur d'une plage de réglage donnée ou la prise en charge de plusieurs langues. Avec le MPEG-H, on peut configurer la dénomination des composants et des presets dans différentes langues. On peut ajouter jusqu'à quatre jeux de dénominations à une séance de création en MPEG-H.

      Mixage

      Monitoring

      On peut écouter les objets et les lits audio grâce au plugin Renderer pour le MPEG-H. Fournissant une prévisualisation des presets et des réglages d'interactivité, il vous permet d'écouter votre scène audio dans différentes configurations d'enceintes, dont le son binaural. L'onglet Monitoring simule les options de lecture du spectateur pour que les réglages affectent uniquement le rendu d'écoute et pas le fichier exporté. Il est conseillé d'effectuer une mesure du volume sonore avant de lancer la lecture pour une restitution sonore correcte et des changements de preset à volume compensé.

        Panoramique

        Le format MPEG-H ouvre de nouvelles perspectives en matière de panoramique immersive, notamment des positions verticales sous l'auditeur. Les objets peuvent toujours être répartis dans trois dimensions, même avec un bus Master stéréo. Lorsque le mode de panoramique 3D est paramétré sur 3 niveaux dans la configuration du projet, le MultiPanner VST permet de visualiser les trois niveaux. Alors que la panoramique de Nuendo s'effectue dans une pièce virtuelle, les valeurs de panoramique dans le Renderer pour le MPEG-H (et dans le modèle ADM exporté qui en résulte) sont calculées à l'aide de l'azimut et de la hauteur. La conversion entre ces deux modèles est réalisée en temps réel.

          Mixage

          Les contenus en MPEG-H Audio peuvent être restitués avec de nombreux appareils dans différents formats, de la configuration d'enceintes entièrement immersive au son binaural pour casque. L'appareil effectuera un mixage du contenu immersif, son système MPEG-H Audio intégré générant automatiquement le rendu correct des canaux et des objets. On peut prévisualiser les réglages actuels du mix dans la page de monitoring du Renderer pour le MPEG-H. Ce paramétrage ne fait que simuler le traitement qui sera effectué par l'appareil de restitution du spectateur et n'a aucun effet sur le fichier exporté.

            Loudness

            Les métadonnées de volume sonore (loudness) sont un aspect important de n'importe quelle scène en MPEG-H Audio. Le plugin Renderer pour le MPEG-H calcule le volume de chaque preset et l'intègre dans les métadonnées. Le décodeur de l'appareil de restitution ajustera le volume de lecture conformément à ces données pour que les changements de preset n'engendrent pas de sautes de volume. Vous pouvez utiliser l'onglet Loudness pour connaître les valeurs de volume sonore des composants et des presets de la scène.

            Export MPEG-H

            Une fois que la création et le monitoring d'une scène en MPEG-H Audio sont terminés, le mix peut être exporté avec ses métadonnées au format MPEG-H BWF/ADM (format Broadcast Wave avec métadonnées de modèle ADM intégrées) ou au format MPF (abréviation de Production en MPEG-H). Vous pouvez aussi exporter un mixage en canaux qui crée le rendu à base de canaux du premier preset de la scène en MPEG-H. Il s'agit ici d'un fichier PCM stéréo ne contenant aucunes métadonnées du format MPEG-H.