Audio Authoring für MPEG-H

MPEG-H Audio ist ein interaktives, immersives Audioformat, mit dem du hochgradig personalisierbare Klangerlebnisse kreieren kannst. Das vom Fraunhofer-Institut für Integrierte Schaltungen (Fraunhofer IIS) entwickelte Format ermöglicht es, während des Produktionsprozesses verschiedene Personalisierungsoptionen festzulegen, wie z. B. die Positionierung von Objekten, einstellbare Dialoglautstärke, anpassbare Audiodeskription und sogar mehrsprachige Inhalte. Die Zuschauenden können diese dann nach ihren eigenen Vorlieben gestalten.

Preparing the Project for MPEG-H Audio

Sobald du die Grundeinstellungen festgelegt hast, ist es ganz einfach, eine MPEG-H Audio-Produktion zu erstellen. Die Sample-Rate muss 48 kHz oder 96 kHz betragen, die ASIO-Puffergröße 512 oder 1.024 Samples und der 3D-Pan-Modus muss auf 3-Layer eingestellt sein. Jede Nuendo-Spur kann eine MPEG-H-Komponente (Objekt oder Bed) sein. Es ist ratsam, die Audiospuren oder Stems, die du als Komponenten zuweisen möchtest, in Untergruppen zu organisieren. Mit dem Renderer für MPEG-H kannst du die Metadaten-Parameter konfigurieren, Änderungen in Echtzeit abhören und diese Einstellungen dann als MPEG-H ADM- oder MPEG-H Master-Datei exportieren. Der Renderer muss in den Main-Mix-Ausgangsbus eingefügt werden, der dem größten Lautsprechersetup entsprechen sollte, das dein Studio unterstützt. Ein Setup-Assistent hilft dir dabei, die Session für dein MPEG-H Audio-Projekt mit wenigen Klicks vorzubereiten. Dies umfasst die wichtigsten Parameter und das grundlegende Routing, eine kanalbasierte Bed-Komponente und ein MPEG-H-Preset.

    Konzepte für Scene Authoring

    Das interaktive, personalisierte Hörerlebnis ist ein Hauptmerkmal von MPEG-H Audio, wofür eine Reihe von Metadaten erforderlich sind. Musik und Effekte sind in der Regel in einem Bed-Mix enthalten. Weitere Audioobjekte können so konfiguriert werden, dass sie sich frei im Raum bewegen und von der zuschauenden Person selbst angepasst werden können. So können z. B. Sportveranstaltungen über einen Hauptkanal verfügen, zu dem zusätzliche Audioobjekte hinzugefügt werden, um den Hauptkommentar in anderen Sprachen oder Content der verschiedenen Teams wiederzugeben. Die Optionen für die User reichen von einfacher Interaktion über einen einzigen Tastendruck auf der Fernbedienung bis hin zur komplexeren Steuerung von Audioobjekten, die im erweiterten MPEG-H Audio-Menü aktiviert werden können. Eine MPEG-H Audio-Szene besteht aus Presets, Komponenten und Switch Groups.

      Presets

      Die wichtigste Personalisierungsfunktion für End-User ist das Preset – eine Kombination aus Komponenten, Switch Groups und ihren jeweiligen Pegeln. Eine mit dem Renderer erstellte Szene kann zwischen einem und acht Presets enthalten, wobei das erste Preset immer der Standard-Audiomix mit neutralen Gain-Einstellungen ist. Ein Sportevent könnte z. B. mit drei Presets präsentiert werden – "Default" für die Standardkonfiguration, "Dialog+" für verbesserte Sprachverständlichkeit und "Venue“ für den reinen Stadionsound. Die Bezeichnungen der Presets können vom Content Creator frei gewählt werden und werden auf dem Bildschirm des End-Users angezeigt.

      Komponenten

      Komponenten sind die kleinsten adressierbaren Einheiten in einer MPEG-H Audio-Szene. Die Anzahl der Audiokanäle, aus denen eine Komponente besteht, hängt von der Art der Audiospur ab, die ihr zugewiesen wurde. Wenn du einem Objekt im ADM-Editor eine Monospur zuweist, wird eine Komponente erzeugt, die aus einem einzigen Audiosignal besteht, während eine 5.1+4-Multi-Objekt-Komponente aus einem 10-Spur-Audiosignal gebildet wird. Kanalbasierte Komponenten – auch Beds genannt – sind üblicherweise die Repräsentation eines Gruppenkanals, auf den alle Automatisierungen bereits angewendet wurden. Der andere Komponententyp ist das Audioobjekt, dessen Position durch Positionsmetadaten bestimmt wird, die zusammen mit dem Audio-Content übertragen und vom Abspielgerät interpretiert werden.

      Switch Groups

      Switch Groups enthalten Komponenten mit Eigenschaften, zwischen denen die zuschauende Person wählen kann. Dies kann z.B. eine Kommentarspur in mehreren Sprachen sein, wobei die gewünschte Sprache manuell gewählt oder vom Abspielgerät automatisch eingestellt werden kann. Über ein Dropdown-Menü kannst du die gewünschten Komponenten einer Switch Group zuweisen.

      Interaktivität

      Mit MPEG-H kannst du verschiedene Optionen für erweiterte Interaktivität integrieren, z. B. die Anpassung der Wiedergabelautstärke eines Objekts in einem einstellbaren Bereich oder die Unterstützung mehrerer Sprachen. Komponenten- und Preset-Labels können in verschiedenen Sprachen angelegt werden, wobei du bis zu vier Label-Sets zu einer MPEG-H-Authoring-Session hinzufügen kannst.

      Mixing

      Monitoring

      Das Monitoring von Objekten und Beds erfolgt über den Renderer für MPEG-H. Dieser bietet eine Vorschau der Presets und Interaktivitätseinstellungen und ermöglicht es dir, deine Audio-Szene auf verschiedenen Lautsprecher-Anordnungen anzuhören, einschließlich binauraler Wiedergabe. Die Monitoring-Registerkarte emuliert die Wiedergabeoptionen auf Konsumentenseite, d. h. keine der Einstellungen hat Auswirkungen auf die exportierte Datei, sondern betrifft nur das Monitor-Rendering. Für eine korrekte Wiedergabe und einen lautheitskompensierten Preset-Wechsel solltest du vor der Wiedergabe eine Lautheitsmessung durchführen.

        Panning

        MPEG-H eröffnet neue Möglichkeiten für immersives Panning, einschließlich vertikaler Positionen unterhalb des Zuhörers. Das Panning von Objekten kann immer dreidimensional erfolgen, sogar bei einem Stereo-Master-Bus. Wenn der 3D-Pan-Modus im Projekt-Setup auf 3-Layer eingestellt ist, visualisiert der VST MultiPanner alle drei Ebenen. Während das Panning in Nuendo in einem virtuellen Raum stattfindet, werden die Panning-Werte im Renderer für MPEG-H (und der daraus resultierende ADM-Export) anhand von Azimut und Elevation berechnet. Die Umrechnung zwischen den beiden Konzepten erfolgt in Echtzeit.

          Downmix

          MPEG-H-Audio Content kann auf vielen verschiedenen Geräten in unterschiedlichen Formaten wiedergegeben werden – von einem vollständig immersiven Lautsprechersystem bis hin zu einem binauralen Downmix über Kopfhörer. Das Gerät führt einen Downmix von immersiven Inhalten durch, wobei das eingebaute MPEG-H Audio-System Kanäle und Objekte automatisch entsprechend rendert. Die aktuellen Downmix-Einstellungen können über die Monitoring-Seite des Renderers für MPEG-H überprüft werden. Diese Einstellung simuliert nur die Verarbeitung durch das Abspielgerät des Endnutzers und hat keine Auswirkungen auf die exportierte Datei.

            Lautheit

            Lautheits-Metadaten sind ein wichtiger Bestandteil jeder MPEG-H Audio-Szene. Der Renderer für MPEG-H berechnet die Lautheit für jedes Preset und bettet sie in die Metadaten ein. Im Abspielgerät passt der Decoder dann die Wiedergabelautstärke entsprechend an, um einen Preset-Wechsel ohne Lautstärkesprünge zu gewährleisten. Die Lautstärke-Registerkarte gibt dir Informationen über die Lautstärkewerte der Komponenten und Presets in der Szene.

            MPEG-H Export

            Sobald das Authoring und Monitoring einer MPEG-H Audio-Szene abgeschlossen ist, kann der Mix mit Metadaten entweder im MPEG-H BWF/ADM (Broadcast Wave Format mit eingebetteten Audio Definition Model-Metadaten) oder MPF (kurz für MPEG-H Production) Format exportiert werden. Du kannst auch einen Channel Mix exportieren, der ein kanalbasiertes Rendering des ersten Presets der MPEG-H-Szene erstellt. Hierbei handelt es sich um eine Stereo-PCM-Datei, die keine Metadaten des MPEG-H-Formats enthält.