Creación de audio para MPEG-H

MPEG-H Audio es un formato de audio interactivo y envolvente que permite crear experiencias sonoras altamente personalizables. Desarrollado por el Instituto Fraunhofer de Circuitos Integrados (Fraunhofer IIS), el formato permite especificar diversas opciones de personalización durante el proceso de producción, como el posicionamiento de objetos, el volumen ajustable de los diálogos, la descripción de audio personalizable e incluso el contenido multilingüe. De este modo, los espectadores pueden adaptar estas opciones a sus preferencias.  

Cómo preparar el proyecto

Una vez establecidos los ajustes básicos, es muy fácil crear una producción de MPEG-H Audio. La frecuencia de muestreo debe ser de 48 kHz o 96 kHz, el tamaño del búfer ASIO de 512 o 1.024 muestras y en el modo de panorama 3D deben configurarse tres capas. Cualquier pista de Nuendo puede convertirse en un componente MPEG-H (objeto o bed). Se recomienda organizar en subgrupos las pistas de audio o stems que desees asignar como componentes. El Renderer for MPEG-H permite configurar los parámetros de metadatos, controlar los cambios en tiempo real y luego exportar estos ajustes como un archivo MPEG-H ADM o MPEG-H Master. El Renderer debe insertarse en el bus de salida de la mezcla principal, que debe corresponder a la configuración de altavoces más grande que admita tu estudio. También dispones de un Asistente de configuración que te permite preparar con pocos clics la sesión para un proyecto de MPEG-H Audio. Incluye los parámetros más importantes y el enrutado básico, un componente de bed basado en canales y un preset MPEG-H.

    Conceptos para la creación de escenas

    La experiencia interactiva y personalizada es una característica clave de MPEG-H Audio. Para ello se requieren una serie de metadatos. La música y los efectos suelen incluirse en una mezcla de bed. Otros objetos de audio pueden configurarse para moverse libremente por la sala y ser personalizados por el espectador. Por ejemplo, los eventos deportivos pueden tener un canal principal al que se añaden objetos de audio adicionales para reproducir el comentario principal en otros idiomas o los contenidos de los distintos equipos. Las opciones del usuario van desde la simple interacción presionando un solo botón en el mando a distancia hasta un control más complejo de los objetos de audio que pueden activarse en el menú avanzado de MPEG-H Audio. Una escena de MPEG-H Audio consta de presets, componentes y switch groups.

      Presets

      La función de personalización más importante para el usuario final es el preset, una combinación de componentes, switch groups y sus respectivos niveles. Una escena creada con el Renderer puede contener entre uno y ocho presets, siendo el primero de ellos siempre la mezcla de audio predeterminada con ajustes de ganancia neutros. Por ejemplo, un evento deportivo podría presentarse con tres presets: "Default" para la configuración estándar, "Dialog+" para mejorar la inteligibilidad de la voz y "Venue" solo para el sonido ambiente. El creador de contenidos puede elegir libremente los nombres de los presets, que se muestran en la pantalla del usuario final.

      Componentes

      Los componentes son las unidades direccionables más pequeñas de una escena de MPEG-H Audio. El número de canales de audio que forman un componente depende del tipo de pista de audio que le asignes. Si asignas una pista mono a un objeto en el Editor de ADM, se crea un componente formado por una única señal de audio, mientras que un componente multiobjeto 5.1+4 se forma a partir de una señal de audio de 10 pistas. Los componentes basados en canales —también llamados beds (camas)— suelen ser la representación de un canal de grupo al que ya se han aplicado todas las automatizaciones. El otro tipo de componente es el objeto de audio. Su posición viene determinada por los metadatos de posición que se transmiten con el contenido de audio y que interpreta el dispositivo de reproducción. 

      Switch groups

      Los switch groups contienen características entre las que el espectador puede elegir. Puede tratarse, por ejemplo, de una pista de comentarios en varios idiomas en la que el idioma deseado puede seleccionarse manualmente o establecerse automáticamente por el dispositivo de reproducción. Puedes asignar los componentes deseados a un switch group mediante un menú desplegable.

      Interactividad

      MPEG-H Audio permite integrar varias opciones para una interactividad avanzada, como ajustar el volumen de reproducción de un objeto dentro de un rango ajustable e incluir varios idiomas. Puedes crear etiquetas de componentes y presets en varios idiomas y añadir hasta cuatro conjuntos de etiquetas a una sesión de creación de MPEG-H.

      Mezcla

      Monitorización

      La monitorización de objetos y beds se realiza a través del Renderer for MPEG-H. Esto te proporciona una vista previa de los presets y los ajustes de interactividad, y te permite escuchar la escena de audio en diferentes configuraciones de altavoces, incluida la reproducción binaural. La pestaña de monitorización emula las opciones de reproducción del consumidor, es decir, ningún ajuste afecta al archivo exportado, sino solo al renderizado en el monitor. Para obtener una reproducción correcta y unos switch groups compensados por la sonoridad, es necesario realizar una medición de la sonoridad antes de la reproducción.

        Panoramización

        MPEG-H abre nuevas posibilidades de panoramización inmersiva, incluidas las posiciones verticales por debajo del oyente. La panoramización de objetos siempre puede hacerse en tres dimensiones, incluso con un bus Máster estéreo. Si en el modo de panorama 3D en la configuración del proyecto has configurado tres capas, el VST MultiPanner mostrará tres capas. Mientras que la panoramización en Nuendo tiene lugar en un espacio virtual, los valores de panoramización en el Renderer for MPEG-H (y la exportación ADM resultante) se calculan con el azimut y la elevación. La conversión entre ambos conceptos se realiza en tiempo real.

          Downmix

          El contenido de MPEG-H Audio puede reproducirse en muchos dispositivos diferentes y en distintos formatos: desde un sistema de altavoces totalmente envolvente hasta un downmix binaural a través de auriculares. El dispositivo genera un downmix de los contenidos inmersivos, mientras que el sistema MPEG-H Audio integrado renderiza automáticamente los canales y los objetos según convenga. Este ajuste solo simula el procesamiento que realizará el dispositivo de reproducción del usuario final y no tiene ningún efecto sobre el archivo exportado. Este ajuste solo simula el procesamiento que realizará el dispositivo de reproducción del usuario final y no tiene ningún efecto sobre el archivo exportado.

            Sonoridad

            Los metadatos de sonoridad son una parte importante de cualquier escena de MPEG-H Audio. El Renderer for MPEG-H calcula la sonoridad de cada preset y la incorpora en los metadatos. En el dispositivo de reproducción, el descodificador ajusta el volumen de reproducción de forma correspondiente para garantizar un cambio de preset sin saltos de volumen. La pestaña de la sonoridad ofrece información sobre los valores de sonoridad de los componentes y presets de la escena.

            Exportación de MPEG-H

            Una vez finalizada la creación y monitorización de una escena de MPEG-H Audio, puedes exportar la mezcla con metadatos en formato MPEG-H BWF/ADM (Broadcast Wave Format con metadatos Audio Definition Model incrustados) o MPF (abreviatura de MPEG-H Production). También puedes exportar una mezcla de canales. Esto creará un renderizado basado en canales del primer preset de la escena MPEG-H. Se trata de un archivo PCM estéreo que no contiene metadatos en formato MPEG-H.