MPEG-H Audio オーサリング

Fraunhofer IIS が開発した MPEG-H Audio は、視聴者側でカスタマイズ可能なサウンドコンテンツを作成できる、インタラクティブなイマーシブオーディオ規格です。MPEG-H オーディオでは、オブジェクトの配置、会話のレベル、オーディオの詳細設定、多言語切り替えなどのオプションを制作段階で組み込むことができ、視聴者は個人の好みに合わせてそれらを選択できます。

MPEG-H Audio プロジェクトの制作準備

MPEG-H Audio プロジェクトの制作は、初期設定を済ませれば後は難しくありません。サンプリングレートは 48 kHz または 96 kHz、ASIO バッファーサイズは 512 または 1024 サンプル、3D パンモードは3層に設定します。Nuendo 上のトラックはどれでも MPEG-H コンポーネント(オブジェクトまたはベッド)として用いることができます。コンポーネントとして割り当てたいオーディオトラックやステムをサブグループとして整理しておくと良いでしょう。Renderer for MPEG-H を使ってメタデータの設定やモニターの変更をリアルタイムに行え、これらの設定を MPEG-H ADM または MPEG-H Master ファイルに書き出せます。Renderer はメインミックスの出力バスにインサートし、お使いのスタジオでの最大のスピーカー設定に対応させてください。また設定アシスタントを使い、必須のパラメーターや基本のルーティング、チャンネルベースのベッドコンポーネント、そしてMPEG-H プリセットなどを簡単に設定することもできます。

    MPEG-H Audio シーンオーサリングの概念

    MPEG-H Audio の主眼は個人に合わせたインタラクティブなオーディオ体験であり、このために多くのメタデータが必要になります。音楽や効果音は主にベッドミックスで作成し、追加のオーディオオブジェクトを空間で自由に動かせるようにして、ユーザー(視聴者)側でカスタマイズすることができます。たとえばスポーツイベントで、メインのチャンネルコンポーネントを提供しつつ、追加のオブジェクトにより、実況の吹き替えや別のチームのコンテンツを聞けるようにするなど、用途はさまざまです。ユーザーが行う操作は、リモコンのボタンを一つ押すだけから、より複雑な操作まで、MPEG-H Audio インタラクティビティメニューから有効化できます。MPEG-H Audio シーンはプリセット、コンポーネント、スイッチグループで構成されます。

      プリセット

      ユーザーにとって最も突出したパーソナライズ機能はプリセットでしょう。これはコンポーネント、スイッチグループ、そしてそれらのレベルを組み合わせたものです。Renderer で作られたシーンは1〜8のプリセットを含むことができ、最初がデフォルトのオーディオミックスとニュートラルのゲイン設定になります。たとえばスポーツイベントでは、“Default” として通常設定、“Dialog+” で実況の明瞭度を上げたもの、”Venue” として会場の環境音だけにするという、3つのプリセットで提供することができます。プリセットのラベルは制作者が自由に選べ、ユーザーの画面にも表示できます。

      コンポーネント

      コンポーネントは MPEG-H Audio のシーンで指定できる最小単位です。コンポーネントのオーディオチャンネル数は、割り当てられるオーディオトラックの種類により決められます。ADM エディターで一つのオブジェクトにモノラルトラックを割り当てると、シングルチャンネルのコンポーネントになり、5.1+4 マルチオブジェクトコンポーネントは、10トラックのオーディオシグナルで構成されます。チャンネルベースのコンポーネント(ベッド、ベッズとも呼ばれる)は通常グループチャンネルを表し、レンダラーの前段ですべてのオートメーションが適用されます。もう一つのコンポーネントであるオーディオオブジェクトでは、位置情報がメタデータとしてオーディオコンテンツと共に送信され、再生デバイスによって解釈されます。

      スイッチグループ

      スイッチグループは、多言語での実況放送などのコンポーネントを、ユーザー側で切り替えられるようにするための機能です。ドロップダウンメニューにより、選択したコンポーネントをグループ切り替えの対象に割り当てることができます。

      インタラクティビティ

      高度なインタラクティビティのオプションも含めることができます。たとえば、オブジェクトの再生ゲインの調整範囲や多言語対応などです。MPEG-H ではコンポーネントとプリセットのラベルを多言語で設定可能であり、MPEG-H オーサリングセッションでは最大4組のラベルを設定できます。

      Mixing

      モニタリング

      オブジェクトとベッドは Renderer for MPEG-H を通してモニターされます。プリセットとインタラクティビティ設定をプレビューでき、オーディオシーンを異なるスピーカーレイアウトやバイノーラルで聴くことができます。モニタリングタブではユーザー側の再生オプションを模することができ、書き出すファイルには影響を与えずにモニターのレンダリングにのみ設定を反映させることが可能です。正確な再生とプリセット切り替え時のラウドネス補正のため、再生前にラウドネス測定を実行するのが望ましいでしょう。

        パンニング

        MPEG-H はイマーシブパンニングの新しい可能性を開き、たとえばリスナーの下という定位にも対応します。オブジェクトは常に3D でパンすることができ、ステレオマスターバスと一緒になっても可能です。プロジェクト設定で 3D パンモードを3層にすると、VST MultiPanner が3層を可視化します。Nuendo のパンニングがバーチャルルームで行われているとき、Renderer for MPEG-H と ADM 書き出し結果でのパンニング値は方位と高さを用いて計算されます。二つの概念の変換はリアルタイムで行われます。

          ダウンミックス

          MPEG-H Audio コンテンツは、フル装備のイマーシブスピーカーセットアップからヘッドフォンを使ったバイノーラルダウンミックスまで、さまざまなデバイスで再生できます。それぞれのデバイスに内蔵されたMPEG-H Audio システムが、チャンネルやオブジェクトを適宜自動処理し、イマーシブコンテンツのダウンミックスを再生します。ダウンミックス設定は Renderer for MPEG-H のモニタリングページでプレビューできます。この設定はエンドユーザーの再生デバイスを模するためだけのもので、実際に書き出すファイルには影響を及ぼしません。

            ラウドネス

            MPEG-H Audio シーンではラウドネスメタデータが重要になります。Renderer for MPEG-H はそれぞれのプリセットのラウドネスを計算し、メタデータとして付与します。再生デバイス側ではデコーダーが再生レベルを適宜調整し、プリセットを切り替えたときに音量に急激な変化が起きないようにします。ラウドネスタブには、シーンの中のコンポーネントやプリセットのラウドネス値が表示されます。

            MPEG-H 書き出し

            MPEG-H Audio シーンのオーサリングとモニタリングが完了すると、ミックスはメタデータと共に、MPEG-H BWF/ADM (Broadcast Wave Format と埋め込まれた Audio Definition Model メタデータ) または MPF (MPEG-H Production の略称) フォーマットで書き出せます。また、チャンネルミックスの書き出しを選択すると、MPEG-H シーンにおける最初のプリセットのチャンネルベースのレンダリングを作成します。これはMPEG-H メタデータを含まないステレオ PCM ファイルです。