Objektbasiertes Audio

Von

8. Januar 2014, 0:00

1006

So funktioniert die neue Generation von Surround

Die Erstellung von diskreten Audio-Mischungen für unterschiedliche Lautsprechersetups ist ein arbeitsaufwendiger Vorgang. Objektbasiertes Audio könnte helfen, diesen Prozess wesentlich zu erleichtern.

In Ausgabe 5/2013 der AUDIO TEST berichteten wir über Dolbys neues Tonformat „Dolby Atmos“. Hierbei wurde viel über die neuen Möglichkeiten des Formates geschrieben und welche Folgen sich für Kinos und Heimbenutzer ergeben. Dieses Mal möchten wir näher beleuchten, was eigentlich hinter dem Ansatz „objektbasiertes Audio“ steckt.

Kanaldiskrete Mischungen

Der einfachste und altbekannte Weg ist das Abmischen und speichern zweier getrennter Kanäle. Unsere Überlegungen sind nur für den digitalen Bereich brauchbar, deshalb nehmen wir auch die Audio-CD als Ausgangspunkt für die Erklärung. Hier werden stets zwei Kanäle wiedergegeben, jeweils einer für den rechten und den linken Lautsprecher. Die Mischung wurde erstellt, indem der entsprechende Toningenieur in der optimalen Abhörposition im Stereodreieck saß. Um die Räumlichkeit der Wiedergabe also originalgetreu zu erleben, muss der Endbenutzer sich beim Anhören der Stereomischung also ebenso am idealen Sitzplatz im Stereodreieck befinden.

Nehmen wir nun an, ein Sprecher wird als eine monaurale Geräuschquelle definiert. Soll er ganz rechts im Stereopanorama zu vernehmen sein, würde es also theoretisch ausreichen, die Daten ausschließlich auf dem rechten Kanal zu speichern, für den anderen Extremfall „ganz links“ wäre es umgekehrt. Soll sich der Sprecher nun von rechts nach links bewegen, muss der Toningenieur die Mischung so anlegen, dass sich die Pegel (und Laufzeiten) des Sprechers auf beiden Kanälen anpassen, sodass sich die Phantomschallquelle von rechts nach links bewegt. Beim Anhören funktioniert dieser Effekt natürlich nur einwandfrei, wenn die Lautsprecher optimal platziert sind und der Benutzer sich in Abhörposition befindet. Die Situation ist also sehr unflexibel, die Bewegung der Phantomschallquelle durch Position der Lautsprecher begrenzt. Außerdem sind die nötigen Informationen für die Lokalisation der Phantomschallquelle im Audiomaterial selber verankert – das Ursprungsmaterial wird also dauerhaft verändert.

Objektbasierte Mischungen

Nun versuchen wir, die gleiche akustische Situation darzustellen, lösen uns dabei gedanklich aber von der starren 2.0-Mischung. Stattdessen wird es etwas abstrakter. Nehmen wir an, der zuständige Audioprozessor erstellt einen virtuellen Raum: Vor dem Hörer besteht eine Linie, zwei Meter breit, auf der akustische Ereignisse, in dem Beispiel also unser Sprecher, abgebildet werden sollen. Anstatt der zwei festen Audiokanäle legt der Toningenieur nun folgendes fest: „Ein Objekt (unser Sprecher) bewegt sich auf der vorgegebenen Linie mit folgender Geschwindigkeit. Das Objekt bekommt dabei ein Schallereignis zugewiesen, nämlich seine gesprochenen Worte.“ Das bedeutet, unsere Aufnahme besteht nicht mehr aus zwei Kanälen an Audiomaterial, sondern aus einem Kanal, nämlich der monauralen Sprache plus den Metainformationen, welche Position und Bewegung des Objektes beschreiben. Für den Endanwender ergeben sich nun auch neue Möglichkeiten. Der Decoder/Audioprozessor hat nun die Aufgabe, die Metainformationen auszuwerten.

Dabei können aber bisherige Grenzen gesprengt werden, denn die Bewegungunseres Sprechers kann theoretisch zwar mit zwei Lautsprechern, abereben auch mit dreien oder mehr dargestellt werden. Noch dazu müssendiese sich dann nicht einmal gezwungenermaßen auf der Linie desSchallereignisses befi nden. Vielmehr lautet die Aufgabe des Prozessors:“Stelle mit den verfügbaren Lautsprechern das Schallereignis so dar,dass es in der Realität möglichst nahe an der in den Metadatenbeschriebenen Bewegung liegt, wenn von einer definierten Position ausgehört wird.“ Dazu können also auch drei oder vier Lautsprecher dienen,welche dann auch von der optimalen Stereoposition abweichen können. Nurbestimmte Rahmenbedingungen müssen eingehalten werden, zum Beispiel mussdie Verteilung der Lautsprecher weit genug sein, um die Bewegungsbasisüberhaupt abbilden zu können. Und natürlich gibt es auch immer nocheinen festen Abhörplatz, denn das System errechnet die entstehendePhantomschallquelle so, dass sie von dem Referenzplatz aus diegewünschte Bewegung ergibt. Ein Aufweichen dieser Begrenzung wäre erstdurch Wellenfeldsynthese möglich, womit wir aber den Rahmen des Artikelssprengen würden.

DF-Newsletter: Jetzt hier kostenlos abonnieren!