Naht das Ende vom Loudness War? Mit Lautstärke Normalisation den Unsinn beenden
Das Zusammenpressen der Dynamik raubt der Musik Feindetails, die Musikstücke werden von Anfang bis Ende einfach mit hoher Lautstärke aus den Lautsprechern gepresst. Den Unsinn massiver Dynamikkompression haben wir bereits in einem früheren Blog „Verstümmelte Musik…“ thematisiert. Die Lautstärkeunterschiede zwischen Alben mit und ohne Dynamikkompression zwingt den Hörer beim Albumwechsel die Unterschiede mit dem Lautstärkeregler auszugleichen. Dies ist besonders bei Radiowiedergabe oder beim Spielen einer Playlist ärgerlich, muss doch nach jedem Stückwechsel zur Fernbedienung gegriffen werden.
Die European Broadcasting Union (EBU) hat im Jahr 2011 eine Richtlinie zur Lautstärken Normalisation erlassen (EBU R 128). Darin wird der Pegel von -23LUFS (23dB unterhalb der Vollaussteuerung) als Normlautstärke definiert. Die durchschnittliche Lautheit eines Musikstückes wird mit einem komplexen Messverfahren ermittelt, mit dem Richtwert von -23LUFS verglichen. Die Abweichung davon wird als Differenzwert erfasst. Die Wiedergabesoftware im Radiostudio, im Music Server oder beim Streaming Dienst kann so das Nachregeln der Lautstärke anhand dieser Werte automatisch ausführen. Wie laut oder leise generell gehört wird bestimmt aber immer noch der Hörer, nur die deutlichen Lautstärkeunterschiede zwischen den Stücken verschwinden. Der Lautstärkeunterschied innerhalb des Musikstückes, also die Dynamik, bleibt jedoch unangetastet.
Die EBU Richtlinie R 128 stellt eine eigentliche Audio Pegel Revolution dar (Zitat EBU: „true audio levelling revolution“), da ein Wechsel von der bis dahin gehandhabten Spitzenpegel Normalisation zur Lautheit Normalisation stattfindet. Mit einem neuen, maximalen Schallpegel (peak level) und einem tieferen Norm- Durchschnittspegel wird der mögliche Dynamikumfang der Musik grösser.
Bei der Loudness Normalisation wird der Dynamikumfang eines Musikstückes betrachtet.
Bei Peak Normalisation ist nur der Spitzenwert des Signals massgebend (Bild EBU Tech 3343).
Grösser = auf Bilder klicken
Was hat dies nun für Folgen bezüglich des Lautstärke Krieges? „Laut verkauft sich besser“ war und ist teilweise immer noch die Devise der Musikindustrie. Vor allem im Pop Genre, weniger beim Jazz und nur selten bei Klassik. Das Bestseller Album Adele 25 ist zwischen 9 dB und 11 dB lauter als der Normpegel und Coldplays Everglow ebenfalls 10dB. Beide Alben haben einen mageren DR Wert von 5-6. Regelt nun die Wiedergabe Software die Pegelsprünge aus, dann wird der vermeidliche Vorteil von „Laut verkauft sich besser“ zunichte gemacht. Im Gegenteil, das flache und detailarme Klangbild komprimierter Musik wird im Vergleich zu korrekt gemasterten Musikstücken offensichtlich. Stark komprimierte Musikstücke haben aber nicht selten noch ein weiteres Problem: Intersample Clipping (mehr dazu unten) raut das Klangbild weiter auf und ist als feine Verzerrung wahrnehmbar.
Links ein natürliches Spektrum eines Musikstückes mit gutem Dynamikumfang. Rechts ein überkomprimiertes Beispiel für Musik ohne Dynamik, die nur laut von Anfang bis zum Ende ist und kaum noch Feindetails hat.
Die Lautstärke Normalisation kann auf zwei unterschiedliche Arten realisiert werden und lässt somit jedem Musiker/Produzenten die künstlerische Freiheit zur Soundgestaltung. Lautstärke Normalisation kann bei jedem bereits vorhandenen Musikstück angewendet werden.
- Bei der Musikproduktion: hier wird beim Mastering die durchschnittliche Lautheit auf den Normpegel von -23LUFS geregelt (LUFS > Loudness Unit Full Scale = dBFS > Decibel Full Scale). Dies hat aber keinen Einfluss auf den Dynamikumfang eines Musikstücks. Der kann nach wie vor gering sein. Nur macht jetzt Dynamikkompression mit dem Zweck, dass ein Musikstück lauter als das des Mitbewerbers klingt keinen Sinn mehr.
- Bei der Wiedergabe: Die bestehenden Audiodateien werden analysiert und die Abweichung vom Normpegel in den Metadaten des Musikstückes hinterlegt. Die Radio Station, der Streaming Dienst oder das Wiedergabegerät regelt dann anhand der in den Metadaten hinterlegten Differenzwerten die Lautstärkeunterschiede zwischen den Musiktiteln aus. Ein Nachregeln mit dem Lautstärkeregler von Hand wird überflüssig. Die übergrosse Lautheit eines dynamikkomprimierten Stückes hat keine Wirkung mehr.
Der Aria Musik Server kann die ganze Musikbibliothek analysieren, die Werte in den Metadaten speichern und auf Wunsch die Pegeldifferenzen automatisch bei Wiedergabe anpassen.
Die Loudness Petition Group: Bring Peace to The Loudness War.
Die Loudness Petition Group will bessere Klangqualität und konsistente Wiedergabe Lautstärke bei Streaming Diensten erreichen, gemäss der von der EBU und der Audio Engineering Society AES lancierten R 128 Richtlinie. Mit der Petition sollen die Streaming Dienste motiviert werden die Lautstärke Normalisierungswerte zu beachten und die Stücke beim streamen auf Normpegelwert zu regeln. Die Gruppenmitglieder sind: Eelco Grimm (Grimm Audio und HKU University of the Arts Utrecht), Bob Katz (Digital Domain), Matt Mayfield (Matt Mayfield Music) und Ian Shepherd (Mastering Media). Mit „Frieden im Lautheits-Krieg“ verfolgt die Gruppe ein ambitiöses und unterstützungswertes Ziel. Wenn Sie die Petition unterstützen wollen, finden Sie weitere Infos und ein informatives Video mit Klangbeispielen hier.
Hier zwei Bilder aus dem Video der Loudness Petition Group, welches die Folgen massiver Dynamikkomprimierung verdeutlicht, was im Video selbst auch gehörmässig nachvollziehbar ist.
Das Original mit vollem Dynamikumfang.
Blau der gleiche Ausschnitt aus dem Musikstück jedoch mit komprimierter Dynamik. Die zuvor angehobene Lautstärke wurde auf den Normwert reduziert (gleiche Lautheit wie das Original). Die roten Anteile zeigen die durch die Kompression verlorenen Details.
Intersample Clipping
Intersample Clipping entsteht im Zusammenhang mit dem Lautstärke Krieg und ist primär ein Problem bei kommerzialisierter Pop Musik.
Ausgangslage: Bei einer Musikaufnahme achtet der Toningenieur darauf, dass die lauteste Stelle im Musikstück das Aufnahmesystem nicht übersteuert. Bei einer analogen Tonbandmaschine ist das im Bereich von ca. +6 bis +10 dB VU und in einem digitalen System exakt bei 0 dBFS. Bei einem analogen System ist der Grenzwert nicht genau definiert. Er hängt von mehreren Parametern ab, wie Bandmaterial, Bandgerät, Vormagnetisierung, Laufgeschwindigkeit des Bandes und bei welchem Verzerrungswert die Übersteuerungsgrenze definiert wird. Wird der Grenzwert überschritten steigen die nichtlinearen Verzerrungen kontinuierlich an. Bei analogem Audio ist zwischen gut und schlecht immer ein fliessendender Übergang.
Bei einem digitalen System ist die Sache ganz klar, da systembedingt: die Grenze ist bei 0dBFS (Full Scale) und danach ist das Musiksignal verzerrt – und zwar heftig. Also auf keinen Fall über die 0dB Grenze aussteuern. Dies ist bei einem digitalen System auch kein Problem. In der analogen Domäne versucht der Toningenieur mit dem Pegel so nah wie möglich an die Aussteuerungsgrenze zu fahren. Bleibt er zu weit unterhalb der Möglichkeiten, verschenkt er Dynamik und riskiert, dass die leisen und feinen Signalanteile im Bandrauschen untergehen.
Da ein digitales System bereits im CD Format bis zu 35dB mehr Dynamikumfang hat als ein analoges System, ist der Zwang möglichst nah an den Grenzwert auszusteuern viel weniger gegeben. Bei einem HD Format mit 144 dB Dynamikumfang sowieso nicht. Zum Vergleich ein Tonbandgerät mit 38cm/s Bandgeschwindigkeit erreicht ca. 65dB Dynamikumfang (mit Dolby Rauschunterdrückung 10dB mehr). Die Aussteuerungsreserve oder Sicherheitsmarge (Headroom) kann und muss bei einen digitalen Aufnahmesystem grösser sein.
Was nun der Toningenieur mit grosser Sorgfalt vermeidet – Übersteuern – erledigt dann der Mastering Ingenieur (oft mit Druck des Produzenten) bei der Nachbearbeitung der Aufnahme.
Was passiert?
Bedingt durch den Loudness War wird die Dynamik der Aufnahme reduziert. Leise Stellen werden lauter und laute Stellen leiser gemacht = Dynamikkompression. Danach wird die Gesamtlautstärke deutlich angehoben. Diesen letzten Schritt übernimmt in der Regel ein automatisierter Prozess. Dabei kommt es vor, dass ein digitaler Wert bis an die 0dBFS Grenze angehoben wird – der Abtastwert entspricht dann der vollen Laustärke. Dies führt nun zum erwähnten Intersample Clipping.
Der rekonstruierte analoge Signalpegel zwischen den Abtastwerten (Intersample) kann höher als der numerische Wert des digitalen Samples sein und kann daher nicht reproduziert werden. Das analoge Signal ist verzerrt.
Die Bilder 10 bis 14 veranschaulichen das Intersample Clipping Problem grafisch.
Bild 10: Der digitale Wert für den Signalpegel liegt mit genügen Headroom unterhalb
der 0 dBFS Systemgrenze. Durch addition und subtraktion der blauen Sinc-Pulse
entsteht das rote, zeitkontinuierliche analoge Ausgangssignal am D/A-Wandler.
Bild 11: Der digitale Wert der beiden Samples (schwarz) wurde an die 0dBFS Grenze
hochgerechnet. Bei der Rekonstruktion ergäbe dies ein analoges Signal
oberhalb von 0dB, was nicht möglich ist.
Bild 12: Fazit: das analoge Ausgangssignal ist verzerrt, die Signalspitze wird abgeschnitten.
Bild 12: Beispiel eines realen Signalverlauf mit Intersample Clipping. Die
Wellenform des Signals ist deformiert (Bild Mark Waldrep, Realhdaudio.com).
Intersample Clipping muss nicht sein, ist absolut vermeidbar und schon gar nicht ein grundsätzliches Problem digitaler Signalverarbeitung. Man muss die Technik nur Systemkonform verwenden und nicht für kommerziellen Schabernack missbrauchen. Dies gilt für jede Form von technischen Systemen – auch ein Brotmesser kann man nicht dem Verwendungszeck entsprechend einsetzen.
Die EBU R 128 Richtlinie beachtet diese Problem mit der Anweisung, dass der maximale Pegel des digitalen Sampels bei -1dBFS (-1 dbTP = 1dB True Peak) ist. Dadurch wird Intersample Clipping bei der D/A-Wandlung vermieden (siehe Bild unetn).
Die alte Spitzenwert Richtlinie sah einen Headroom von 9 dB vor, der aber durch den
Loudness War komplett ignoriert wurde und auch eine wenig praxisgerechte Auslegung
war. Die EBU R 128 Richtline sieht lediglich noch einen Headroom von 1 dB vor um
Intersample Clipping zu vermeiden. Dies ermöglicht maximalen Dynamikumfang für
Musik, bedeutet aber, dass der Toningenieur die Pegel genauer überwachen muss, um
ein Übersteuern zu vermeiden – so wie dies in der guten alten Analogzeit der Fall war.
Logo EBU R 128 – eine Komposition aus den drei Zahlen