Qualität von digitalen Audiodaten auslesen?

developerguy · 21.12.11

Hallo, ich bin beruflich Softwareentwickler und leider total unmusikalisch, daher bitte nicht gleich mit der Keule kommen wenn ich absolut einfache Fragen stellen sollte, danke!

Meine eigentliches Problem ist aber wie ich Wave und FLAC Audiodaten nach ihrer Qualität beurteilen kann.

Mein Prolem dabei ist es Audiodaten zu validieren ob sie eine gewisse Mindestqualität bieten. Welche Werte muß ich dazu kennen und abfragen? Was wäre der Mindeststandard für CD-Qualität den Ihr ansetzen würdet für die Werte?

Das was ich aus einer Wave Datei mit dem Programm sox auslesen kann um den Output davon weiter zu verarbeiten sieht z.B. so aus.

Code:

Channels       : 6
Sample Rate    : 44100
Precision      : 16-bit
Duration       : 00:00:05.84 = 257411 samples = 437.774 CDDA sectors
File Size      : 3.09M
Bit Rate       : 4.23M
Sample Encoding: 16-bit Signed Integer PCM

Ich nehme an die Samplerate ist wesentlich, was noch? Bit Rate? Das sind hier satte 4.23mb (pro Sekunde?) wärend ein mp3 ja entweder eine variable Bitrate hat oder eben 96, 128, 192kbps...?

Kann mich bitte jemand zu dem Thema erleuchten? Vielen Dank!

livebox · 21.12.11

Hi devguy und Willkommen im Board

Die Bitrate, auch Wortbreite genannt, kommt von der A/D-Wandlung. Die gibt an, in wie viel Stufen die Amplitude der Welle aufgelöst werden kann. Die Hertzrate entsprechend, wie oft dieser Wert abgetastet (und gespeichert) wird.

Eine Audio-CD arbeitet z.B. mit 16Bit/44,1kHz. Die technischen Daten sagen aber leider nicht unbedingt was über die Qualität aus - vor allem bei mp3s, denn da schwirrt jenster Sch*** im Netz und sonstwo herum. Analog zur Bildbearbeitung: Die Pixel geben mir an, welche maximale Qualität im Bild möglich ist. Wenn jetzt aber ein so ein Spezialist ein Bild auf 50x50 runter rechnen lässt und dieses schlechte Bild nachher wieder auf 300x300 aufbläst, ist die Qualtät trotzdem weg. Sehr sehr oft zu beobachten auf youtube: Schau dir mal das Video auf 360px an, und dann das hier. Obwohl auch das zweite von der musikalischen Darbietung nicht als schlecht zu bezeichnen ist, ist in der technischen Qualität ein deutlicher Unterschied zu hören. (Entsprechende Abhöre vorausgesetzt

mit den 10-PC-Boxen vom Aldi geht das zwar auch, aber dann muss man wissen, worauf man hören muss.)

By the way, kennst du MediaInfo? Könnte interessant sein für dich:
http://mediainfo.sourceforge.net/de

MfG, livebox

ars ultima · 21.12.11

Der vergleich zu den Pixeln bei Bildern ist nicht nur metaphorisch, sondern nachrichtentechnisch genau das gleiche. Die Samplerate sagt aus, wie oft as Signal abetastete wird, und damit also, in wie viele Samples das Stück Signal eingeteilt ist. Genauso wie die Anzahl der Pixel bei einem Bild. Sowohl Sample wie auch pixel haben dann eben einen gewissen Wert, nämlich die Amplitude/den Pegel beim Audiosignal, und die Helligkeit beim Bild. Die Bitzahl (also bei sox "Precision") sagt dann aus, wie fein die abstufungen sind. Wenn ich ein Bild mit 8 Bit Farbtiefe habe, dann heißt das, dass schwarz binär als 00000000 und weiß als 11111111 gespeichert wird, oder dezimal asugedrückt: schwarz=0, weiß=255. Man hat also 256 grauabstufungen. Bei höherer Bittiefe entsprechend mehr. Und genauso ist das bei Audio, da wird eben die Amplitude des Samples (also sozusagen der Pegel des Signals zu diesem zeitpunkt) in einer entsprechenden Zahl dargestellt.

Die Größe eines unkomprimierten Bilds kann man dann logischerweise einfach berechnen: Wenn ein einzelnes Pixel 8 Bit groß ist, dann ist ein Bild mit den außmaßen 100x100 Pixel enstprechend 100 x 100 x 8 Bit groß. Und ebenso ergibt sich die Bitrate bei einem Audiosignal aus "Samplerate" und "Precision". Bei einer Samplerate von 44,1KHz besteht eine Sekunde Audio aus 44100 Samples, und jedes ist dann 16 Bit groß.

Dann hat man die Größen und Bitraten für wirklich unkomprimierte Bilder oder Audiosignale. Bei Audios hantiert man ind er regel mit unkomprimierten WAV-Dateien, wenn es ums Recording auf Windows geht. Bei Bildern hat man das in der Praxis selten, unter Windows begegnet man dem eigentlich nur bei BMP-Dateien. Ansonsten wird auch schon z.B. TIF oder PNG verlustfrei komprimiert. So wie man das für alle möglcihen Arten von Dateien z.B. von ZIP kennt. Da werden vereinfacht gesagt viele gleiche Anteile zusammengefasst. Wenn in einem Bild also z.B. 10 weiße Pixeln nebeneinander sind, speichert man nicht 255, 255, 255, 255, 255, 255, 255, 255, 255, 255, sondern einfach 10x255. Ist deutlich kürze, aber an der Qualität ändern sich nichst, also man kann die Datei wieder exakt so herstellen, wie sie vor der Kompression war. Bei Audiodateien gibt da z.B. also bekannteste Format zur verlustfreien Kompression FLAC. Aber auch von AAC oder WMA gibt es "Losless"-Variante.

Eine deutlich stärkere Kompression erreicht man dann aber mit tatsächlicher Datenreduzierung, also verlustbehafteter Kompression. Dabei macht man sich zu nutze, dass das menschliche Auge und das menschlche Ohr gewisse Schwächen haben. Bei Bildern ist das bekannteste Format wohl JPEG. Ich könnte jetzt genau erklären, wie der JPEG-algorithmus funktioniert, lass es aber

Grob gesagt geht es eben darum, Details an den Stellen zu reduzieren, die der MEnsch nicht so wahrnimmt, was dann dazu führt, dass man noch mehr Ähnlichkeiten in der Datei hat und diese oben beschrieben verlustfreie Kompression dann stärker anwenden kann. Für Audiodateien ist das bekannteste verlustbehaftete Kompressionesformat MP3.

Diese verlustbehaftete Kompression kann nun unterschiedlich stark sein, man kann da also beim komprimieren wählen, ob man eher hohe Qualität, oder eher eine kline Datei haben will. Bei JPEG-Encodern läuft das in der Praxis einfahc über Qualitätsstufen. Bei Audio und Video-Encodern gibt man praktischerweise stattdessen meist die Zielbitrate an.

EDIT: Irgendwie habe ich überlesen, dass du Software-Entwickler bist. Sorry, wenn da jetzt manches so geschrieben hätte, also würde ich mit jemanden reden, der absolut keine Ahnung hat

Aber interessiert wahrscheinlich auch andere.

968 · 21.12.11

developerguy schrieb:
Hallo, ich bin beruflich Softwareentwickler und leider total unmusikalisch, daher bitte nicht gleich mit der Keule kommen wenn ich absolut einfache Fragen stellen sollte, danke!

Meine eigentliches Problem ist aber wie ich Wave und FLAC Audiodaten nach ihrer Qualität beurteilen kann.

Mein Prolem dabei ist es Audiodaten zu validieren ob sie eine gewisse Mindestqualität bieten. Welche Werte muß ich dazu kennen und abfragen? Was wäre der Mindeststandard für CD-Qualität den Ihr ansetzen würdet für die Werte?

Was hast Du denn eigentlich vor?

Ohne zu wissen, wie digital Audio überhaupt funktioniert, willst Du durch Prüfung technischer Daten eine qualitative Beurteilung durchführen?

Schau Dich mal auf dieser Seite um, da gibt es viele Grundlagen und vor allem auch weiter führende Artikel, in denen Digital Audio genauer unter die Lupe genommen wirde.

http://www.digido.com/articles-demos.html

Vill-Harmonix · 21.12.11

Meine eigentliches Problem ist aber wie ich Wave und FLAC Audiodaten nach ihrer Qualität beurteilen kann.

Das eigentliche Problem sehe ich dabei, dass Du lediglich herausfinden kannst: "Dieses Audiofile KÖNNTE von den technischen Daten her eine gute Qualität haben."

Damit meine ich jetzt nicht musikalische Parameter sondern z.B. Aufnahmetechnische. Angenommen, die Datei ist komplett verrauscht. Oder es existieren Stör-/Nebengeräusche. Da hilft eine höhere Auflösung ja auch nix.

Eine sauber ausgesteuerte 16-Bit Datei wird wesentlich besser klingen als eine übersteuerte 24-Bit Datei.

Also müsste erstmal geklärt sein, was Du genau über eine Audiodatei aussagen willst.

Clemens

Telefunky · 21.12.11

ars ultima schrieb:
Der vergleich zu den Pixeln bei Bildern ist nicht nur metaphorisch, sondern nachrichtentechnisch genau das gleiche. Die Samplerate sagt aus, wie oft as Signal abetastete wird, und damit also, in wie viele Samples das Stück Signal eingeteilt ist. Genauso wie die Anzahl der Pixel bei einem Bild. Sowohl Sample wie auch pixel haben dann eben einen gewissen Wert, nämlich die Amplitude/den Pegel beim Audiosignal, und die Helligkeit beim Bild. ...

gut, dass du es so klar schreibst...
in genau dieser Analogie liegt das grösste Missverständnis für die Qualität digitaler Audio-Daten.
Im Gegensatz zu Bildpunkten wird das 'Sample' gar nicht 'isoliert' zur Tonerzeugung herangezogen.
Es ist ein Messwert, aus dem eine Funktion das Audio Signal rekonstruiert.
Stützpunkte einer Kurve (würde ich als Mathe Noob schreiben) und nicht Teil der Kurve selbst.
Wenn das Sample aber Parameter einer Funktion ist, dann kann diese verschieden ausgeführt sein.
Folglich ist auch die Wiedergabe derselben Daten möglicherweise variabel.

cheers, Tom

developerguy · 21.12.11

Vielen dank für die recht ausführlichen Antworten, vorallem der Vergleich mit dem Bild hat geholfen.

Was ich konkret will bzw. machen muß ist folgendes: Eine Datei wird hochgeladen und ich will die technische Qualität so weit wie möglich beurteilen können da diese Datei als Master dient um daraus dann ein mp3 und eine Wave/Flac Datei zu erzeugen. Hochgeladen werden darf Flac oder Wave. Wobei sich hier gerade die Frage aufwirft, ob es nicht Sinn macht zwar Wave und Flac als Upload zu erlauben für den Download aber nur Flac und mp3 anzubieten. Flac sollte ja wohl auch Verlustfrei aber dafür komprimiert sein. Andererseits erspart man es dem User dann die Wave-Datei in Flac zu konvertieren. Ich habe keine Ahnung wie "gewöhnlich" dieser Schritt für einen Musiker ist oder ob die wenigsten wissen was eine Flac Datei ist.

Mir ist klar das ich nichts über die eigentliche Qualität einer Aufnahme aussagen kann durch die validierung des technischen Rahmens, auch das mit dem Hochrechnen von minderwertigen Aufnahmen ist mir klar. Wer das allerdings macht ist selber schuld, die Validierung soll in dem Sinne und kann ja auch gar nicht dumme Ideen des Users verhindern.

968 · 21.12.11

Vill-Harmonix schrieb:
Das eigentliche Problem sehe ich dabei, dass Du lediglich herausfinden kannst: "Dieses Audiofile KÖNNTE von den technischen Daten her eine gute Qualität haben."

So sehe ich das auch. :great:

---------- Post hinzugefügt um 13:11:34 ---------- Letzter Beitrag war um 13:04:50 ----------

Telefunky schrieb:
gut, dass du es so klar schreibst...
in genau dieser Analogie liegt das grösste Missverständnis für die Qualität digitaler Audio-Daten.
Im Gegensatz zu Bildpunkten wird das 'Sample' gar nicht 'isoliert' zur Tonerzeugung herangezogen.
Es ist ein Messwert, aus dem eine Funktion das Audio Signal rekonstruiert.

Das ist der entscheidende Unterschied. Wenn ich eine Sinuskurve mit 1 kHz mit etwas mehr als 2 kHz sample, kann ich die Sinuskurve komplett rekonstruieren. Es reichen also etwas mehr als 2 Samples, um die ganze Kurve wieder zu erzeugen.

Die Wortbreite, als 16 Bit oder 24 Bit, entscheidet über das Quantisierungsrauschen.

Mehr als 3 Samples pro Sinusschwingung wäre also bereits reine Datenverschwendung und würde keine zusätzliche Genauigkeit geben. Deswegen hinkt der Vergleich mit den Pixeln beim Bild sehr stark - um nicht zu sagen der Vergleich ist falsch.

---------- Post hinzugefügt um 13:35:57 ---------- Letzter Beitrag war um 13:11:34 ----------

developerguy schrieb:
Vielen dank für die recht ausführlichen Antworten, vorallem der Vergleich mit dem Bild hat geholfen.

Was ich konkret will bzw. machen muß ist folgendes: Eine Datei wird hochgeladen und ich will die technische Qualität so weit wie möglich beurteilen können da diese Datei als Master dient um daraus dann ein mp3 und eine Wave/Flac Datei zu erzeugen.

Wenn du es wirklich prüfen willst, musst Du es anhören. Eine Datei könnte ein WAV, AIFF oder BWF (oder auch FLAC) mit 16/44,1 oder 24/96 sein. Es gibt viele Programme, die Dir die ganzen technischen Rahmendaten dazu auslesen. ABER. Ob die Datei nur Rauschen enthält oder alle 5 Sekunden mit Knacksern versehen ist, kannst Du nicht sehen. Es gibt noch die Möglichkeit die Digital OVERs auszulesen und das als Prüfstein zu nehmen, aber viele lautgemachte Titel gehen ständig ins Over.

Scheint mir, Du willst einen Downloadshop programmieren. Da kann man davon ausgehen, dass die ankommenden Titeln vom Kunden in Ordnung sind - ist ja in seinem eigenen Interesse. Viel wichtiger in so einer Situation ist, dass die Ausgangsformate, die Du dann erzeugen willst, in Ordnung sind. Denn wenn ein Studio ordentliche Files liefert, aber Du fehlerbehaftete Files weiterverkaufst, wird´s teuer.

Einer in dem ganzen System sollte also genauestens Bescheid wissen über digitale Audiodateien.

Telefunky · 21.12.11

ich empfehle da mal einen Exkurs in den iTunes Store.
Die Vorhörbeispiele sind exakt in der später gelieferten Qualität. Einfach mal quer durchhören.
(unverbindliche Beispiele) in miserabelster Qualität: Softmachine Third,
schlecht: Tom Waits 'Used Songs', Bowie 'Low',
gut: Fleetwood Mac 'Rumors', Bohren & Der Club of Gore 'Sunset Mission'
fett: das Video zu 'Love is a Stranger' von Eurythmics

cheers, Tom

ars ultima · 21.12.11

Nochmal zur Bild-Analogie: Ich sehe eure Einwände nicht ganz ein

Was ist denn eurer Meinung nach das "Ursprungssignal" und "Wiedergabesignal" bei einem Bild, wenn es zwischendurch digital gespeichert wird? Man nehme mal als Basis ein VHS-Video.Mit bild und Ton, analog. Da gehe ich dann schön mit Cinch-Kabeln in einen A/D-Wandler für meinen PC. Für Bild und Ton. Das, was da über das Kabel geht, ist bei Ton und Bild das gleiche. Eine Schwingung, die analog zum Signal ist. Bei Ton steht die Spannung für den Schalldruck, beim Bild für die Helligkeit. Beim Bild ist das halt zeilenweise. Die A/D-Wandlung ist in beiden Fällen im Grunde genauso, nur das beim Bild mit einer deutlich höheren Abtastrate gearbeitet wird, dafür nur mit 8-Bit. Oder was passiert denn wohl bei einem Scanner oder eine digitalkamera? Bei der Wiedergabe über ein analoges Wiedergabegerät (also z.B. Röhrenmonitor) läuft es dann genauso wie bei der Audiowiedergabe. Ich verstehe nicht, inweifern ein Sample "Teil einer Funktion" sein soll. Es ist einfach nur ein Messwert für die Amplitude an der Stelle. Ein Pixel ist aber ebenso nur ein Messwert für die Helligkeit an der Stelle.

Und wie gesagt gelten die ganzen Regeln für Audioabtastung auch bei Video. Alias-Effekte aufgrund von nicht Einhaltung von Nyquist/Shannon kennt man z.B. aus dem Fernsehen, wenn dort jemand ein kleinkariertes Hemd trägt. Oder wenn man Fotos verkleinert, ohne vorher einen Tiefpass einzusetzen. Bei der JPEG-Komprimierung wird mittles diskreter Kosinus-Tranformation das Bild quasi in SChwingungsanteile zerlegt. Generell ging es bei uns in Bildtechnik sehr oft um Frequenzen usw. Und es waren eben viele Scahen identisch zur Tontechnik-Vorlesung

developerguy · 21.12.11

968 schrieb:
Wenn du es wirklich prüfen willst, musst Du es anhören. Eine Datei könnte ein WAV, AIFF oder BWF (oder auch FLAC) mit 16/44,1 oder 24/96 sein. Es gibt viele Programme, die Dir die ganzen technischen Rahmendaten dazu auslesen. ABER. Ob die Datei nur Rauschen enthält oder alle 5 Sekunden mit Knacksern versehen ist, kannst Du nicht sehen. Es gibt noch die Möglichkeit die Digital OVERs auszulesen und das als Prüfstein zu nehmen, aber viele lautgemachte Titel gehen ständig ins Over.

Scheint mir, Du willst einen Downloadshop programmieren. Da kann man davon ausgehen, dass die ankommenden Titeln vom Kunden in Ordnung sind - ist ja in seinem eigenen Interesse. Viel wichtiger in so einer Situation ist, dass die Ausgangsformate, die Du dann erzeugen willst, in Ordnung sind. Denn wenn ein Studio ordentliche Files liefert, aber Du fehlerbehaftete Files weiterverkaufst, wird´s teuer.

Einer in dem ganzen System sollte also genauestens Bescheid wissen über digitale Audiodateien.

Gut, anhören ist wohl kaum möglich für alle Dateien. Mit dem Downloadshop liegst Du nicht ganz daneben aber es ist ein wenig mehr als das.

Wenn ich kann schreibe ich in 3-4 Monaten hier etwas darüber wenn es fertig ist.

Die Dateien wollten wir auch mit sox erzeugen, da SoX Dateien direkt trimmen kann für Samples und auch konvertieren kann. ffmpeg wäre natürlich eine Alternative, wir haben ffmpeg schon für Videos verwendet, aber wenn SoX alles tut warum auf ein zweites Programm ausweichen. Oder würdest Du oder auch gern jemand anderes eventuell etwas ganz anderes Vorschlagen? Die Software sollte auf BSD oder Linux laufen können und eine vernünftig zu verarbeitende Ausgabe haben die man weiterverarbeiten kann.

Vielen Dank für die ganzen freundlichen und fachlich guten Antworten. Wenn viele IT-Foren nur mal so einen guten Ton anschlagen würden. :great:

968 · 21.12.11

ars ultima schrieb:
Eine Schwingung, die analog zum Signal ist. Bei Ton steht die Spannung für den Schalldruck, beim Bild für die Helligkeit. Beim Bild ist das halt zeilenweise. Die A/D-Wandlung ist in beiden Fällen im Grunde genauso, nur das beim Bild mit einer deutlich höheren Abtastrate gearbeitet wird, dafür nur mit 8-Bit. Oder was passiert denn wohl bei einem Scanner oder eine digitalkamera? Bei der Wiedergabe über ein analoges Wiedergabegerät (also z.B. Röhrenmonitor) läuft es dann genauso wie bei der Audiowiedergabe. Ich verstehe nicht, inweifern ein Sample "Teil einer Funktion" sein soll. Es ist einfach nur ein Messwert für die Amplitude an der Stelle. Ein Pixel ist aber ebenso nur ein Messwert für die Helligkeit an der Stelle.

Hättest Du geschwiegen ...

Du bringst da einiges durcheinander. In dem Beispiel oben mit der Sinusschwingung, für die etwas mehr als 2 Abtastpunkte eine völlig ausreichende Beschreibung der GESAMTEM Schwingung darstellen, beschreibt es deutlich. Es stimmt zwar, dass die beiden (oder etwas mehr als 2) Maesspunkte einen Messwert der Amplitude genau zu dem Zeitpunkt der Messung darstellen. Jedoch kann daraus mit Rekonstrukitonsfiltern die GESAMTE Schwingung wieder dargestellt werden. Messpunkte dazwischen sind nicht mehr nötig und würden keine höhere Genauigkeit bringen.

Die Schwingung wird also NICHT wie in einem Scanner mit einem Raster mit mit X mal Y Bildpunkten beschrieben. Die Genauigkeit für die Speicherung und Rekonstruktion der Schwingung wird nicht durch mehr Messpunkte erhöht wie man das bei einem Bild mit mehr Pixel machen könnte. Die Genauigkeit wird einfach durch eine feinere Abstufung des Messwerts (z.B. 24 bit statt 16 bit) und durch eine gleichmäßigere zeitliche Bestimmung der Messung (weniger Jitter) beschrieben - aber nicht durch mehr Messpunkte (oder Pixel, um in der falschan Analogie zu bleiben).

Die häufige Darstellung mit den Treppchen bei der digitalen Abtastung einer analogen Spannung ist sehr irreführend, denn sie suggeriert, dass diese Analogie mit den Pixeln beim Bild passt.

Im angehängten PDF reichen die Diagramme auf den ersten 3 Seiten, um zu zeigen, das nicht viele Pixel sondern nur mindestens 2 Messpunkte pro Schwingung mit Hilfe von Rekonstrukitonsfiltern ausreichen, um die Schwingung komplett zu beschreiben.

Telefunky · 21.12.11

beim Bild handelt es sich um Aufnahme und Wiedergabe einer statischen Sache
beim Audiosignal ist es das 'Einfrieren' eines kontinuierlichen Signals, dessen gespeicherte Werte später über den Wandler wieder in eine kontinuierliche Schwingung umgesetzt werden müssen.
Dazu dienen die Filterfunktionen in der Rekonstruktion... die ich lediglich bestaunt, aber nicht wirklich verstanden habe...

(trotzdem faszinierendes Thema und im Zweifel wüsste ich, wo nachzulesen wäre...)

cheers, Tom

klaatu · 21.12.11

Telefunky schrieb:
beim Bild handelt es sich um Aufnahme und Wiedergabe einer statischen Sache
beim Audiosignal ist es das 'Einfrieren' eines kontinuierlichen Signals, dessen gespeicherte Werte später über den Wandler wieder in eine kontinuierliche Schwingung umgesetzt werden müssen.

Kann ich nur zustimmen. Wenn schon vergleichen, dann die Wiedergabe eines bewegten Bildes mt der Wiedergabe eines digitalisierten Audiosignals. Bei beiden gibt es eine Abtastrate (z. B. 44.1 kHz bei einer CD und 25 Hz (bzw. 50 Hz Halbbilder) bei unserem Fernsehprogramm) sowie eine Auflösung (16 Bit bei CD, beim digitalen Fernsehen ist das meines Wissens variabel und durch die verfügbaren Bandbreiten unterschiedlich).

Die Abtastrate bestimmt, welche Frequenzen eindeutig wiedergegeben werden können. Die maximal reproduzierbare Frequenz entspricht im theoretischen Fall der Hälfte der Abtastfrequenz. Höherliegende Frequenzen müssen vor der Digitalisierung gefiltert werden, damit das reproduzierte Signal nicht verfälscht wird (das wird durch sogenannte Anti Aliasing Filter realisiert). Geschieht dies nicht, werden darüberliegende Frequenzen in das reproduzierte Signal gespiegelt - ein 25 kHz Signal wird dann (bei 40 kHz Abtastrate) als 5 kHz Signal im Ergebnis hörbar. Im Fernsehen sieht man den Effekt z. B. bei sich schnell bewegenden oszillierenden Objekten wie Hubschrauberrotoren. Die scheinen sich sehr langsam bzw. rückwärts zu bewegen, was ebenfalls durch die Abtastung ohne Anti Aliasing hervorgerufen wird.

968 · 21.12.11

oeatschie schrieb:
Kann ich nur zustimmen. Wenn schon vergleichen, dann die Wiedergabe eines bewegten Bildes mt der Wiedergabe eines digitalisierten Audiosignals. Bei beiden gibt es eine Abtastrate (z. B. 44.1 kHz bei einer CD und 25 Hz (bzw. 50 Hz Halbbilder) bei unserem Fernsehprogramm) sowie eine Auflösung (16 Bit bei CD, beim digitalen Fernsehen ist das meines Wissens variabel und durch die verfügbaren Bandbreiten unterschiedlich).

Auch der Vergleich hinkt. Beim Bild werden viele Einzelbilder mit X mal Y Pixeln gescannt. Die Auflösung wird durch X mal Y bestimmt - wie beim Einzelbild. Durch die schnelle Abfolge von vielen Einzelbildern entsteht der EINDRUCK eines bewegten Bildes. Es sind quasi zeitdiskrete Signale.

Dagegen entsteht bei der DA Wandlung mit Hilfe der Rekonstruktionsfilter ein zeitkontinuierliches Signal, also z.B. bei einer Sinusschwingung nahe der Abtastfrequenz schwingt die Spannung kontinuierlich auf und ab, auch wenn gerade mal etwas mehr als 2 Abtastpunkte pro Schwingung vorhanden sind.

Bewegtes Bild funktioniert ganz anders.

ars ultima · 22.12.11

Dass die Treppendarstellung bei Audio einen falschen Eindruck vermittelt, ist mir bewusst. Aber ihr scheint im Gegenzug die Existenz von analogen Videosignalen zu leugnen. Wobei: Arbeiten D/A-Wandler nicht per Sample and Hold? Und würde man nicht eben tatsächlich die Treppenstufen "hören" (also ein entsprechend zackiges analoges Audiosignal haben), wenn man nicht den gleichen Tiefpass einsetzt, der schon bei der A/D-Wandlung gesetzt wurde?

Wobei ich zugeben muss, dass die Art der Wiedergabe bei Audio eindeutig ist, während es bei einem digitalen bild nicht ganz klar ist, was damit passiert. Im Bildbereich hab man an mehreren Stellen Abtastungen. Die höchste darstellbare Freqzenz ist bei Audio wie auch bei Video eben die halbe Abtastrate. Bei einem Bild also eine Zeile mit abwechselnd schwarzen und weißen Bildpunkten. Wenn ich das 1:1 auf einem LCD-Monitor darstellen will, dann habe ich bei der Wiedergabe tatsächlich harte Pixelkanten. Letztlich ist aber die Darstellung auf einem Bildschirm mit begrenzter Auflösung auch wieder eine Abtastung. Wenn ich ein 3000 x 3000px Bild bildschrimfüllen (ohne abzuschneiden) auf einem 1000x1000pixel Monitor darstelle, dann habe ich Aliaseffekte, wenn ich nicht vorher entsprechend einen Teifpass setze. Andererseits will man aber auch keine Pixelkanten sehen, wenn man ein 1000x1000Pixel Bild auf einem 3000x3000Pixel Monitor darstellt. Sondern nur ein unscharfes Bild. Also auch das Treppenmuster beim Bild ist letztlich falsch. Um ein bild daher "korrekt" ohne Artefakte darzustellen muss das auch durch einen Tiefpass, wie bei einem Audio-D/A-Wandler.

---------- Post hinzugefügt um 09:19:38 ---------- Letzter Beitrag war um 09:06:13 ----------

Wobei die Diskussion jetzt nicht ausarten muss. Ich bleibe dabei, dass dass die Analogie von Video zu Audio definitiv nicht "weit hergeholt oder sogar falsch" ist. Die Theorie hinter Bildabtastung und Tonabtastung ist nicht anders, wenn ich irgendwelche entsprechenden Filter programmiere muss ich auch die gleichen Dinge beachten usw. Über Details kann man gerne streiten, erst recht wenn wir vielleicht jeweils unterschiedliche Dinge meinen. Das soll jetzt aber auch kein "ach, ihr seid doof, nur ich hab Ahnung, ich schmoll jetzt selbstgerecht"-beitrag sein

Und noch mal zum konkreten Thread-Bezug: Die Qualitätskriterien bei einer digitalen Audiodatei sind die ausschließlich Abtastrate ("Sampleanzahl") und die Bittiefe pro sample. Genauso wie bei einem Bild die Qualitätskritrien Pixelanzahl und Bittiefe pro Pixel sind. Weitere gibt es aus digitaler sich nicht (weil wie ja die "Herkunft" unberücksichtig lassen). Da wird mir hier doch wohl keiner widersprechen, oder? Bei Bewegtbild kommt halt noch die Anzhal der Bilder pro Sekunde zu. Beim Filmen führt das übrigens auch zu einem weiteren Abtastvorgang. Bekante Beispiele für dabei entsehende Aliaseffekte sind z.B. Räder pder Hubschrauberrotoren, die sich langsam oder rückwärts zu drehen scheinen

968 · 22.12.11

ars ultima schrieb:
Dass die Treppendarstellung bei Audio einen falschen Eindruck vermittelt, ist mir bewusst. Aber ihr scheint im Gegenzug die Existenz von analogen Videosignalen zu leugnen. Wobei: Arbeiten D/A-Wandler nicht per Sample and Hold? Und würde man nicht eben tatsächlich die Treppenstufen "hören" (also ein entsprechend zackiges analoges Audiosignal haben), wenn man nicht den gleichen Tiefpass einsetzt, der schon bei der A/D-Wandlung gesetzt wurde?

Nein, so funktioniert PCM nicht. Bei einem DSD Signal mit 2,8 MHz oder 5,6 MHz könnte man mit einem Tiefpass schon Musik hören. Aber schau Dir doch mal die Samples in dem Beispiel an, das ich als PDF beigefügt habe. Da funktioniert mit einem Tiefpass gar nichts. Es geht nur mit Rekonstruktionsfiltern.

Ich empfehle das Buch "The Art of Digital Audio" von John Watkinson zu lesen, die bible der digitalen Audio Technik. Keine Angst, es ist nicht voller Formeln, sondern alles sehr anschaulich beschrieben.

Mehr Bit.
Klar kann man durch eine genauere Messung und Speicherung (24 Bit statt 16 bit) eine Schwingung genauer beschreiben.

Höhere Samplingfrequenz.
Die Rekonstrutionsfilter haben wie jedes Filter ihre Eigenheiten. Es gab früher oft Wandler, wo man verschiedene Filter Settings auswählen konnte, z.B. von dCS. Also auch so ein Rekonstruktionsfilter ist nie perfekt. Wenn man die Samplingfrequenz erhöht, dann erhöhe ich auch die Bandbreite und die Anforderungen an die Filter ist nicht so hoch, sprich die Fehler sind geringer bei gleicher Filterqualität. Deswegen bringt es in der Praxis schon was, auch mit der Samplingfrequenz hoch zu gehem, z.B. 96 kHz statt 48 kHz. Würden sich Filter ideal verhalten, wäre dieser Trick nicht nötig innerhalb einer vorgegebenen Nutzbandbreite.

Das alles hat aber nichts mit einem feineren Raster wie bei einem Bild zu tun. Wir reden hier von der Abtastung und Rekonstruktion eines sich über die Zeit kontinuierlich veränderlichen Analogsignals.

Dazu noch ein Punkt, der etwas Off Topic ist.
Es gibt viele Leute, die unendliches Vertrauen in die Digitaltechnik haben nach dem Motto, kann ja nichts passieren, ist ja digital. Man muss sich aber vor Augen halten, die Digitalisierung eines analogen Signals ist ein analoger Vorgang. Sowohl die Abtastung der Amplitude zu einem digitalen Ausgang erfolgt mit analogen Schaltungen. Auch die Genauigket zur Bestimmung des Zeitpunkts der Messung wird durch Analogtechnik gesetzt. Jitter des HF Signals wird von analogen Größen des Schaltungsaufbaus bestimmt. Allein das Netzteil für einen Oszillator hat schon Einfluss auf Jitter. Die Annahme, ist ja alles gleich gut, weil alle denselben Wandlerchip benutzen, ist naiv.

Telefunky · 22.12.11

ars ultima schrieb:
Dass die Treppendarstellung bei Audio einen falschen Eindruck vermittelt, ist mir bewusst. Aber ihr scheint im Gegenzug die Existenz von analogen Videosignalen zu leugnen.

die Treppendarstellung beinhaltet (imho) den fatalen Fehlschluss, dass sich eine höhere bit-Anzahl positiv auf den Klang auswirkt.
Die Kurve wird ja 'präziser' abgetastet, folglich klingt das auch präziser, höher auflösend.
Genau das ist nicht der Fall, es wird 'lediglich' der abgedeckte Dynamikbereich ausgedehnt - der Klang ist identisch bis auf Nebeneffekte, die sich aus der etwas anderen Signalverbeitung ergeben. Vor allem kommt es (bei einfachen Designs) zu einem massiven Anstieg des Rauschens in den letzten bits, was effektiv in etwa einem dithering Effekt entspricht.

Auf die Einzelheiten der Digitalisierung analoger Bilddaten bin ich nicht eingegangen, weil sie eine andere Zielsetzung hat.
Es wird dort mit Hilfe von Taktimpulsen gezielt nach der Ortsinformation der Pixel gesucht, das Prinzip entspricht aber dem zeilenweise Auslesen eines Scannersensors.

Und noch mal zum konkreten Thread-Bezug: Die Qualitätskriterien bei einer digitalen Audiodatei sind die ausschließlich Abtastrate ("Sampleanzahl") und die Bittiefe pro sample. Genauso wie bei einem Bild die Qualitätskritrien Pixelanzahl und Bittiefe pro Pixel sind. Weitere gibt es aus digitaler sich nicht (weil wie ja die "Herkunft" unberücksichtig lassen). Da wird mir hier doch wohl keiner widersprechen, oder?

doch, im konkreten Bezug auf das Thema muss da Widerspruch kommen

was wir über die grundsätzlichen Randbedingungen der Digitalisierung von Audio-Daten geschrieben haben, bezieht sich nur auf die allererste Aufnahme, eben das Umwandeln des kontinuierlichen Analogsignals in feste Zahlenwerte.

Das eigentliche Thema ist aber der Umgang mit dem 'Gebrauchsformat', das aus dem Ursprungsmaterial mit Hilfe eines Encoders gewonnen wird.
Stichwort Codec (Codierer/Decodierer)

Da gibt es sicher ein dutzend und mehr Varianten, die teilweise drastische Qualitätsunterschiede bei derselben Bandbreite aufweisen.
Im Gegensatz zu den festen Formaten (Bild: pixel x,y,Farbe und Audio: 'eingefrorene' Wellenform) wird dabei versucht innerhalb einer verfügbaren Bandbreite möglichst authentische Information zu übermitteln.
In dem Fall ähneln sich (die encodierten) Audio und Videodaten wesentlich mehr, weil es grob vereinfacht darum geht, die Veränderungen des Dateninhalts über die Zeit abzubilden.

cheers, Tom

968 · 23.12.11

developerguy schrieb:
Gut, anhören ist wohl kaum möglich für alle Dateien. Mit dem Downloadshop liegst Du nicht ganz daneben aber es ist ein wenig mehr als das. Wenn ich kann schreibe ich in 3-4 Monaten hier etwas darüber wenn es fertig ist.

Die Dateien wollten wir auch mit sox erzeugen, da SoX Dateien direkt trimmen kann für Samples und auch konvertieren kann. ffmpeg wäre natürlich eine Alternative, wir haben ffmpeg schon für Videos verwendet, aber wenn SoX alles tut warum auf ein zweites Programm ausweichen. Oder würdest Du oder auch gern jemand anderes eventuell etwas ganz anderes Vorschlagen? Die Software sollte auf BSD oder Linux laufen können und eine vernünftig zu verarbeitende Ausgabe haben die man weiterverarbeiten kann.

Vielen Dank für die ganzen freundlichen und fachlich guten Antworten. Wenn viele IT-Foren nur mal so einen guten Ton anschlagen würden.

OK. Zurück zum Thema.

Schau Dir mal AWE Audiotools von Minnetonka. Das kann ziemlich viel und unterstützt Batch Prozessing oder auch die Ablage ubterschiedlich bearbeiteter Files in verschiedenen Ordnern auch im Netzwerk.

Qualität von digitalen Audiodaten auslesen?

Anhänge

Quick Links

Wie Home-Studio erweitern?

Probleme beim Aufzeichnen von PC-Audio über Focusrite Scarlett

Verständnis Frage - Erläuterung einiger Grundbegriffe