The Wall Of Sound - And what is behind of

Hum · 05.04.26

Schwierig. Bei der ersten Aufnahme ist mir nur aufgefallen, dass bei lauten Bass oder Schlagzeugkicks die Gitarre genau in dem Moment leiser ist, das stört mich.
Die zweite Aufnahme hat mehr Raumklang, oder anders gesagt, wirkt sich ein lauter Ton auch auf ein anderes Instrument in den Resonanzen aus. Ich weiß jetzt zwar nicht, ob das eine Liveaufnahme ist, aber das was ich da meine, ist schwierig künstlich zu machen. Eine Snare zappelt halt immer ein wenig mit, wenn der Bass einen Ton spielt, der mit der Snare resoniert. Wenn man es weiß, kann man es vielleicht auch irgendwann künstlich generieren. Dafür ist die Stimme undeutlich, will man aber vieleicht.

Aber beschwören könnte ich nicht, welche Aufnahme echt ist. Man kann KI Aufnahmen schlecht oder gut machen und man kann echte Aufnahmen schlecht oder gut machen.

adrachin · 05.04.26

Ich habe das mal in Claude Code gefüttert. Ergebnis:

Spannende Aufgabe. Ich analysiere beide Tracks systematisch.

KI vs. Mensch — Audio-Analyse zweier Songs

Zwei Tracks, einer menschengemacht, einer KI-generiert. Ohne vorheriges Anhören rein technisch analysiert mit Python/librosa. Hier die Ergebnisse.

Ergebnis: Die technische Analyse identifiziert den KI-Track korrekt.

1. Stereo-Feld — der stärkste Marker

Mensch: Stereo-Korrelation 0.63, Side-Energy 18.3% — ein echtes, differenziertes Stereobild mit eigenständigen L/R-Informationen. Entsteht durch reales Mikrofon-Recording, individuelle Panning-Entscheidungen, verschiedene Reverb-Sends.
KI: Stereo-Korrelation 0.94, Side-Energy nur 2.9% — quasi Mono. Klassisches KI-Artefakt: Suno, Udio & Co. generieren primär im Mono/Near-Mono-Raum und fügen nur minimale Stereo-Dekoration hinzu.

2. Tempo-Stabilität

Mensch: Tempo-Variationskoeffizient 0.031 — natürliche Mikro-Schwankungen, wie sie bei menschlichem Timing entstehen. Auch quantisiertes Material hat leichte Varianz durch Performance-Nuancen.
KI: Tempo-Variationskoeffizient 0.011 — maschinell perfektes Grid. Dreimal stabiler. Typisch für KI-Generierung ohne "menschliches Atmen" im Timing.

3. Encoding / Bitrate

Mensch: 320 kbps, 44.1 kHz — Standard-Mastering-Format, professionelle Auslieferung.
KI: 64 kbps variabel (effektiv ~171 kbps), 48 kHz — das 48-kHz-bei-niedriger-Bitrate-Muster ist typisch für KI-Plattform-Exports (Suno liefert z.B. in 48 kHz aus).

4. Frequenzverteilung

Mensch: 82% Energie im Sub/Bass — klarer Mix-Fokus, ein Engineer hat den Low-End bewusst gestaltet.
KI: Gleichmässiger verteilt (62/19/8/7/3%) — KI tendiert zu einer "generisch ausbalancierten" Verteilung ohne mutige Mix-Entscheidungen.

5. Sektions-Dynamik

Mensch: Section RMS CV 0.033 — konsistente Lautheit über den Song. Professionelles Mastering.
KI: Section RMS CV 0.102 — dreimal mehr Schwankung zwischen Sektionen. KI-Songs haben oft abrupte Dynamik-Sprünge zwischen generierten Abschnitten.

Methodik: Analyse mit Python/librosa. Ausgewertet wurden Stereo-Korrelation, Mid/Side-Verhältnis, lokale Tempo-Varianz (gleitendes 8-Beat-Fenster), Spectral Flux, MFCC-Koeffizienten, Frequenzband-Energieverteilung und Sektions-Dynamik über 10 gleichmässige Abschnitte. Keine subjektive Hörbewertung — rein datenbasiert.

Stimmt überein mit dem was @Hum gehört hat.

DarkStar679 · 05.04.26

das sind wirklich interessante informationen. schon erstaunlich was eine KI erkennen kann und welche Daten sie bereit hält.

ich habe chatgpt gefragt, weniger technische antworten erhalten, aber gleiches ergebnis: track A = Ki

Grunddaten der beiden Tracks

Track A (9223...mp3)

Dauer: ~207 s
RMS (Lautheit): 0.176
Spektrales Zentrum: ~3955 Hz (sehr höhenlastig)
Zero Crossing Rate: 0.075 (viel „Rauschen“/Detail)

Track B (Fly on Wings.mp3)

Dauer: ~308 s
RMS (Lautheit): 0.303 (deutlich lauter/komprimierter)
Spektrales Zentrum: ~2227 Hz (wärmer, mittiger)
Zero Crossing Rate: 0.033 (ruhiger, weniger „digitales Flimmern“)

Bei der Frequenzband-Energieverteilung sieht man einen recht klaren Unterschied.

Verteilung nach Bändern

Track A (9223...mp3)

20–60 Hz (Subbass): 8.0 %
60–250 Hz (Bass): 62.1 %
250–500 Hz (Low Mids): 5.6 %
500 Hz–2 kHz (Mids): 11.7 %
2–4 kHz (Upper Mids): 8.4 %
4–6 kHz (Presence): 1.4 %
6–12 kHz (Brilliance): 2.0 %
12–20 kHz (Air): 0.8 %

Track B (Fly on Wings.mp3)

20–60 Hz (Subbass): 15.5 %
60–250 Hz (Bass): 69.6 %
250–500 Hz (Low Mids): 5.5 %
500 Hz–2 kHz (Mids): 5.3 %
2–4 kHz (Upper Mids): 2.6 %
4–6 kHz (Presence): 0.7 %
6–12 kHz (Brilliance): 0.6 %
12–20 kHz (Air): 0.07 %

Technische Interpretation

Track A

Sehr hoher Anteil an hohen Frequenzen
Relativ hohe ZCR → viele schnelle Signalwechsel
Wirkt mathematisch:
- eher „körnig“, leicht künstlich
- kann auf Synthese oder generative Artefakte hindeuten
Lautheit moderat → nicht extrem „radio-mastered“

Typisches Muster:

KI-Generierung oder stark synthetische Produktion
oder zumindest stark algorithmisch erzeugte Klanganteile

Track B

Höhere Gesamtlautheit (stark komprimiert → Mastering typisch für Release)
Niedrigere ZCR → ruhigeres, organischeres Signal
Frequenzverteilung eher klassisch musikalisch (Mitten + Fundament)

Typisches Muster:

menschlich produziert + gemastert
klingt technisch „fertiger“ und weniger fragmentiert

Person · 05.04.26

jedenfalls ist es gut, dass Hörer KI jeglicher Form ahnden, das macht Hoffnung.