Extremes Rauschen entfernen und Stimme lauter machen.

Dancing Fool · 16.12.25

Michael Scratch schrieb:
Rauschen ist an sich nicht das Problem, wenn es nicht moduliert wäre. Dann könnte man über zumischen des Phasengedrehten Signals sicher was erreichen. Aber nachdem es moduliert, wird es schwierig.

Das ist eigentlich egal. Wenn du die Phasen drehst, wird alles gedreht, da ist es vollkommen egal, ob es moduliert oder nicht. Phasendrehung klappt bspw. dann, wenn man ein Signal aus der Mono-Mitte entfernen (bzw. extrahieren) will. Oder alles unterdrücken will, wie etwa bei Noise Cancelling Kopfhörern. Zur Entrauschung taugt Phasendrehung an sich nicht.

MS-SPO · 16.12.25

Schon erstaunlich, wie viele denken, man könnte Physik mit KI oder einer App umgehen …

Das Signal-Rauschverhältnis ist einfach grottig. Klassisch bleiben jene Anteile auch beim bandfiltern, wie oben skizziert, und Erhörbares klingt blechern (Bandfilter). Wenn KI Sprache rät, wird das verbleibende Rauschen gar manch fremde Laute erzeugen.

Insofern bleibt nur Kafkas „Weg zum Bahnhof“: Gib‘s auf. (Dann bleibt noch Zeit für Alternativen, wie Neuaufnahme oder Transkript)

Dancing Fool · 16.12.25

Lalal.ai macht das übrigens erschreckend gut:

Verstehen kann man dennoch quasi nix.

Beitrag automatisch zusammengefügt: 16.12.25

MS-SPO schrieb:
Schon erstaunlich, wie viele denken, man könnte Physik mit KI oder einer App umgehen

An sich stimme ich zu - aber das Ergebnis, was mir lalal.ai da geliefert hat, ist schon krass. Jetzt müsste nur noch eine andere KI die Worte dechiffrieren und re-synthetisieren. Oder so...

Technika · 16.12.25

Das macht elevenlabs draus

:

Klingt nach ner Mischung aus japanisch und englisch

Wie gesagt würde ich versuchen jemanden zu finden der einen guten Voice Isolator (Final Cut, da Vinci,…) hat. Mit viel Glück kann man am Ende vielleicht was verstehen.

harrymudd · 16.12.25

Technika schrieb:
Das macht elevenlabs draus :

So klingt es, wenn die KI rät

IMHO gibt es kein Verfahren, dass diese Aufnahme wieder herstellen kann, weil einfach zu wenig Nutzsignal vorhanden ist.

Dancing Fool · 16.12.25

Technika schrieb:
Das macht elevenlabs draus

Wie geil!

MS-SPO · 16.12.25

Dancing Fool schrieb:
Lalal.ai macht das übrigens erschreckend gut:
...
Verstehen kann man dennoch quasi nix.

Stimmt: Das Rauschen ist weg.

Was bleibt, ist eine bandbegrenzte blecherne Stimme, wie der Leehrkörper bei den Peanuts. Was an Information nicht (mehr) da ist, kriegt man auch nicht wieder hinein ...

View: https://www.youtube.com/watch?v=ss2hULhXf04

Dancing Fool · 16.12.25

Ich habe die lalal.ai Version nochmal CGPT zum Fraß vorgeworfen - der meint doch glatt, dass jegliche Versuche, da noch etwas rauszuholen bzw. die Sprache zu analysieren, unseriös enden würden. Da muss ich dann wohl zustimmen.

MS-SPO · 16.12.25

Technika schrieb:
Das macht elevenlabs draus :

Jessas

POSITIV gedacht .... könnte man:

könnte man diese Spur nehmen (und/oder mit Dancing Fools Ergebnis)
sie so vergröbern, dass sie praktisch digitale An/Aus-Spuren werden
sie DANN als Steuersignal verwenden, z.B. um nur zu den Sprechzeiten Signal durchzulassen, zu filtern usw.

So könnte man zwei Informationen kombinieren:

das Original mit grottigem SNR
die scharfe Information "hier ist Stimme, und da nicht"
das kann überraschend gut funktionieren
insbesondere, wenn man weitere Varianten zumischt (geweils eigene Spuren: EQ, Distortion, Compression)

Funktionieren kann das, weil man jeweils andere Signalanteile isoliert, die für sich genommen nichts taugen, als geeignete Überlagerung dann aber doch die schwach vorhandene Information hörbar machen.

Für eine Sendung wird es nichts taugen, aber für's Transkribieren (angeblech versteht man's ja, siehe Eröffnungspost).

Burkie · 16.12.25

Manchmal muss man seine Niederlage einfach akzeptieren.

Wenn selbst die Threadstarterin, die sich womöglich mit dem Thema des Interviews auskennt, selbst bei dem durch Lalal.ai gesäuberten Ergebnis nichts sinnvolles versteht, um das Interview zu transkribieren, ist da wohl nichts zu retten.
(Ich z.B. kann mal das ein oder andere einzelne Wort erkennen, aber keine Sätze.)

Sinnvoller wäre es, das Interview einfach erneut zu führen.

Grüße

Dancing Fool · 16.12.25

MS-SPO schrieb:
angeblech versteht man's ja, siehe Eröffnungspost

Hm, das würde mich allerdings jetzt mal wirklich interessieren. "Sehr gut erkennbar" (wie im Eingangsposting ja gesagt) finde ich da mit Ausnahme von ein paar Worten persönlich nix, aber ich habe auch keine güldenen Ohren. Also ok, es ist sehr gut erkennbar, *dass* da gesprochen wird, aber auch *was*?
Und wenn letzteres so wäre, dann würde ich, wie ja bereits von @Burkie vorgeschlagen, ein Transkript anfertigen und das nachsprechen. Denn selbst im mMn extrem unwahrscheinlichen Fall, dass man aus der existierenden Aufnahme etwas auch für Nicht-Aliens wirklich verständliches rauskitzeln kann, wird es ja auf gar keinen Fall eine auch nur ansatzweise präsentable Geschichte werden.

RayBeeger · 16.12.25

Alle Versuche werden da nichts retten. Da sind Hopfen und Malz verloren.

Auch eine KI kann das nicht, weil zu viele Klanginformationen herausgefiltert werden müssen, um es halbwegs verständlich zu machen.

Das nenne ich klassisch: Shit in - shit out!

Eine nochmalige Aufnahme ist nicht zu vermeiden...

Viele Grüße

Ray

edrumssuck · 16.12.25

Thoboe schrieb:
trotzdem ist die Sprache sehr gut erkennbar (Siehe probe.mp3 ).

Ich glaube, unsere Definition von "sehr gut" unterscheidet sich fundamental voneinander.

Da hat mein Opa in den 70ern im Vergleich mit seinen privat aufgenommenen Kinder-Hörspielen ja geradezu unfassbar hervorragende Ergebnisse mit seinem portablen Kassettenrekorder erzielt.

RayBeeger schrieb:
Shit in - shit out!

Besser kann man es nicht formulieren- und bevor man da auch nur 10 Minuten Zeit für die ganze Nachbearbeitung investiert, hätte man die ca. 1:30 Minuten doch schon sechsmal neu aufnehmen können.
Mal interessehalber: Wie wurde das denn überhaupt aufgenommen? Mit einem kaputten Hello-Kitty-Mikrofon? ...SCNR

Dancing Fool · 16.12.25

edrumssuck schrieb:
Wie wurde das denn überhaupt aufgenommen? Mit einem kaputten Hello-Kitty-Mikrofon?

Eher indem man den (ohnehin immer mikrofonischen) Pickup einer Hello Kitty Gitarre umfunktioniert hat. Die Gitarre lief dabei aber noch über einen Flanger.

Habe ich übrigens schon bei einer eher, nunja, experimentellen Live-Performance (war im Theater) so gemacht. Also nicht mit Hello Kitty Modell, aber ich ich musste wildes Geschrei über den sehr mikrofonischen Pickup einer Gitarre raushauen (aus der Not 'ne Tugend und so...). Die Sprachverständlichkeit war vermutlich von ähnlicher Qualität wie die im Eingangsposting.

omnimusicus · 16.12.25

edrumssuck schrieb:
bevor man da auch nur 10 Minuten Zeit für die ganze Nachbearbeitung investiert, hätte man die ca. 1:30 Minuten doch schon sechsmal neu aufnehmen können

Das setzt voraus, daß beim Aufnehmen und Nachbearbeiten die selben Personen im Spiel sind.
Ich muß stark annehmen, daß dies in vorliegendem Falle nicht so ist

Gast313528 · 16.12.25

Der CIA sollte das doch leicht hinbekommen.

Dancing Fool · 16.12.25

HerrKoolS schrieb:
Der CIA sollte das doch leicht hinbekommen.

Vielleicht hatten die zum Zeitpunkt des Interviews ja irgendwo eine Kamera installiert. Dann bräuchte man kein Audio-Restaurations-Tool sondern einen Lippenleser.

Luparo · 16.12.25

HerrKoolS schrieb:
Der CIA sollte das doch leicht hinbekommen.

Womöglich ist der Threadersteller von der CIA und sucht jetzt Wege, um diese Aufnahme verständlich zu machen, welche in Wirklichkeit gar kein Interview ist, sondern ...

Dancing Fool · 16.12.25

Zeit, mal nach Rückwärtsbotschaften zu suchen, oder?

RayBeeger · 16.12.25

Unsere Geheimdienste, oder auch ausländische Dienste werden daraus keine brauchbare oder zur Weiterverarbeitung geeignete Spur generieren können.
Bei denen geht es nur darum, dass man den Inhalt irgendwie erfassen kann.

Das, was hier angeboten wurde klingt für mich wie ein Raummikrofon, dass irgendwie mitlief und den Inhalt sehr leise mitgeschnitten hat. Mehr muss man dazu nicht sagen...

Extremes Rauschen entfernen und Stimme lauter machen.

Beiträge mit meisten Reaktionen

Quick Links

BAE 1073 MP – Gain & Impedanz (300 / 1200) für Neumann TLM 107 – eure Erfahrungen?

Mischpult + Raummikrofon = BÄM!

Hallräume auf Rebekka Bakken "Nord"