Ich bin zwar noch am Probieren und habe nicht die letzten Feinheiten verglichen, jedoch scheint mir zummindest die Seperation in bis zu vier Stems ähnlich gut wie die von Moise zu sein.
Die Separation habe ich mir nun noch einmal mit meinen Bordmitteln genauer angesehen. Mich interessierte dabei, wie gut sich die eingebaute OPENVINO Music Separation im Vergleich mit der KI Moises schlägt sowie, welche Auswirkung Änderungen der Option "Shift" qualitativ hat.
Als Testobjekt diente mir ein kurzes, mit dem BOSS BR-80 aufgenommenes Geburtstagsständchen, das zwar Gitarre, Schlagzeug und Gesang enthält, jedoch keinen Bass. Dabei ging ich von der Annahme aus, dass ein wichtiges Qualitätsmerkmal der Separation ein möglichst geringer Geräuschpegel der Bass-Spur ist, weil dieser Pegel weitgehend auf unerwünschtes Nebensprechen der Nachbarspuren hinweist.
Wie im Readme
https://github.com/intel/openvino-p...in/doc/feature_doc/music_separation/README.md kurz dargestellt, kann sich die Qualität durch Erhöhen des Wertes für Shift bei gleichzeitiger annähernd linear erhöhter Analysezeit verbessern. Das habe ich für die Werte 1, 4 und 8 einmal nachvollzogen und mit dem Ergebnis von Moises verglichen. Den Nebensprechabstand habe ich näherungsweise bestimmt, indem ich jeweils die Bass-Spur mit dem Verstärken-Effekt automatisch auf O dB-Pegel anheben ließ und den dabei angezeigten Verstärkungswert als Abstand annahm.
Daraus resultierten die folgenden Ergebnisse:
Shift - Nebensprechabstand - Verbesserung - Analysedauer
1 - 43,275 dB gleichmäßig - - - 1:12
2 - 46,034 dB gleichmäßig - 2,768 dB - 2:41
4 - 47,422 dB gleichmäßig - 4,147 dB - 5:58
8 - 49,041 dB gleichmäßig - 5,766 dB - 13:12
Moises- 24,996 dB Schwankungen- -18,279 dB - nicht vergleichbar
Es ergeben sich also mit jeder Shift-Verdoppelung eine merkliche Verbesserung des Nebensprechabstands bei gleichzeitig etwa linear zunehmender Analysedauer.
So weit so gut, wirklich erstaunlich war für mich der Vergleich der Audacityfunktion mit der Separation von Moises, die zeitweise einen wesentlich schlechteren Nebensprechabstand bei starken Schwankungen im zeitlichen Verlauf zeigte: