Ich vertraue den amerikanischen KI Cloud Diensten nicht. Um meine Sprachnotizen der letzten Jahre in Text umzuwandeln, habe ich  daher eine Lösung gesucht die auf dem eigenen PC läuft. Das Programm VIBE läuft unter Windows auf jedem handelsüblichen Intel PC  der letzten paar Jahre auch ohne extra Grafikkarte. Dort schiebt man einfach einen Ordner mit Audiodaten rein und er wandelt es in TXT, SRT etc um. Mit AMD habe ich es nicht probiert und ideal sind wahrscheinlich Grafikkarten ab RTX 3060 oder neuer. Da ich so eine nicht habe, stellte sich mir die Frage nach den richtigen Einstellungen.

Deutsche Zusammenfassung – CPU vs GPU für VIBE Transkriptionen

Die Standard-Einstellungen sind ausreichend. Wenn man am PC oder Notebook nur eine schwache integrierte GPU hat, ist GPU (standardmäßig bei vibe ausgewählt) die bessere Option. Um Halluzinationen/Wortwiederholungen zu vermeiden ist ein großer VRAM sinnvoll. Bei Intel Iris Xe ist der VRAM in der Regel die Hälfte des Systemspeichers.

Die ganze Geschichte:

Als jemand der WhisperX und Co nicht zum laufen bekommen hat, jedoch meine Daten lokal transkribieren wollte, habe ich endlich die Lösung gefunden: Das open source Programm Vibe kommt als simples Programm für alle Betriebssysteme. Ich habe es auf Windows ausprobiert. Beim ersten Start lädt es das KI Modell herunter (Standard Modell reicht aus )

 

In den Programmeinstellungen kann man CPU und GPU Modus auswählen. Ich habe die KI befragt, was für mich sinnvoller ist, da ich nur eine günstige integrierte Intel UHD750 im Core i5-11600 APU als Grafikkarte habe. Die KI riet mir in jedem Falle zu CPU. Der Praxistest zeigt jedoch: GPU funktioniert ca 10x schneller. CPU hat hingegen genauere Ergebnisse erzielt.

Tolle Features von Vibe TTS:

Man kann einen kompletten Ordner zur Stapelverarbeitung rein schieben.

Es erkennt diverse Dateiformate.

Speaker Diarization (dann jedoch ohne Wort-Timestamp, nur Satz-Timestamp)

Formate: TXT, SRT, DOCX, VTT, JSON

 

Performance: 10-Minuten-WAV braucht auf der UHD 750 ca 8 Minuten fürs transkribieren.

 

Praxistipp: Alte Diktiergerät Aufzeichnungen im Festplattenchaos finden

Ich nutze das Programm „Everythring“ für schnelle Suche. Ordner mit Aufzeichnungen vom handy oder vom Softphone heißen etwa:

„standard recordings“  „Standard-Aufzeichnung“  „recordings“  „Recorders“  „AudioRecorderFree“  „SoundRecorder“

„\Android\data\com.microsingle.voicerecorder\files\recorder“

Die Dateien selber heißen z.B.:

Meine Aufzeichnung#12

record20170514083728

REC20200209231918.mp3

TX00_MIC001_20250913_182847_orig.wav

rec_82362_0736759_0748725@250520_105638

2024_10_29_12_00_24_1

Standard 124

Standard-Aufzeichnung 60.mp3

TonAufzeichnung.opus

 

 

English summary – CPU vs GPU option with an intel iGPU/APU:

Even if you don‘t have a dedicated GPU on your desktop PC or laptop, the GPU option (default) will run cooler and much faster than CPU. Expect a little less than 1 minute compute time for 1 minute of speech on a 2021 Intel UHD 750. Using the CPU, it will take much longer.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert