English summary – Should you use CPU or GPU option with an intel iGPU/APU:
Even if you don‘t have a dedicated GPU on your desktop PC or laptop, the GPU option (default) will run cooler and much faster than CPU. Expect a little less than 1 minute compute time for 1 minute of speech on a 2021 Intel UHD 750. Using the CPU, it will take much longer.
Deutsche Zusammenfassung
Sogar wenn man am PC oder Notebook nur eine integrierte GPU hat, ist GPU (standardmäßig bei vibe ausgewählt) die bessere Option. Versuche jedoch, den VRAM zu erhöhen auf 12GB, um Wortwiederholungen zu vermeiden.
Die ganze Geschichte:
Als jemand der WhisperX und Co nicht zum laufen bekommen hat, jedoch meine Daten lokal transkribieren wollte, habe ich endlich die Lösung gefunden: Das open source Programm Vibe kommt als simples Programm für alle Betriebssysteme. Ich habe es auf Windows ausprobiert. Beim ersten Start läd es das KI Modell herunter (Standard: )
In den Programmeinstellungen kann man CPU und GPU Modus auswählen. Ich habe die KI befragt, was für mich sinnvoller ist, da ich nur eine günstige integrierte Intel UHD750 im Core i5-11600 APU als Grafikkarte habe. Die KI riet mir in jedem Falle zu CPU. Der Praxistest zeigt jedoch: GPU funktioniert ca 10x schneller. CPU hat hingegen genauere Ergebnisse erzielt.
Tolle Features von Vibe TTS:
Man kann einen kompletten Ordner zur Stapelverarbeitung rein schieben.
Es erkennt diverse Dateiformate.
Speaker Diarization (dann jedoch ohne Wort-Timestamp, nur Satz-Timestamp)
Formate: TXT, SRT, DOCX, VTT, JSON
Performance: 10-Minuten-WAV braucht auf der UHD 750 ca 8 Minuten fürs transkribieren.
Praxistipp: Alte Diktiergerät Aufzeichnungen im Festplattenchaos finden
Ich nutze das Programm „Everythring“ für schnelle Suche. Ordner mit Aufzeichnungen vom handy oder vom Softphone heißen etwa:
„standard recordings“ „Standard-Aufzeichnung“ „recordings“ „Recorders“ „AudioRecorderFree“ „SoundRecorder“
„\Android\data\com.microsingle.voicerecorder\files\recorder“
Die Dateien selber heißen z.B.:
Meine Aufzeichnung#12
record20170514083728
rec_82xx_07967x9_079672x@250520_105638
2024_10_29_12_00_24_1
Standard 124
TonAufzeichnung.opus