Das bekannteste Text-to-Speech-Tool ElevenLabs hat inzwischen ernstzunehmende Konkurrenz aus der Open-Source-Welt bekommen. Besonders spannend finde ich aktuell Voicebox – komplett lokal, datenschutzfreundlich und kostenlos.
Was kann das Tool?
Voicebox positioniert sich als All-in-One-Lösung für KI-gestützte Audioproduktion. Das steckt drin:
- Voice Cloning auf Basis des Sprachmodells Qwen3
- Transkription über eine integrierte Whisper-Schnittstelle
- Audioschnitt direkt im Tool
Das Tool steht noch am Anfang seiner Entwicklung – aber was jetzt schon funktioniert, macht Lust auf mehr.
Wie nutze ich das Tool?
- Voicebox herunterladen und installieren
- Neues Stimmprofil anlegen – dafür reichen bereits 10–30 Sekunden Referenzaudio
- Text eingeben, Generierung abwarten und das fertige Audio abspeichern
Wie viel kostet das Tool?
Nichts. Voicebox ist kostenlos.



