Voice-AI kann inzwischen Anrufe annehmen, qualifizieren und terminieren — aber nicht überall gleich gut. Ein nüchterner Vergleich von Lindy, Vapi und Retell entlang Voice-Quality, Latenz, deutscher Sprachunterstützung und realer Edge-Cases aus Production-Setups.
Wofür Voice-AI heute wirklich taugt
2026 sind Voice-Agents kein Spielzeug mehr. Sie nehmen produktiv Anrufe an, qualifizieren Kandidaten und Leads, terminieren mit echten Kalendern und übergeben sauber an Menschen. Aber nicht überall.
Die drei realistischen Use-Cases:
- Recruiting-Pre-Screen: ein Bewerber ruft an, Voice-Agent prüft Eignung (Position passt, Verfügbarkeit passt, Gehaltsvorstellung im Korridor), terminiert bei Match einen Calendly-Slot oder schickt höfliche Absage. Spart das gesamte Tier-1-Screening.
- Sales-Qualifizierung: Inbound-Anfrage auf einer Werbe-Nummer wird angenommen, qualifiziert (Budget, Use-Case, Decision-Maker?), bei Fit Termin gebucht, sonst Self-Serve-Content geschickt.
- Support-Triage: 24/7-Erreichbarkeit für einfache Fragen (Öffnungszeiten, Bestellstatus, Liefertermine). Komplexe Fragen werden an menschliche Agents weitergegeben mit vorab erstelltem Ticket.
Was Voice-AI nicht kann (Stand Mai 2026): emotional schwierige Gespräche führen (Beschwerden), komplexe Verhandlungen führen, kreative Lösungen aushandeln. Wer das versucht, hat schlechte Calls und verlorene Kunden.
Voice-Quality: ElevenLabs vs OpenAI vs Cartesia
Die Voice-Engine ist der wichtigste qualitative Hebel — schlechte Stimme = Bot offensichtlich = Abbruch-Rate hoch. Aktuelle Stack-Optionen:
ElevenLabs
Aktuell das Beste für deutsche Stimmen. Multilingual v2 klingt bei deutschen Mustern überzeugend, mit echten Pausen, Atmern, kleinen Korrekturen. Voice-Cloning ist erlaubt (mit Consent) — wir clonen oft die Stimme des Recruiters, damit Bewerber später keine Tone-Inkonsistenz erleben. Latenz Time-to-First-Audio: ca. 300–500 ms.
OpenAI TTS (gpt-4o-mini-tts)
Schneller (200–400 ms TTFA), günstiger, aber Stimme klingt deutscher gesprochen wie ein Synthesizer. Wir nutzen es für Use-Cases, wo Geschwindigkeit > Authentizität (z.B. Outbound-Reminder-Calls).
Cartesia (Sonic)
Beeindruckend niedrige Latenz (80–150 ms TTFA), perfekt für sehr interaktive Konversationen. Deutsche Stimmen wachsen langsam — Stand jetzt klingen Englisch und Spanisch deutlich besser als Deutsch.
Faustregel: für deutsche Production-Calls ElevenLabs, für englische Cartesia, OpenAI als günstige Alternative bei toleranter Qualität.
Latenz: der UX-kritische Faktor
Menschen merken Latenzen unter Telefon-Bedingungen extrem schnell. Über 800 ms Pause nach dem letzten Wort, und das Gespräch fühlt sich an wie mit einer alten Bandansage.
Die Latenz-Kette besteht aus mehreren Stages:
- STT (Speech-to-Text via Whisper, AssemblyAI oder Deepgram): 100–400 ms
- LLM-Reasoning (Claude oder GPT-4o): 400–1200 ms
- TTS (Voice-Generation): 80–500 ms
- Netzwerk-Roundtrip: 50–150 ms
Gut gebaute Voice-Agents kommen unter 800 ms End-to-End. Schlecht gebaute liegen bei 2–4 Sekunden — und werden nach 30 Sekunden Gespräch aufgelegt.
Tricks für niedrige Latenz: Streaming-STT (Deepgram statt Whisper), kleinere LLM-Modelle für simple Turns (Claude Haiku statt Sonnet), Cached-TTS für wiederkehrende Phrasen („Einen kleinen Moment bitte", „Verstehe, kein Problem"). Vapi und Retell exponieren diese Tunings, Lindy abstrahiert sie weg.
Lindy: das Low-Code-Tool
Lindy AI ist das einsteigerfreundlichste der drei. Visual-Flow-Builder, fertige Integrationen für Calendly, HubSpot, Cal.com, Slack. Setup eines Recruiting-Bots: 2–4 Stunden bis Production-Ready.
Stärken:
- Schnellster Time-to-Value
- Saubere Integration mit Calendar-Tools out-of-the-box
- Eingebauter Voicemail-Drop, Call-Recording, Transkripte
- Multi-Lingual-Setup mit vorgewählten Stimmen
Schwächen:
- Wenig Kontrolle über Latenz-Optimierung
- Custom-Logik (z.B. Lookup gegen externe DB) muss über Webhooks abgebildet werden — funktioniert, ist aber holprig
- Pricing skaliert pro Minute (ca. 0,12–0,18 EUR/Min Voice + 0,02 EUR LLM) — wird bei hohen Volumen teuer
Wir nutzen Lindy für Setups, die schnell live müssen und wo der Custom-Logik-Bedarf gering ist — etwa Recruiting-Pre-Screen für Social-Recruiting-Agenturen.
Vapi: der Developer-First-Layer
Vapi ist die Plattform für Teams, die mit Code arbeiten. SDK in TypeScript und Python, fertige Telephony über Twilio oder eigene SIP-Trunks, vollständige Kontrolle über Voice-Pipeline.
Stärken:
- Sehr niedrige Latenz erreichbar (sub-800 ms) bei sauberem Tuning
- Voice-Provider frei wählbar (ElevenLabs, Cartesia, OpenAI, Custom-TTS)
- LLM frei wählbar (Claude, GPT, OpenRouter-Modelle)
- Tool-Use-Pattern für CRM-Lookups, Custom-Functions
- Function-Calls mit Mid-Call-Interruption — der Bot kann während des Sprechens unterbrechen werden
Schwächen:
- Bauen statt Klicken — nichts für Non-Devs
- Mehr Eigenverantwortung für Edge-Cases (z.B. „Bot wartet zu lange auf User-Antwort, was tun?")
- Voice-Recordings und Transkripte muss man selbst persistieren
Vapi ist unsere Wahl, wenn ein Voice-Agent tief in Custom-Logik integriert sein muss — etwa als Inbound-Sales-Bot, der vor jeder Frage gegen die eigene Supabase-Datenbank lookuppen muss, ob der Anrufer bereits Kunde ist, welcher Produkt-Mix interessant ist, etc.
Retell: der Mittelweg
Retell positioniert sich zwischen Lindy und Vapi: API-First, aber mit gutem Web-Dashboard und vorgefertigten Templates. Niedrige Latenz, gute Voice-Quality, Telephony über Twilio.
Stärken:
- Sehr gute End-to-End-Latenz (unter 800 ms erreichbar)
- Schöne Web-UI für Konfiguration ohne Code
- Saubere REST-API für Custom-Funktionen
- Eingebautes Call-Analytics-Dashboard
Schwächen:
- Voice-Provider-Auswahl etwas kleiner als bei Vapi
- EU-Hosting unklar (das könnte ein Show-Stopper für DSGVO-sensitive Setups sein)
- Community kleiner als Vapi → bei Edge-Cases weniger Vorlagen
Retell ist unser „mittleres" Tool — wenn ein Setup mehr Kontrolle als Lindy braucht, aber kein vollständiges Dev-Setup wie Vapi. Wir nutzen es für mittelständische Sales-Inbound-Setups.
Cost-per-Minute im Vergleich
Voice-AI rechnet pro Minute Audio. Stand 2026 für deutsche Setups:
- Lindy: 0,12–0,18 EUR/Min (inklusive LLM + Voice + Telephony) — am einfachsten zu kalkulieren, aber teuer bei Volumen.
- Vapi: ca. 0,05 EUR/Min Plattform-Fee + 0,03–0,08 EUR/Min ElevenLabs + 0,01–0,04 EUR/Min LLM + 0,02 EUR/Min Twilio = ca. 0,11–0,19 EUR/Min. Mehr Komplexität, aber jedes Element optimierbar.
- Retell: ähnlich wie Vapi, ca. 0,10–0,16 EUR/Min All-in.
Konkret: bei 500 Anrufen/Monat à 4 Min Durchschnitt = 2.000 Min/Monat = 200–360 EUR Voice-Cost. Das ist ein Bruchteil eines SDR-Vollzeit-Gehalts (4.500 EUR+) und skaliert linear.
Wer 5.000+ Min/Monat hat, lohnt sich Vapi mit eigenem Voice-Provider-Deal — Custom-Rates über 30 % unter Listenpreis sind verhandelbar.
Deutsche Sprachunterstützung: kritisch für DACH
Englischer Voice-Support ist 2026 überall solide. Deutsch ist eine andere Geschichte.
- STT auf Deutsch: Deepgram (Nova-3) und Whisper sind beide gut. Wer Schweizerdeutsch oder österreichischen Dialekt erwartet, sollte Whisper bevorzugen — robuster bei nicht-hochdeutschen Akzenten.
- LLM auf Deutsch: Claude (Sonnet) und GPT-4o sind beide auf Deutsch native-level. Claude hat unserer Erfahrung nach die etwas natürlichere Satzstellung, GPT ist schneller.
- TTS auf Deutsch: ElevenLabs ist deutlich vorn. Lokale Alternativen (CoquiTTS, Bark) sind technisch interessant, aber im Production-Setup nicht stabil genug.
Achtung: alle drei Plattformen (Lindy, Vapi, Retell) konfigurieren Deutsch über Flag — aber die Default-Stimmen sind meist auf Englisch optimiert. Immer eine deutsche Voice-ID explizit setzen, sonst klingt der Bot nach „Deutsch mit US-Akzent", was Bewerber und Kunden sofort triggert.
Wo es noch nicht funktioniert — und Empfehlung
Edge-Cases, die wir produktiv erlebt haben und an denen Voice-AI bricht:
- Sehr ältere Anrufer (70+): Sprachgeschwindigkeit zu langsam, Bot interrupted, Konversation bricht zusammen. Wir bauen für solche Segmente immer eine „Press 0 for human"-Option ein.
- Hintergrundgeräusche (Bewerber ruft aus der Werkstatt): STT-Qualität sinkt, Hallucinations bei Whisper steigen. Lösung: längere End-of-Speech-Detection-Windows, was Latenz erhöht — Trade-off.
- Komplexe Emotionen („Mein Hund ist gestorben, deshalb hab ich abgesagt"): Bot reagiert mit „Verstehe, dann buchen wir einen neuen Termin" — wirkt kalt. Wir filtern emotionale Indikatoren früh und routen sofort zum Menschen.
- Mehrfach-Sprecher (Bewerber + Partnerin im selben Raum): STT bekommt verwirrt, der Bot redet mit der falschen Person. Schwer zu lösen.
Empfehlung
Für die meisten DACH-Use-Cases empfehlen wir folgenden Stack:
- Schneller MVP, geringes Volumen, Recruiting-Pre-Screen → Lindy
- Production-Setup mit Custom-CRM-Integration → Vapi + ElevenLabs + Claude Sonnet
- Mittleres Setup, Sales-Inbound mit guter UI → Retell
In jedem Fall: Eskalations-Pfad zu Menschen einbauen, Call-Recordings DSGVO-konform speichern, Transkripte ins CRM pushen. Voice-AI funktioniert nicht ohne diese Schicht — sie ist die Sicherung, wenn der Bot nicht weiterkommt.