Voice-AI kann inzwischen Anrufe annehmen, qualifizieren und terminieren — aber nicht überall gleich gut. Ein nüchterner Vergleich von Lindy, Vapi und Retell entlang Voice-Quality, Latenz, deutscher Sprachunterstützung und realer Edge-Cases aus Production-Setups.

Wofür Voice-AI heute wirklich taugt

2026 sind Voice-Agents kein Spielzeug mehr. Sie nehmen produktiv Anrufe an, qualifizieren Kandidaten und Leads, terminieren mit echten Kalendern und übergeben sauber an Menschen. Aber nicht überall.

Die drei realistischen Use-Cases:

Recruiting-Pre-Screen: ein Bewerber ruft an, Voice-Agent prüft Eignung (Position passt, Verfügbarkeit passt, Gehaltsvorstellung im Korridor), terminiert bei Match einen Calendly-Slot oder schickt höfliche Absage. Spart das gesamte Tier-1-Screening.
Sales-Qualifizierung: Inbound-Anfrage auf einer Werbe-Nummer wird angenommen, qualifiziert (Budget, Use-Case, Decision-Maker?), bei Fit Termin gebucht, sonst Self-Serve-Content geschickt.
Support-Triage: 24/7-Erreichbarkeit für einfache Fragen (Öffnungszeiten, Bestellstatus, Liefertermine). Komplexe Fragen werden an menschliche Agents weitergegeben mit vorab erstelltem Ticket.

Was Voice-AI nicht kann (Stand Mai 2026): emotional schwierige Gespräche führen (Beschwerden), komplexe Verhandlungen führen, kreative Lösungen aushandeln. Wer das versucht, hat schlechte Calls und verlorene Kunden.

Voice-Quality: ElevenLabs vs OpenAI vs Cartesia

Die Voice-Engine ist der wichtigste qualitative Hebel — schlechte Stimme = Bot offensichtlich = Abbruch-Rate hoch. Aktuelle Stack-Optionen:

ElevenLabs

Aktuell das Beste für deutsche Stimmen. Multilingual v2 klingt bei deutschen Mustern überzeugend, mit echten Pausen, Atmern, kleinen Korrekturen. Voice-Cloning ist erlaubt (mit Consent) — wir clonen oft die Stimme des Recruiters, damit Bewerber später keine Tone-Inkonsistenz erleben. Latenz Time-to-First-Audio: ca. 300–500 ms.

OpenAI TTS (gpt-4o-mini-tts)

Schneller (200–400 ms TTFA), günstiger, aber Stimme klingt deutscher gesprochen wie ein Synthesizer. Wir nutzen es für Use-Cases, wo Geschwindigkeit > Authentizität (z.B. Outbound-Reminder-Calls).

Cartesia (Sonic)

Beeindruckend niedrige Latenz (80–150 ms TTFA), perfekt für sehr interaktive Konversationen. Deutsche Stimmen wachsen langsam — Stand jetzt klingen Englisch und Spanisch deutlich besser als Deutsch.

Faustregel: für deutsche Production-Calls ElevenLabs, für englische Cartesia, OpenAI als günstige Alternative bei toleranter Qualität.

Latenz: der UX-kritische Faktor

Menschen merken Latenzen unter Telefon-Bedingungen extrem schnell. Über 800 ms Pause nach dem letzten Wort, und das Gespräch fühlt sich an wie mit einer alten Bandansage.

Die Latenz-Kette besteht aus mehreren Stages:

STT (Speech-to-Text via Whisper, AssemblyAI oder Deepgram): 100–400 ms
LLM-Reasoning (Claude oder GPT-4o): 400–1200 ms
TTS (Voice-Generation): 80–500 ms
Netzwerk-Roundtrip: 50–150 ms

Gut gebaute Voice-Agents kommen unter 800 ms End-to-End. Schlecht gebaute liegen bei 2–4 Sekunden — und werden nach 30 Sekunden Gespräch aufgelegt.

Tricks für niedrige Latenz: Streaming-STT (Deepgram statt Whisper), kleinere LLM-Modelle für simple Turns (Claude Haiku statt Sonnet), Cached-TTS für wiederkehrende Phrasen („Einen kleinen Moment bitte", „Verstehe, kein Problem"). Vapi und Retell exponieren diese Tunings, Lindy abstrahiert sie weg.

Lindy: das Low-Code-Tool

Lindy AI ist das einsteigerfreundlichste der drei. Visual-Flow-Builder, fertige Integrationen für Calendly, HubSpot, Cal.com, Slack. Setup eines Recruiting-Bots: 2–4 Stunden bis Production-Ready.

Stärken:

Schnellster Time-to-Value
Saubere Integration mit Calendar-Tools out-of-the-box
Eingebauter Voicemail-Drop, Call-Recording, Transkripte
Multi-Lingual-Setup mit vorgewählten Stimmen

Schwächen:

Wenig Kontrolle über Latenz-Optimierung
Custom-Logik (z.B. Lookup gegen externe DB) muss über Webhooks abgebildet werden — funktioniert, ist aber holprig
Pricing skaliert pro Minute (ca. 0,12–0,18 EUR/Min Voice + 0,02 EUR LLM) — wird bei hohen Volumen teuer

Wir nutzen Lindy für Setups, die schnell live müssen und wo der Custom-Logik-Bedarf gering ist — etwa Recruiting-Pre-Screen für Social-Recruiting-Agenturen.

Vapi: der Developer-First-Layer

Vapi ist die Plattform für Teams, die mit Code arbeiten. SDK in TypeScript und Python, fertige Telephony über Twilio oder eigene SIP-Trunks, vollständige Kontrolle über Voice-Pipeline.

Stärken:

Sehr niedrige Latenz erreichbar (sub-800 ms) bei sauberem Tuning
Voice-Provider frei wählbar (ElevenLabs, Cartesia, OpenAI, Custom-TTS)
LLM frei wählbar (Claude, GPT, OpenRouter-Modelle)
Tool-Use-Pattern für CRM-Lookups, Custom-Functions
Function-Calls mit Mid-Call-Interruption — der Bot kann während des Sprechens unterbrechen werden

Schwächen:

Bauen statt Klicken — nichts für Non-Devs
Mehr Eigenverantwortung für Edge-Cases (z.B. „Bot wartet zu lange auf User-Antwort, was tun?")
Voice-Recordings und Transkripte muss man selbst persistieren

Vapi ist unsere Wahl, wenn ein Voice-Agent tief in Custom-Logik integriert sein muss — etwa als Inbound-Sales-Bot, der vor jeder Frage gegen die eigene Supabase-Datenbank lookuppen muss, ob der Anrufer bereits Kunde ist, welcher Produkt-Mix interessant ist, etc.

Retell: der Mittelweg

Retell positioniert sich zwischen Lindy und Vapi: API-First, aber mit gutem Web-Dashboard und vorgefertigten Templates. Niedrige Latenz, gute Voice-Quality, Telephony über Twilio.

Stärken:

Sehr gute End-to-End-Latenz (unter 800 ms erreichbar)
Schöne Web-UI für Konfiguration ohne Code
Saubere REST-API für Custom-Funktionen
Eingebautes Call-Analytics-Dashboard

Schwächen:

Voice-Provider-Auswahl etwas kleiner als bei Vapi
EU-Hosting unklar (das könnte ein Show-Stopper für DSGVO-sensitive Setups sein)
Community kleiner als Vapi → bei Edge-Cases weniger Vorlagen

Retell ist unser „mittleres" Tool — wenn ein Setup mehr Kontrolle als Lindy braucht, aber kein vollständiges Dev-Setup wie Vapi. Wir nutzen es für mittelständische Sales-Inbound-Setups.

Cost-per-Minute im Vergleich

Voice-AI rechnet pro Minute Audio. Stand 2026 für deutsche Setups:

Lindy: 0,12–0,18 EUR/Min (inklusive LLM + Voice + Telephony) — am einfachsten zu kalkulieren, aber teuer bei Volumen.
Vapi: ca. 0,05 EUR/Min Plattform-Fee + 0,03–0,08 EUR/Min ElevenLabs + 0,01–0,04 EUR/Min LLM + 0,02 EUR/Min Twilio = ca. 0,11–0,19 EUR/Min. Mehr Komplexität, aber jedes Element optimierbar.
Retell: ähnlich wie Vapi, ca. 0,10–0,16 EUR/Min All-in.

Konkret: bei 500 Anrufen/Monat à 4 Min Durchschnitt = 2.000 Min/Monat = 200–360 EUR Voice-Cost. Das ist ein Bruchteil eines SDR-Vollzeit-Gehalts (4.500 EUR+) und skaliert linear.

Wer 5.000+ Min/Monat hat, lohnt sich Vapi mit eigenem Voice-Provider-Deal — Custom-Rates über 30 % unter Listenpreis sind verhandelbar.

Deutsche Sprachunterstützung: kritisch für DACH

Englischer Voice-Support ist 2026 überall solide. Deutsch ist eine andere Geschichte.

STT auf Deutsch: Deepgram (Nova-3) und Whisper sind beide gut. Wer Schweizerdeutsch oder österreichischen Dialekt erwartet, sollte Whisper bevorzugen — robuster bei nicht-hochdeutschen Akzenten.
LLM auf Deutsch: Claude (Sonnet) und GPT-4o sind beide auf Deutsch native-level. Claude hat unserer Erfahrung nach die etwas natürlichere Satzstellung, GPT ist schneller.
TTS auf Deutsch: ElevenLabs ist deutlich vorn. Lokale Alternativen (CoquiTTS, Bark) sind technisch interessant, aber im Production-Setup nicht stabil genug.

Achtung: alle drei Plattformen (Lindy, Vapi, Retell) konfigurieren Deutsch über Flag — aber die Default-Stimmen sind meist auf Englisch optimiert. Immer eine deutsche Voice-ID explizit setzen, sonst klingt der Bot nach „Deutsch mit US-Akzent", was Bewerber und Kunden sofort triggert.

Wo es noch nicht funktioniert — und Empfehlung

Edge-Cases, die wir produktiv erlebt haben und an denen Voice-AI bricht:

Sehr ältere Anrufer (70+): Sprachgeschwindigkeit zu langsam, Bot interrupted, Konversation bricht zusammen. Wir bauen für solche Segmente immer eine „Press 0 for human"-Option ein.
Hintergrundgeräusche (Bewerber ruft aus der Werkstatt): STT-Qualität sinkt, Hallucinations bei Whisper steigen. Lösung: längere End-of-Speech-Detection-Windows, was Latenz erhöht — Trade-off.
Komplexe Emotionen („Mein Hund ist gestorben, deshalb hab ich abgesagt"): Bot reagiert mit „Verstehe, dann buchen wir einen neuen Termin" — wirkt kalt. Wir filtern emotionale Indikatoren früh und routen sofort zum Menschen.
Mehrfach-Sprecher (Bewerber + Partnerin im selben Raum): STT bekommt verwirrt, der Bot redet mit der falschen Person. Schwer zu lösen.

Empfehlung

Für die meisten DACH-Use-Cases empfehlen wir folgenden Stack:

Schneller MVP, geringes Volumen, Recruiting-Pre-Screen → Lindy
Production-Setup mit Custom-CRM-Integration → Vapi + ElevenLabs + Claude Sonnet
Mittleres Setup, Sales-Inbound mit guter UI → Retell

In jedem Fall: Eskalations-Pfad zu Menschen einbauen, Call-Recordings DSGVO-konform speichern, Transkripte ins CRM pushen. Voice-AI funktioniert nicht ohne diese Schicht — sie ist die Sicherung, wenn der Bot nicht weiterkommt.

Verwandte
Artikel.

Tiefer in angrenzende Themen — Architektur, Tools, Praxis.

KI-Agents · 14 Min

Custom AI Agent mit Claude: RAG-Setup für Mittelstand — Schritt für Schritt

Off-the-shelf-AI scheitert im Mittelstand am Kontext. Ein eigener Claude-basierter Agent mit RAG-Setup ist machbar — wenn Vector-DB, Chunking, Embeddings, Eval und Deployment-Layer richtig aufgesetzt sind. Ein Praxis-Walkthrough.

Lesen →

Sales Automation · 12 Min

WhatsApp-CRM für Vertriebsteams: Komplette Multi-Tenant-Architektur mit Azure, PostgreSQL und der Business API

WhatsApp ist der mit Abstand wichtigste Kanal im B2B-Außendienst — und der am schlechtesten dokumentierte. Diese Architektur verbindet WhatsApp Cloud API, eine Multi-Tenant-Plattform auf Azure Container Apps + PostgreSQL und SignalR-Realtime-Sync zu einem produktiven CRM-Setup mit AI-Klassifikation, Multi-User-Routing und voller DSGVO-Compliance.

Lesen →

Konkret werden

Klingt nach
eurem Projekt?

30 Minuten Gespräch, danach weißt du, ob ein vergleichbares Setup für dich Sinn ergibt — und was es realistisch kostet.

Erstgespräch → Weitere Artikel

Voice-AI für Inbound-Calls: Lindy vs Vapi vs Retell im Praxis-Vergleich

Wofür Voice-AI heute wirklich taugt

Voice-Quality: ElevenLabs vs OpenAI vs Cartesia

ElevenLabs

OpenAI TTS (gpt-4o-mini-tts)

Cartesia (Sonic)

Latenz: der UX-kritische Faktor

Lindy: das Low-Code-Tool

Vapi: der Developer-First-Layer

Retell: der Mittelweg

Cost-per-Minute im Vergleich

Deutsche Sprachunterstützung: kritisch für DACH

Wo es noch nicht funktioniert — und Empfehlung

Empfehlung

VerwandteArtikel.

Custom AI Agent mit Claude: RAG-Setup für Mittelstand — Schritt für Schritt

WhatsApp-CRM für Vertriebsteams: Komplette Multi-Tenant-Architektur mit Azure, PostgreSQL und der Business API

Klingt nacheurem Projekt?

Verwandte
Artikel.

Klingt nach
eurem Projekt?