Diktiergerät vs. Whisper vs. Otter.ai — Transkription

Diktiergerät vs. Whisper vs. Otter.ai — Transkription für Trauerredner
Nach einem zweistündigen Trauergespräch hast du 40 bis 60 Minuten verwertbares Audiomaterial. Wer das manuell abtippt, braucht 3 bis 4 Stunden. Transkriptionssoftware reduziert das auf unter 15 Minuten — aber nicht jedes Tool ist für sensible Trauerdaten geeignet.
Auf einen Blick
- Whisper lokal ist die DSGVO-sicherste Lösung: Keine Daten verlassen deinen Rechner. Die Einrichtung dauert 30 Minuten.
- Otter.ai speichert auf US-Servern — für Trauergespräch-Daten mit Gesundheitsangaben und Familienstrukturen problematisch.
- AmberScript ist die EU-Alternative mit AVV, kostet ab ca. 4 Euro pro Stunde Audio (Starter-Abo).
- Ein gutes Diktiergerät (60–90 Euro) plus kostenlose Transkriptionssoftware schlägt jedes Abo-Modell im Preis-Leistungs-Verhältnis.
- Schweizerdeutsch und Dialekte sind die grösste Schwachstelle aller automatischen Systeme.
Warum Transkription für Trauerredner kein Luxus ist
Sibylle Kramer aus Freiburg hat zwölf Jahre lang nach jedem Trauergespräch am Küchentisch ihre Notizen abgetippt. Zwei Stunden Gespräch, dann nochmal anderthalb Stunden am Laptop. Bei 35 Trauerfaellen im Jahr sind das über 50 Stunden reines Abtippen — eine volle Arbeitswoche, die sie in Reden hätte investieren können.
Seit November 2025 nimmt Sibylle jedes Gespräch auf, mit Einverständnis der Familie. Im Auto danach diktiert sie ihre Eindrücke dazu: Stimmung im Raum, Körpersprache der Angehörigen, das Foto auf der Kommode. Zu Hause läuft Whisper über die Audiodatei. Nach 10 Minuten hat sie ein Rohtranskript, das sie in 20 Minuten bereinigt.
„Ich spare pro Fall fast zwei Stunden”, sagt Sibylle. „Aber der eigentliche Gewinn ist ein anderer: Ich verpasse keine Details mehr. Früher habe ich während des Gesprächs geschrieben und dabei Nuancen übersehen.”
Die zwei Einsatzszenarien
Trauerredner nutzen Transkription in zwei Situationen. Erstens: die Mitschrift während des Trauergespräch selbst. Zweitens: das Nachdiktieren nach dem Gespräch — im Auto, zu Hause oder auf dem Weg zur nächsten Familie.
Beide Szenarien stellen unterschiedliche Anforderungen. Die Mitschrift braucht ein zuverlässiges Aufnahmegerät mit gutem Mikrofon. Das Nachdiktieren braucht vor allem schnelle Spracherkennung, die auch undeutliche Sprache bei Müdigkeit nach einem langen Tag versteht.
Die Kandidaten im Überblick
Klassisches Diktiergerät + manuelle Übertragung
Das Diktiergerät ist die älteste Methode und immer noch die zuverlässigste für die reine Aufnahme. Geräte wie das Olympus WS-882 oder das Sony ICD-UX570 kosten zwischen 60 und 90 Euro, laufen tagelang mit einer Ladung und nehmen in Qualität auf, die jede Transkriptionssoftware problemlos verarbeitet.
Der Nachteil: Das Gerät nimmt nur auf. Es transkribiert nicht. Du brauchst ein zweites Tool für die Umwandlung in Text. Der Vorteil: Kein WLAN nötig, kein Cloud-Upload, keine App die abstürzt. Das Diktiergerät funktioniert auf dem Parkplatz vor dem Bestattungshaus genauso wie im Wohnzimmer der Familie.
Martin Schubert aus Hannover nutzt seit sieben Jahren ein Olympus-Gerät. Er nimmt jedes Gespräch auf — mit einem kurzen Hinweis an die Familie zu Beginn: „Ich nehme unser Gespräch auf, damit mir nichts entgeht. Die Aufnahme hört niemand ausser mir, und ich lösche sie nach der Trauerfeier.” In sieben Jahren hat keine Familie abgelehnt.
Whisper — lokal oder über die API
Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI, das im September 2022 veröffentlicht wurde. Es gibt zwei Wege, Whisper zu nutzen: lokal auf deinem Rechner oder über die OpenAI-API in der Cloud.
Whisper lokal läuft vollständig auf deinem Computer. Keine Internetverbindung nötig, keine Daten verlassen dein Gerät. Die Einrichtung erfordert ein paar Kommandozeilen-Befehle — für technikaffine Redner machbar in 30 Minuten, für alle anderen eine Hürde.
Die Qualität ist bemerkenswert gut. Whisper erkennt Deutsch mit einer Wortfehlerrate von unter 5 Prozent bei klarer Sprache. Bei Dialekten steigt die Fehlerrate, aber Whisper normalisiert Mundart meist zu verständlichem Hochdeutsch — du bekommst den Inhalt, wenn auch nicht den exakten Wortlaut.
Whisper API ist die Cloud-Variante. Du schickst eine Audiodatei an die OpenAI-Server, die Transkription kommt in Sekunden zurück. Das ist schneller und braucht keine lokale Rechenleistung. Aber: Die Audiodatei liegt vorübergehend auf US-Servern. OpenAI nutzt API-Daten seit März 2023 nicht mehr für Training. Für den Whisper-Audio-Endpoint werden keine Abuse-Monitoring-Logs gespeichert — aber die US-Serverübertragung bleibt für Trauergespräch-Daten ein relevanter Punkt.
Kosten: Whisper lokal ist kostenlos. Die API kostet 0,006 USD pro Minute, also rund 36 Cent pro Stunde Audiomaterial. Bei 35 Gesprächen a 60 Minuten im Jahr sind das etwa 12,60 Euro — weniger als ein Monat Otter.ai.
Otter.ai — komfortabel, aber auf US-Servern
Otter.ai ist einer der bekanntesten Transkriptionsdienste und in der englischsprachigen Welt weit verbreitet. Die App transkribiert Gespräche nahezu in Echtzeit, markiert Sprecherwechsel und bietet eine Suchfunktion über alle Transkripte hinweg.
Das DSGVO-Problem: Otter.ai ist ein US-Unternehmen mit Servern in den Vereinigten Staaten. Es gibt kein EU-Hosting und keinen vollwertigen AVV für Einzelnutzer. Für allgemeine Geschäftsnotizen mag das vertretbar sein. Für Trauergespräch-Daten — Namen, Sterbedaten, Krankheitsverläufe, Familienstrukturen, religiöse Überzeugungen — ist das ein Problem.
Diese Daten fallen unter Art. 9 DSGVO als besondere Kategorien personenbezogener Daten. Ihre Verarbeitung auf US-Servern ohne AVV ist nicht rechtskonform. Punkt.
Claudia Breitner aus Salzburg hat Otter.ai ein halbes Jahr lang getestet. Die Transkriptionsqualität für Deutsch war mässig — Otter ist primär auf Englisch optimiert. Bei österreichischem Dialekt wurde es unbrauchbar. Claudia ist zurück zum Diktiergerät mit anschliessender Whisper-Transkription.
Kosten: Free-Plan mit 300 Minuten pro Monat, Pro ab 16,99 USD monatlich, Business ab 30 USD pro Nutzer und Monat.
AmberScript — die EU-Alternative
AmberScript ist ein niederländisches Unternehmen mit Sitz in Amsterdam. Server stehen in der EU, ein AVV nach Art. 28 DSGVO ist auf Anfrage verfügbar. Das löst das grösste Problem von Otter.ai.
AmberScript bietet zwei Modi. Die automatische Transkription läuft durch eine KI und liefert Ergebnisse in 5 bis 15 Minuten. Die menschliche Transkription wird von geschulten Schreibkräften nachbearbeitet und dauert 24 bis 48 Stunden — dafür liegt die Genauigkeit bei über 99 Prozent.
Für Trauerredner ist die automatische Variante meist ausreichend. Du brauchst kein perfektes Transkript, sondern eine Grundlage, die du in 20 Minuten bereinigst. Die menschliche Variante lohnt sich höchstens, wenn du Gespräche in starkem Dialekt führst und ein exaktes Wortprotokoll brauchst.
Kosten: Automatisch ab ca. 4 Euro pro Stunde (Starter-Abo, 19 €/Monat für 5 Stunden), menschlich ab ca. 2 Euro pro Minute. Bei 35 Gesprächen im Jahr und automatischer Transkription: rund 140–280 Euro jährlich je nach gewähltem Tarif.
Weitere Optionen im Schnelldurchlauf
Apple Diktierfunktion (iOS/macOS): Kostenlos, läuft lokal seit iOS 17. Gut für kurze Diktate nach dem Gespräch. Keine Dateien importierbar, kein Batch-Modus. Für das Nachdiktieren im Auto brauchbar, für längere Aufnahmen nicht.
Google Speech-to-Text: Cloud-basiert, Server weltweit. Gute Qualität, aber Daten gehen an Google. AVV über Google Workspace verfügbar, Einrichtung komplex. Für Einzelredner Overkill.
Notta.ai: Hongkong-basiert, Server in Asien und USA. Gute Mehrsprachen-Unterstützung, aber keine EU-Server. Für DSGVO-sensible Trauerdaten ungeeignet.
Trint: Londoner Unternehmen mit EU-Servern. AVV verfügbar. Preislich im AmberScript-Bereich. Weniger bekannt im DACH-Raum, aber eine solide Option für Redner, die Wert auf EU-Hosting legen.
Der grosse Vergleich: 6 Kriterien, 5 Tools
| Kriterium | Diktiergerät + Whisper lokal | Whisper API | Otter.ai | AmberScript | Apple Diktat |
|---|---|---|---|---|---|
| Preis/Jahr (35 Fälle) | 60–90 € (Gerät, einmalig) | ~13 € | 204–360 € | ~228 € (Starter-Abo) | 0 € |
| DSGVO-Konformität | Sehr hoch (lokal) | Mittel (US-API, DPA) | Niedrig (US, kein AVV) | Hoch (EU, AVV) | Hoch (lokal) |
| Schweizerdeutsch | Mässig (normalisiert) | Mässig (normalisiert) | Schlecht | Mässig (auto), Gut (manuell) | Mässig |
| Offline-Fähigkeit | Ja | Nein | Nein | Nein | Ja (seit iOS 17) |
| Einrichtungs-Aufwand | Hoch (CLI) | Mittel (API-Key) | Niedrig (App) | Niedrig (Web) | Kein |
| Geschwindigkeit (1h Audio) | 8–12 Min | 2–3 Min | Echtzeit/10–20 Min | 5–15 Min | Nur Echtzeit |
Die Tabelle zeigt: Es gibt kein Tool, das in allen Kategorien gewinnt. Die Wahl hängt von drei Fragen ab. Erstens: Wie wichtig ist dir Datenschutz? Zweitens: Wie technikaffin bist du? Drittens: Wie viel Budget hast du?
DSGVO und Trauerdaten — warum das kein Randthema ist
Trauergespräch-Daten sind keine gewöhnlichen Geschäftsdaten. Du erfährst im Gespräch Dinge, die die Familie sonst niemandem erzählt. Krankheitsverläufe. Familienstreitigkeiten. Finanzielle Nöete. Religiöse Zweifel. Suizid.
Diese Informationen fallen unter Art. 9 DSGVO als besondere Kategorien personenbezogener Daten: Gesundheitsdaten, religiöse Überzeugungen, Daten über das Sexualleben oder die sexuelle Orientierung. Ihre Verarbeitung ist grundsätzlich verboten — es sei denn, eine der eng definierten Ausnahmen greift.
Für Trauerredner kommt in der Regel Art. 9 Abs. 2 lit. a in Frage: die ausdrückliche Einwilligung der betroffenen Personen. Wenn die Familie dir erlaubt, das Gespräch aufzunehmen, deckt das die Aufnahme und deine eigene Verarbeitung. Es deckt nicht automatisch die Übermittlung an einen US-Cloud-Dienst.
Was das für deine Tool-Wahl bedeutet
Jedes Tool, an das du Trauergespräch-Audiodateien schickst, wird zum Auftragsverarbeiter im Sinne der DSGVO. Du brauchst einen AVV (Auftragsverarbeitungsvertrag nach Art. 28 DSGVO). Ohne AVV darfst du keine personenbezogenen Daten an das Tool übermitteln.
Tools wie TrauerRede.pro, die auf EU-Servern laufen und branchenspezifische Datenschutzkonzepte mitbringen, lösen dieses Problem strukturell. Aber für die reine Transkription ist Whisper lokal die radikalste Lösung: Wenn keine Daten dein Gerät verlassen, gibt es keinen Auftragsverarbeiter.
Sonderfall Schweiz
Das Schweizer DSG kennt keinen AVV, regelt aber in Art. 9 die Auftragsdatenbearbeitung ähnlich. Du bleibst verantwortlich und musst sicherstellen, dass der Bearbeiter die Daten angemessen schützt. Bei US-Tools ohne anerkanntes Schutzniveau brauchst du Standardvertragsklauseln oder gleichwertige Garantien.
Praxis-Szenario: Nach dem Trauergespräch im Auto
Dienstag, 16:30 Uhr. Du kommst aus einem Trauergespräch bei Familie Kessler in Zürich-Wiedikon. Zwei Stunden am Esstisch, drei Kinder, die Mutter ist vor vier Tagen gestorben. Du setzt dich ins Auto. Die Details sind frisch, aber du hast in einer Stunde das nächste Gespräch in Winterthur.
Jens Bruckner aus Stuttgart hat dieses Szenario dreimal pro Woche. Sein Workflow:
Im Auto: Smartphone auf die Armaturenablage, Sprachmemo-App öffnen, 8 Minuten diktieren. Nicht das ganze Gespräch nacherzählen — nur Schlüsselelemente: Leitmotiv, unerwartete Details, Stimmung, Beziehungsdynamik. „Die Tochter weinte bei der Gartengeschichte. Der Sohn war still, aber sein Blick veränderte sich, als es um die Werkstatt ging.”
Abends: Audiodatei vom Smartphone auf den Laptop. Whisper lokal läuft 90 Sekunden über die 8-Minuten-Aufnahme. Ergebnis: 1.200 Wörter Rohtext.
15 Minuten Nachbearbeitung: Tippfehler korrigieren, die Whisper bei Eigennamen macht. Absätze strukturieren. Ergänzen, was ihm auf der Fahrt noch eingefallen ist.
Ablage: Das Transkript wandert in den Fallordner, die Audiodatei wird gelöscht.
Gesamtzeit: 25 Minuten statt 90 Minuten manuelles Abtippen.
Dialekt: Die grösste Schwachstelle
Wer im DACH-Raum arbeitet, kennt das Problem. Bayerisch, Schwäbisch, Sächsisch, Schweizerdeutsch, Österreichisch — keine automatische Spracherkennung beherrscht alle Dialekte zuverlässig.
Whisper schneidet im Dialektvergleich am besten ab, weil es auf einem enormen Datensatz trainiert wurde. Aber „am besten” heisst nicht „gut”. Bei starkem Schweizerdeutsch normalisiert Whisper zu Hochdeutsch — „Grüezi” wird zu „Grüsse”, „Chuchichäschtli” verschwindet komplett. Für die inhaltliche Erfassung reicht das. Für wörtliche Zitate in der Rede nicht.
Otter.ai ist für Deutsch generell schwach und bei Dialekten unbrauchbar. AmberScript bietet mit der manuellen Transkription die einzige zuverlässige Lösung für starken Dialekt — aber zu einem Preis, der sich nur bei einzelnen Schlüsselspassagen lohnt.
Praxis-Tipp für Dialektregionen
Notiere wörtliche Dialektausdrücke während des Gesprächs handschriftlich. Die Transkription liefert den Inhalt, die handschriftlichen Notizen liefern die Atmosphäre. Beides zusammen ergibt ein vollständiges Bild.
Empfehlung nach Technik-Affinität
Für technikaffine Redner
Diktiergerät plus Whisper lokal. Einmalig 60 bis 90 Euro für das Gerät, 30 Minuten Einrichtung, danach null laufende Kosten. Maximale DSGVO-Konformität. Du brauchst einen Rechner mit mindestens 8 GB RAM — ein aktuelles MacBook, ein Windows-Laptop der letzten drei Jahre oder ein Linux-System.
Installationsweg: Python installieren, dann pip install openai-whisper. Aufruf: whisper audiodatei.m4a --language de --model medium. Das medium-Modell bietet den besten Kompromiss aus Geschwindigkeit und Qualität.
Für Redner mit wenig Technik-Erfahrung
AmberScript plus ein gutes Diktiergerät. Die Web-Oberfläche ist selbsterklärend: Audiodatei hochladen, Sprache wählen, warten. EU-Server, AVV verfügbar. Bei 35 Fällen im Jahr zahlst du im Starter-Abo rund 228 Euro — weniger als eine Stunde Honorar pro Quartal.
Für Redner mit Minimalbudget
Smartphone plus Apple Diktierfunktion oder Whisper lokal. Die Apple-Lösung funktioniert nur für das Nachdiktieren, nicht für die Transkription längerer Aufnahmen. Whisper lokal ist kostenlos, erfordert aber technisches Grundverständnis.
Was du vor dem Trauergespräch klären musst
Bevor du zum ersten Mal aufnimmst, brauchst du drei Dinge.
Erstens: Einwilligungstext. Ein Satz auf deinem Gesprächsprotokoll: „Ich nehme unser Gespräch auf, um keine Details zu verlieren. Die Aufnahme ist ausschliesslich für meine Vorbereitung bestimmt und wird nach der Trauerfeier gelöscht.” Lass die Familie unterschreiben.
Zweitens: Erklärung im Gespräch. Nicht einfach ein Gerät auf den Tisch legen. Erkläre, warum du aufnimmst — damit du dich auf die Menschen konzentrieren kannst, statt mitzuschreiben. Die meisten Familien finden das rücksichtsvoll, nicht bedrohlich.
Drittens: Löschroutine. Lege fest, wann du Audiodateien löschst. Empfehlung: spätestens eine Woche nach der Trauerfeier. Transkripte ohne Personenbezug darfst du archivieren. Audiodateien mit Stimmen der Angehörigen nicht unbegrenzt.
Ein realistischer Blick auf den Zeitgewinn
Die Versprechen der Tool-Anbieter klingen verlockend: „Spare 80 Prozent deiner Transkriptionszeit.” Die Realität ist differenzierter.
Du sparst nicht die Transkription. Du sparst das Abtippen. Die eigentliche Arbeit — Notizen durchgehen, Leitmotiv finden, die Rede strukturieren — bleibt gleich. Was sich ändert: Du hast ein vollständiges Protokoll statt lückenhafter Stichpunkte. Und du hast es in 25 Minuten statt in 90.
Bei 35 Fällen im Jahr sind das rund 38 Stunden Zeitersparnis. Fast eine volle Arbeitswoche. Genug, um zwei zusätzliche Reden zu schreiben oder einen freien Freitag zu haben.
Die Entscheidung in drei Sätzen
Deine Trauergespräch-Daten gehören zu den sensibelsten Informationen, die Menschen dir anvertrauen. Wähle ein Tool, das dieses Vertrauen technisch abbildet. Whisper lokal ist die konsequenteste Lösung, AmberScript die komfortabelste mit EU-Standard — und Otter.ai trotz aller Bequemlichkeit die falsche Wahl für diesen Beruf.