Wie VoiceOver, aber richtig!

Tipps und Tricks für dein VoiceOver, nicht nur Technik, sondern auch Technik

Mai 14, 2026

In den letzten Tagen kam das Thema VoiceOver immer häufiger bei mir auf. Dabei habe ich einigen von euch angeboten, meine Erfahrungen direkt zu teilen, aber auch ein paar Direktnachrichten dazu erhalten. Da dachte ich mir, mache ich vielleicht den zweiten Text in der Kategorie rausgefallen, für meine Texte, die sonst nirgendwo richtig hinpassen. Daher wirst du hier lesen, was mir zum Thema einfällt und wie ich es mache.

Natürlich habe ich die Weisheit nicht mit Löffeln gefressen. Ich bin kein professioneller Podcaster oder Sprecher, doch habe ich ein paar Erfahrungen gemacht, die mir geholfen haben. Das muss für dich nicht genauso sein, doch kann das ein guter Weg sein, um für dich eigene Strategien auszuloten. Ich werde das Ganze thematisch ein wenig nach Hardware, Software und Mensch aufteilen.

Wenn dir hilft, was du hier liest, kannst du dich auch auf verschiedene Arten revanchieren. Neben den üblichen Likes und Restacks kannst du mir virtuell einen Kaffee ausgeben, aber auch meine Publikation Das angebrochene Leben anderen Lesenden empfehlen. Egal wie lang der Artikel ist, er kommt ohne Paywall aus.

Das angebrochene Leben teilen

Einen Kaffee ausgeben

Der erste und der zweite Eindruck

Bevor es losgeht, möchte ich dich mitnehmen auf eine tonale Reise. Damit du eine Idee bekommst, worauf das alles hinausläuft und mit wie wenig Aufwand du viel aufpolieren kannst, habe ich mich entschlossen, zwei Audios hier zu teilen. Jeweils eine Minute völlig roh und unbearbeitet und eine Minute, nachdem ich fertig bin. Meine Empfehlung ist, dir etwas ganz anderes anzuhören, bei dem du weißt, dass die Lautstärke für dich angenehm ist (z.B. Musik) und dann erst in Audio 1 und Audio 2 einzusteigen, ohne etwas an der Lautstärke zu verändern.

Audio 1 - unbearbeitet, ungeschnitten

0:00

-1:00

Audio 2 – geschnitten und Auphonic (Filter, Lautstärke normalisiert, etc)

0:00

-1:00

Lass’ mich doch gerne in den Kommentaren wissen, was du zu dem Ergebnis denkst.

Hardware

Der ordentliche Teil meines Schreibtisches

Auf meinem Schreibtisch wohnt jetzt einiges an Technik. Hier gilt: Was ich besitze, muss nicht das perfekte Ideal für dich sein. Einiges kannst du gebraucht bekommen, anderes durch günstigere Bausteine ersetzen.

Røde NT-A1 (Mikrofon)
Focusrite Scarlett Solo 4th Gen (Audio-Schnittstelle)
Konig & Meyer 23850 Mikrofonarm

Das Mikrofon habe ich schon länger im Besitz, weil ich es für verschiedene Einsatzgebiete nutzen konnte. Es ist relativ empfindlich, was einerseits gut ist für den Klang, denn es nimmt sehr viel auf. Dafür nimmt es jedoch auch andere Geräusche im Raum leichter mit auf. Es ist ein klassisches Mikrofon mit einem XLR‑Anschluss, das du auch mit normalen Musikmischpulten etc. verbinden kannst. Damit du aufnehmen kannst, benötigst du noch eine Audio-Schnittstelle, wie z.B. das Focusrite, das ich nutze.

Heute gibt es bereits einige Lösungen am Markt, wie z.B. das Røde Podcaster oder Nachfolger, die mit USB‑Kabel (C oder normal) kommen und eine Audio-Schnittstelle direkt eingebaut haben. Wie oft bei solchen Lösungen bieten diese etwas von allem. Zwar etwas schlechtere Audioqualität (die ggf. nur Experten wahrnehmen), dafür aber mehr Flexibilität. Um zu starten, wäre es vermutlich die einfachere Wahl. Generell empfehle ich bei Audiotechnik, die du bisher nicht besitzt, zunächst den Gebrauchtmarkt und die Kleinanzeigen zu checken.

Solltest du dich für das Focusrite entscheiden, möchte ich dir noch einen Hinweis geben, dessen Kenntnis mir am Anfang ein paar Nerven gespart hätte. Von meinem alten Behringer-Mini-Mischpult war ich gewohnt, dass das Signal auf jedem Kanal zunächst stereo ausgegeben wird. Wollte ich als Ergebnis Mono haben, brauchte ich nur einen Knopf drehen oder Audacity die Aufgabe in den Einstellungen überlassen. Das Scarlett ist jedoch so gebaut, dass es die Eingänge auf die Kanäle eines Stereo-Signals legt. Das bedeutet, der zweite Eingang (für mein XLR-Mikrofon) kommt auf dem rechten Kanal an. Für Audacity ist das irritierend, denn es erwartet ein Mono-Signal auf dem linken Kanal.
Doch kein Problem, mit der kostenlosen Software Focusrite Control 2 kannst du in den Einstellungen festlegen, dass Kanal 1 und 2 kombiniert ausgegeben werden. Alle Probleme sind gelöst. Das muss auch nur einmalig konfiguriert werden, danach merkt sich das Gerät die Einstellungen von selbst.

Ein rotes Focusrite Scarlett Solo USB-Audiointerface steht auf einem Holztisch. Das schwarze Frontpanel zeigt zwei Gain-Regler, Buttons für Inst, 48V und Air, einen großen Output-Regler sowie einen Kopfhöreranschluss. Der Kanal-2-Regler leuchtet grün. Links im Bild ist ein Würfel mit dem Emblem des FC St. Pauli zu sehen, im Vordergrund liegt der silberne Bügel eines Monitors. Der Hintergrund ist eine blaugrau strukturierte Wand. — Focusrite Scarlett Solo - USB Audio Schnittstelle, hier auf meinem Schreibtisch

Das Einzige, was ich dir unbedingt ans Herz lege, ist ein Mikrofonarm, den du an deinem Schreibtisch (der vermutlich auch dein Aufnahmeort wird) verschrauben kannst. Ich habe hier mit dem Konig & Meyer ein etwas teureres Modell gewählt, da diese stabiler sind. Das bedeutet, sie bewegen sich nicht so einfach von selbst beim Dagegenstoßen, und halten die Position besser. Auch hier neige ich dazu, etwas bessere Qualität zu kaufen, als es wirklich sein muss. Probier gerne aus.
Ein Tischarm in der Art, wie ich ihn nutze, gibt dir jedoch optimale Flexibilität in deiner Aufnahmeposition und ermöglicht dir trotzdem, nah am Computer zu sein, von dem du sehr wahrscheinlich deinen Text ablesen wirst.

Die Hardware, die fast immer vergessen wird, ist dein Raum. Oberflächen reflektieren Schall und das führt zu einem Hall-Effekt. Es ist möglich, einiges über den Durchlauf in Auphonic zu retten, es ist jedoch überhaupt nicht verkehrt, schon an ein paar Dinge zu denken, und du musst nicht einmal direkt in teure Akustikpaneele investieren.

Bist du in einem Raum mit Fenster, ziehe die Vorhänge zu. Diese brechen die Reflexion der Scheibe. Hast du ausreichend Platz, kannst du z.B. Decken und Handtücher auf den glatten Oberflächen (auch deinem Schreibtisch) verteilen. Selbst ein Wäscheständer mit Decke im Raum kann dazu führen, dass Reflexionen von Wänden gedämpft werden.

Software

Jetzt wird es etwas trickiger, denn ich möchte so wenig Geld für Software ausgeben wie möglich und dabei eine einfache Bedienung haben. Ich weiß, es gibt inzwischen diverse All-in-One-Lösungen. Unter anderem Adobe bietet hier eine gute (derzeit) kostenlose Wunderlösung an. Hier geht es jedoch um meinen Workflow und ich mag ein wenig Kontrolle.

Audacity (kostenlos, Open-Source, Link)
Auphonic (2h pro Monat kostenlos, Abo oder 2,20 EUR/h je nach Abnahme, Link)

Zum Aufnehmen nutze ich schon immer, egal ob Mac oder Windows, das Open-Source-Programm Audacity. Es ist einfach zu bedienen, es gibt viele Anleitungen dazu im Internet und es ist daher eine gute Wahl. Bedenke, dass du inzwischen auch der KI deines Vertrauens Fragen wie “Wie geht dies und das mit Audacity?“ stellen kannst und zu guten Ergebnissen kommst.
Mein erster Tipp ist: Du nimmst Sprache auf. Nimm sie in Mono auf. Das spart Speicherplatz und Bandbreite. Solltest du deine Stimme später verpodcasten wollen, kann sie einfach wieder Stereo werden. Das gesprochene Wort profitiert wenig vom Stereo-Effekt. Insofern kommt deine Stimme in Mono immer gleich kräftig auf beiden Kopfhörerseiten. Und wenn wir ehrlich sind, hören die meisten dein Audio ohnehin über Kopfhörer.

Zwei Screenshots von Audacity. Man sieht den Vergleich der ursprünglichen zur aktuellen Aufnahme, die nun bearbeitet ist. — Audacity-Screenshots. Oben die ursprüngliche Version, unten das Endergebnis nach allen Bearbeitungen.

Wie auf den Screenshots zu sehen ist, sieht Audacity erstmal kompliziert aus. Das sollte dich jedoch nicht abschrecken. Schau einmal auf YouTube rum, das Programm ist so beliebt, dass es gute Videos wie Sand am Meer gibt. Schau besonders in die Podcast-Tutorials, denn du planst, deine Stimme aufzunehmen. Viele Funktionen sind überraschend intuitiv. Alles, was komplexer wird, ist an dieser Stelle unnötig, da hinten raus noch Auphonic genutzt wird. Du brauchst also “nur”: Aufnehmen können (und Play drücken, um anzuhören), Audio-Einstellungen (relativ in der Mitte, großer Knopf mit Lautsprecher) und Dinge weg schnippeln können. Das kannst du recht stumpf, indem du an die Stelle klickst, wo der Cut anfängt, und dann einfach in eine Richtung markierst und dann die Löschtaste drückst.

Kleiner Komforttipp von mir: Wenn du links vom Audio auf die Skala einen Rechtsklick machst und auf „Logarithmisch“ umstellst, sieht es aus wie bei mir. Das macht es mir leichter, Dinge zu erkennen und zu schneiden, unabhängig von der Lautstärke der Aufnahme.

Beim Exportieren des Audios würde ich erst ganz zuletzt zu MP3 wechseln und zunächst immer bei WAV bleiben. Ich mache mir für jeden Text, den ich einspreche, einen neuen Ordner. Darin speichere ich vier Dateien:

Projekt Audacity (Rohaufnahme)
Export für Auphonic (Rohaufnahme, WAV)
Export von Auphonic (als WAV)
in Audacity geschnittene Auphonic Version (MP3, die geht zu Substack)

Meine Geheimwaffe ist Auphonic. Hier werden ein bisschen Filter und KI‑Kunst zusammengeführt und in einer webbasierten Anwendung zur Verfügung gestellt. Besonders angenehm empfinde ich, dass ich hier nicht gezwungen bin, ein Abo zu kaufen, sondern mir ein paar Kredits besorgen kann und diese dann nach und nach verbrauche. Für den Mehrwert, den meine Aufnahmen dadurch gewinnen, bin ich nur zu gerne bereit, die 0,55 EUR pro 15 Minuten (und länger sind meine Aufnahmen ohnehin nicht) zu bezahlen.

Für mich selbst habe ich unglaublich wenig eingestellt. Bisher haue ich nur meine Mono-Aufnahmen da durch und die Technik muss sich nur auf meine Stimme, also keine zweite sprechende Person, konzentrieren. Bei den Einstellungen, wie bei allen anderen, gilt: Ausprobieren ist erlaubt. Nichts explodiert. Dir könnte persönlich etwas anderes besser gefallen als mir.

Screenshot der Einstellungen im Auphonic Preset von Kay — Meine Einstellungen in Auphonic

Mensch

Jetzt kommen wir zum interessanten Teil. Vorweg geschickt: Ich arbeite mit einer Logopädin zusammen, das hilft mir ungemein, und die gab mir einige Tipps. Allerdings immer nur am Rande, denn ich gehe nicht zu ihr, um besser im Vorlesen zu werden. Durch Singen in der Jugend bin ich mir meiner Stimme bewusst und zusätzlich rede ich schon immer gerne. Das klingt zwar ein wenig so, als wäre mein Hobby Schlafen und deswegen kann ich’s gut, aber reden ist am Ende Stimmentraining (wenn auch kein gezieltes).

Wärme deine Stimme auf, bevor du sie nutzt
Kein Text wird in einem Take aufgenommen
Spreche im Stehen
Lese den Text einmal laut, nachdem du deine Stimme aufgewärmt hast.
Gehe abschnittsweise vor und lese jeden Absatz mindestens einmal für dich selbst, bevor du ihn aufnimmst.

Okay, gehen wir davon aus, die Technik ist aufgebaut, die Software ist geöffnet auf deinem Desktop. Das Wichtigste ist erledigt, oder nicht? Nein, denn das Wichtigste ist, das wirst du merken, eine aufgewärmte Stimme. Tu dir den Gefallen und mache eine Aufnahme. Lege dir einen Satz zurecht und spreche ihn ein. Vielleicht liest du auch einfach diesen Absatz.

Jetzt kümmerst du dich um das erstmalige Aufwärmen deiner Stimme. Suche dir hierfür ein Video von YouTube. Vielleicht dieses hier von den MedienPaten, einer Synchronsprecher-Agentur. Mache die dort vorgestellten wirklich leichten Übungen, egal wie albern du dir vorkommst. Vielleicht 5–10 Minuten. Im Anschluss nimmst du den gleichen Text noch einmal auf und vergleichst. Es wird ein hörbarer Unterschied sein. Deine Stimmbänder sind ein Muskel. Damit er gut funktioniert, müssen sie trainiert werden. Du machst ja auch keinen Leistungssport und denkst, das passt schon ohne Training. Schau dir gerne noch andere Übungen an. Es gibt diverse, sowohl für Gesang als auch für Sprechen, auf YouTube. Mache Übungen, mit denen du dich wohlfühlst, variiere vielleicht ein wenig. Ich arbeite zwar mit einer professionellen Logopädin, doch es muss nicht gleich so teuer sein. Auch an der Volkshochschule kannst du Kurse belegen, die nicht teuer sind und deine Kontrolle über deine Stimme verbessern.

Gut, deine Stimme ist aufgewärmt. Bevor ich loslege, stelle ich mich hin. Ich versuche, eine lockere Haltung einzunehmen: die Knie leicht durchlässig, nicht durchgestreckt, beide Füße auf dem Boden. Ich stelle mich gerne barfuß hin. Dein Kopf sollte nach vorn gerichtet sein, mit dem Blick in den Horizont. Das Brustkreuz, also den Teil deiner Brust über dem Solarplexus, leicht nach oben, du nimmst dann automatisch eine aufrechte Haltung ein. All das ermöglicht dir, noch einmal fest und klar zu sprechen.
Jetzt lese ich den Text einmal komplett, mit allen Fehlern, die ich mache, vollständig durch. Versuche, hinein zu spüren, wie er sich anfühlt, versuche, in Richtung eines imaginären Publikums zu sprechen. Dabei gestikuliere ich auch gerne. Ich stelle mir vor, wie ich den Text vor Menschen vortragen würde. Wo mache ich Pausen, was will ich betonen? Lächle ich an bestimmten Passagen, dann ist ein Unterschied zu hören, auch wenn du es dir gerade nicht vorstellen kannst. Jede Gestik oder jeder Gesichtszug hat Einfluss auf die Dynamik und den Klang deiner Stimme. Ein kleines Schauspiel für ein ausgedachtes Publikum hinter deinem Mikrofon.

Hast du ein Gefühl für den Text entwickelt, geht es los. Drücke Aufnahme und trage den ersten Absatz vor. Machst du einen Fehler, suche die Stelle und lösche die Aufnahme ab dem Punkt, an dem der Satz beginnt. Du kannst ab der Stelle weitersprechen, nachher den Zeitabstand im Schnitt noch angleichen. Manchmal, an besonders dynamischen Stellen, hilft es mir, einen Teil oder den Satz davor noch mit vorzulesen und später wieder wegzuschneiden, um in einen besseren Fluss zu kommen.
Wenn du jetzt denkst, das wäre Schummeln: Auch Profis sprechen ein Kapitel eines Hörbuches nicht am Stück ein. Fehler passieren zwangsläufig. Beim Vortragen von Präsentationen sage ich manchmal ein anderes Wort oder betone nicht so gut. So wird es vermutlich auch auf Bühnen sein. Da ist das nicht so schlimm. Bei einem VoiceOver ist jedoch die Erwartung, die Worte zu hören. Das macht ein wenig Arbeit, doch mit Liebe zum Text und dem Schnitt-Trick kommst du zu einem hervorragenden Ergebnis. Ich würde behaupten, die Stellen, an denen ich geschnitten habe, bekommt kein Mensch mit.

Workflow

Eine kleine Bonusrunde. Ein tl;dr für alle, die nur einmal kurz drüber schauen wollen zur Orientierung:

Stimme aufwärmen
Hardware und Audacity vorbereiten
Gesamten Text in einem Durchgang komplett vorlesen
Aufnahme starten, Ziel: Absatz für Absatz lesen und aufnehmen
1. Bei Fehlern die einzelnen Teile löschen und direkt neu Aufnehmen
Komplette Datei von Audacity als WAV exportieren
Datei in Auphonic hochladen und selbstgebautes Preset oder Filter auswählen
Auphonic Ergebnis in Audacity öffnen und einmal durchhören
1. Große Pausen schneiden (dabei jedoch darauf achten, dass Pausen bleiben, sie sind wichtig, damit Gedanken der Hörenden Raum haben.).
2. Falls letzte Störgeräusche auftauchen, diese wegschneiden (kommt fast nie vor).
Ergebnis speichern und als MP3 für Substack exportieren.
Substack Post öffnen
Audio einfügen → Voice Over auswählen (Tatsächlich nach ein paar Minuten “Fertig” klicken 🙃)
Über das Ergebnis freuen

Einen Kommentar hinterlassen

Dieses Dokument hat den Stand vom 14. Mai 2026, 08:01 Uhr.
Es wurde bisher nicht aktualisiert.

Diskussion über diese Post

Sind Sie bereit für mehr?