Zum Inhalt springen

22. Mai 2026 • Thomas Rauch • 4 Min. Lesezeit

Videobearbeitung mit KI: So schneide ich Videos automatisch mit Claude Code

Videobearbeitung mit KI: So schneide ich Videos automatisch mit Claude Code

Videobearbeitung mit KI ist gerade die Stelle in meinem Workflow, an der ich am meisten Zeit spare. Aufnehmen, transkribieren, schneiden, Animationen und Untertitel drüberlegen, am Ende automatisch Clips für Shorts: das läuft bei mir alles über einen Agenten.

In diesem Artikel zeige ich dir, wie der Ablauf aussieht, welche Tools dahinter laufen und warum das Transkript der entscheidende Baustein ist.

Das Format entscheidet: Transkript mit Zeitstempel pro Wort

Damit ein Agent ein Video bearbeiten kann, braucht er ein Format, in dem er den Inhalt lesen kann. Bei Videos ist dieses Format das Transkript. Aber nicht irgendein Transkript, sondern eins, in dem für jedes einzelne Wort steht, in welchem Frame es anfängt und in welchem es endet.

Videobearbeitung mit KI: Transkript mit Anfangs- und Endzeitpunkt pro Wort von Whisper

Ohne dieses Format wäre Video für einen Agenten nur Bild und Ton. Mit dem Transkript ist es Text, an dem ein Zeitstempel pro Wort hängt. Genau das macht den Unterschied.

Drei Anwendungen, die aus dem Transkript folgen

Sobald das Transkript mit Zeitstempel vorliegt, ergeben sich drei Anwendungen für die Videobearbeitung mit KI:

  1. Schnitte auf den Frame genau: Versprecher, Dopplungen oder langweilige Stellen lassen sich gezielt rausschneiden, weil im Transkript steht, von wann bis wann jedes Wort dauert.
  2. Untertitel an der richtigen Stelle: Jedes Wort kann genau dann eingeblendet werden, wenn es gesprochen wird.
  3. Animationen passend zum Text: Eine Animation lässt sich an dem Wort starten, das sie unterstützt.

Drei Anwendungen der Videobearbeitung mit KI: Schnitt, Untertitel, Animationen

Die Tools hinter Videobearbeitung mit KI

Drei Tools laufen bei mir im Hintergrund, plus ein Editor für den Vorschnitt.

Whisper für das Transkript

Whisper ist das Transkriptionsmodell von OpenAI. Es liefert nicht nur den Text, sondern für jedes Wort den Anfangs- und Endzeitpunkt. Das Modell läuft lokal auf meinem Rechner, einmal runterladen reicht.

Whisper als Transkriptions-Tool für Videobearbeitung mit KI

ffmpeg für jeden Schnitt und Effekt

ffmpeg ist das Open-Source-Werkzeug, über das jeder Schnitt, jede Animation und jeder Untertitel ins Video kommt. ffmpeg gibt es seit Jahren und es ist die Standard-Software, wenn es um Videoverarbeitung per Kommandozeile geht.

ffmpeg als Schnitt-Tool für Videobearbeitung mit KI

Claude Code als Steuerung

Claude Code orchestriert das Ganze. Er liest das Transkript, plant den Schnitt und schreibt sich die ffmpeg-Aufrufe selbst. Andere Modelle gehen genauso. Bei mir ist es Claude, weil ich es derzeit als das leistungsstärkste Modell für komplexe Aufgaben erlebe. Wie ich Claude Code für andere Workflows einsetze, beschreibe ich ausführlicher im Artikel zum KI-Mail-Agenten mit Claude Code und in Rechnungen mit Claude Code schreiben.

Claude Code als Steuerung für Videobearbeitung mit KI

Tella für den Vorschnitt

Für den ersten Vorschnitt habe ich noch Tella im Einsatz. Tella nimmt Kamera und Bildschirm parallel auf und lässt sie in einem Editor übereinander legen. Den ersten Take baue ich dort von Hand, weil ich gerne händisch ranzoome und Spuren übereinander lege. Tella setzt selbst stark auf KI: es erzeugt Transkripte und kann darüber Schnitte setzen. Mich überzeugt es vor allem als Editor.

Tella als Editor für den Vorschnitt von Videos

Was Claude Code damit konkret macht

Wenn der Vorschnitt steht und das Transkript da ist, läuft folgender Ablauf:

  • Versprecher und Dopplungen raus: Auf Basis der Zeitstempel pro Wort werden Stellen markiert und per ffmpeg geschnitten.
  • Bildausschnitt anpassen: Bei einem Tutorial- oder Screenshare-Video kann ffmpeg zwei synchron aufgenommene Spuren von Kamera und Bildschirm zusammenführen und den Bildausschnitt nachjustieren. Der Agent muss einmal lernen, welche Ausschnitte du normalerweise möchtest, danach läuft das.
  • Animationen drüberlegen: Wie genau Claude Code Animationen passend zum gesprochenen Text erstellt, habe ich im Artikel Animationen mit KI erstellen Schritt für Schritt gezeigt.
  • Untertitel einbrennen: Pro Wort an der passenden Stelle eingeblendet.
  • Clips für Shorts schneiden: Aus dem langen Video extrahiert der Agent kurze, prägnante Stellen und baut daraus fertige Shorts mit Intro, Outro, Animationen und Untertiteln.

Untertitel, die Wort für Wort aufleuchten

Untertitel, bei denen jedes Wort einzeln aufleuchtet, sobald es gesprochen wird, kennst du aus Shorts. Bei mir entsteht der Effekt automatisch, weil im Transkript pro Wort ein Anfangs- und Endzeitpunkt steht. Damit ist klar, von wann bis wann jedes Wort hervorgehoben sein muss. Kein händisches Setzen, kein Tippen pro Wort.

Untertitel, die Wort für Wort aufleuchten, durch Videobearbeitung mit KI

Shorts automatisch aus langen Videos schneiden

Shorts aus einem langen Video lassen sich auf dieselbe Weise automatisch produzieren. Der Agent bekommt das Transkript mit Zeitstempeln, sucht nach Stellen, die kurz und prägnant sind und für sich Sinn ergeben, markiert sie und baut den Clip zusammen: Intro davor, Outro dahinter, Animationen drüber, Untertitel drauf.

Shorts automatisch aus langen Videos durch Videobearbeitung mit KI schneiden

Den fertigen Cut schaue ich mir dann noch einmal an und korrigiere bei Bedarf. Der Rest läuft.

Was am Workflow zählt

Videobearbeitung mit KI funktioniert, sobald das Video in einem Format vorliegt, das ein Agent lesen kann. Whisper liefert dieses Format. ffmpeg führt die Schnitte und Effekte aus. Claude Code plant den Ablauf und ruft die Tools auf. Tella nutze ich für den Vorschnitt, weil ich dort händisch nachjustieren kann.

Den kompletten Ablauf siehst du im YouTube-Video oben. Wenn du einen ähnlichen Workflow für dein Unternehmen aufbauen möchtest, melde dich gerne bei mir oder schau dir an, wie ich Workflows automatisiere.