Google startet Gemini Omni Flash API für Unternehmensvideoproduktion

Google hat sein Gemini Omni Flash Modell über eine API für Unternehmenskunden veröffentlicht, was die Erstellung und Bearbeitung von Videos per Konversation ermöglicht. Die Technologie zielt darauf ab, die interne Videoproduktion für Unternehmen zu beschleunigen und kostengünstiger zu gestalten.

30. Juni 2026

Google startet Gemini Omni Flash API für Unternehmensvideoproduktion

Google hat sein KI-Modell Gemini Omni Flash über eine API für Unternehmenskunden zugänglich gemacht. Diese Einführung ermöglicht die Erstellung und Bearbeitung von Videoinhalten vollständig per Konversation – eine Funktion, die zuvor für Verbraucher eingeführt wurde und nun darauf abzielt, die interne Videoproduktion von Unternehmen zu beschleunigen.

Traditionell war die Produktion von Unternehmensvideos, wie 90-sekündige Schulungsmodule oder Produktvorstellungen, ein komplexer Prozess, der detaillierte Briefings, Produktionsteams, Dreharbeiten, Schnitt und Überarbeitungen erforderte. Selbst geringfügige Textänderungen konnten eine Wiederholung des gesamten Arbeitsablaufs nach sich ziehen, was die Videoproduktion langsam und teuer machte. Gemini Omni Flash zielt darauf ab, dieses Paradigma zu verändern, indem es eine schnellere und kostengünstigere Lösung anbietet.

Die neue API ermöglicht die Produktion komplexer Videos durch die Integration von Werkzeugen, die zuvor separat verwendet wurden. Das Modell kann Videos aus Text, Bildern und bestehenden Videoclips generieren und liefert einen fertigen Clip mit synchronisiertem Ton. Benutzer können auch vorhandene Videos durch Konversationsanweisungen bearbeiten, was den Postproduktionsprozess vereinfacht.

Die Technologie unterstützt multimodale Eingaben wie Referenzbilder und bestehende Videoclips, die das Modell in das Endergebnis integriert. Sie versteht auch das Verhalten physikalischer Szenen, wie Licht- und Regen-Effekte, und kann das Einfügen oder Ändern von Text und Logos in Videos handhaben. Dennoch wird den Benutzern empfohlen, die generierten Inhalte vor der Veröffentlichung einer menschlichen Überprüfung zu unterziehen.

Google gibt an, dass aktuelle Einschränkungen eine maximale Videolänge von 10 Sekunden und eine Auflösung von 720p umfassen. Wichtige Funktionen für Unternehmen sind auch eine integrierte Wasserzeichenfunktion (SynthID), Tools zur Herkunftsnachverfolgung von Inhalten (C2PA) und eine API zur Erkennung KI-generierter Inhalte. Google hat auch Beschränkungen eingeführt, wie z. B. das Verbot der Verwendung von Standbildern und Audio zur Erstellung von Deepfakes.

Originalquelle: venturebeat.com