Google Gemini erzeugt nun Musik aus Text, Bildern und Videos
Googles KI-Modell Gemini kann nun Musik basierend auf Texteingaben, Bildern oder Videos erzeugen. Die generierten Stücke sind mit einem unsichtbaren Wasserzeichen versehen, um ihre Herkunft zu kennzeichnen.

Google hat die Fähigkeiten seines KI-Modells Gemini um die Generierung von Musik erweitert. Das Modell kann nun etwa 30 Sekunden lange Musikstücke auf Basis von Texteingaben, Bildern oder Videos erstellen.
Die neue Funktion nutzt Googles DeepMind-Modell Lyria 3, das für die Generierung von Musik konzipiert ist. Nutzer können über Texteingaben verschiedene Parameter wie Genre, Tempo und Gesangsstil vorgeben oder das KI-Modell breiter interpretieren lassen. Gemini kann auch Bilder oder Videos als Inspiration nutzen, um passende musikalische Untermalungen zu komponieren. Google gibt an, dass sämtliche durch Lyria 3 erzeugte Musik mit einem unsichtbaren Wasserzeichen versehen wird, das mittels Googles SynthID-Technik verifiziert werden kann, ohne die Audioqualität zu beeinträchtigen.
Die Musikgenerierungsfunktion in Gemini befindet sich derzeit im Beta-Stadium und steht Erwachsenen Nutzern in den Sprachen Englisch, Deutsch, Spanisch, Französisch, Hindi, Japanisch, Koreanisch und Portugiesisch zur Verfügung. Die Anweisungen können detailliert ausfallen, wie etwa „Erzeuge einen schnellen (120 BPM) Soul-Funk-Track mit einer warmen, weiblichen Sopranstimme“, oder sie können allgemeiner formuliert sein, beispielsweise „90er Jahre Trance-Musik, die langsam beginnt, aber aufmunternd wirkt“.
Lyria 3 wird auch in YouTube integriert, um Content-Erstellern zu helfen. Mit der Funktion „Dream Track“ können YouTuber künftig Hintergrundmusik für ihre Shorts-Videos generieren. Dieses Feature war zuvor nur als Experiment in den USA verfügbar und wird nun auch in anderen Regionen ausgerollt. Google verfolgt damit das Ziel, YouTube-Kreatoren mithilfe von KI-Werkzeugen zu unterstützen und dabei Urheberrechtsgesetze einzuhalten.