Google Gemini kan nu skapa musik från text, bilder och videor

Googles AI-modell Gemini har uppdaterats för att generera musik baserat på användares textprompter, bilder eller videor. De skapade spåren förses med en osynlig vattenstämpel för att identifiera deras ursprung.

15 juni 2026

Google Gemini kan nu skapa musik från text, bilder och videor

Google har utökat funktionaliteten i sin AI-modell Gemini med möjligheten att skapa musik utifrån olika typer av användarinmatning. Den nya funktionen gör det möjligt att generera korta ljudspår, cirka 30 sekunder långa, genom att använda textbeskrivningar, bilder eller videoklipp som inspiration.

Musiken skapas med hjälp av Googles DeepMind-utvecklade generativa musikmodell Lyria 3. Användare kan ange specifika instruktioner i textform, exempelvis musikgenre, tempo och typ av sång. Modellen kan även skapa musik baserad på uppladdade bilder eller videor, där AI:n försöker fånga stämningen i medieinnehållet. Google uppger att all AI-genererad musik kommer att förses med en osynlig vattenstämpel identifierad av Googles SynthID-teknik, vilken kan verifieras men inte hörs i musiken.

Den nya funktionen för musikgenerering i Gemini är för närvarande i en betafas och tillgänglig för vuxna användare på engelska, tyska, spanska, franska, hindi, japanska, koreanska och portugisiska. Användare kan ge specifika instruktioner som "skapa en snabb (120 BPM) soul-funk-låt med en varm, kvinnlig sopranröst" eller mer generella som "trance-musik från 90-talet som börjar långsamt men känns upplyftande".

Lyria 3 integreras även i YouTube, där innehållsskapare kan använda "Dream Track"-funktionen för att lägga till bakgrundsmusik i sina YouTube Shorts-videor. Denna funktion har tidigare endast varit tillgänglig som ett experiment i USA, men rullas nu ut i fler länder. Åtgärden är en del av Googles strategi att stödja YouTube-kreatörer med hjälp av AI-verktyg. Företaget betonar att man följer upphovsrättslagar i sin musikgenereringsprocess.

Ursprunglig källa: heise.de