MusicLM

MusicLM er en model, der kan generere høj-kvalitets musik fra tekstbeskrivelser og overgår tidligere systemer i både lydkvalitet og overholdelse af beskrivelsen.

Vi introducerer MusicLM, en model til at generere høj-kvalitets musik fra tekstbeskrivelser som f.eks. “en beroligende violin-melodi understøttet af en forvrænget guitar-riff”. MusicLM omsætter processen med betinget musikgenerering som en hierarkisk sekvens-til-sekvens modelleringsopgave, og den genererer musik ved 24 kHz, som forbliver konsekvent i flere minutter. Vores eksperimenter viser, at MusicLM overgår tidligere systemer både i lydkvalitet og overholdelse af tekstbeskrivelsen. Derudover demonstrerer vi, at MusicLM kan betinges både af tekst og en melodi, idet den kan transformere fløjtet og summerede melodier i overensstemmelse med stilen beskrevet i en teksttekst. For at støtte fremtidig forskning frigiver vi offentligt MusicCaps, en datasæt bestående af 5,5k musik-tekst par, med rige tekstbeskrivelser leveret af menneskelige eksperter.

Kategori:

AI & GPT værktøjer:

Scroll to Top