Sampling music spaces with generative AI
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Recent advances in deep learning have led to powerful models for symbolic music generation, but their creative potential often comes at the expense of user controllability. To provide a more controllable environment for AI-assisted composing, we present a visual approach based on latent embeddings from models, creating an interactive two-dimensional music space in which users can generate melodies in desired areas. By applying dimensionality reduction to embeddings from state-of-the-art symbolic music generation models, melodies are mapped into a scatterplot where proximity reflects similarity. We develop an interactive framework where users can generate, select, and explore melodies directly in the music space. Within this framework, we implement several generation techniques based on the MusicVAE, Pop Music Transformer (REMI), and FIGARO models, and evaluate their effectiveness in filling user-defined regions of the space. Quantitative results show that MusicVAE’s similar and interpolate methods most reliably generate samples close to the targeted area, while REMI and FIGARO produce greater diversity at the cost of precision. A qualitative analysis further highlights how dimensionality reduction methods, parameter settings, and spatial density influence the outcome of generation. Results show that techniques based on the MusicVAE model generate melodies that are both in close proximity and musically similar to their surroundings, making it the most applicable method to generate samples in desired areas of the music space. Our work contributes to the development of visual, interactive methods for human-AI co-creativity in music, emphasizing controllability, exploration, and inspiration in the composition process.
Die jüngsten Fortschritte im Bereich des Deep Learning brachten leistungsstarke Modelle für die symbolische Musikgenerierung hervor, ihr Potenzial geht jedoch häufig zulasten der Beinflussbarkeit durch den Nutzer. Um diesem Problem zu entgegnen, stellen wir einen visuellen Ansatz für KI-unterstütztes Komponieren vor, der mithilfe latenter Embeddings generativer Modelle einen interaktiven zweidimensionalen Musikraum erzeugt, in welchem Nutzer neue Melodien in ausgewählten Bereichen erzeugen können. Durch Dimensionalitätsreduktion werden die hochdimensionalen Embeddings auf einem Scatterplot abgebildet, bei welchem die Nähe zweier Punkte deren musikalische Ähnlichkeit widerspiegelt. Auf dieser Grundlage entwickeln wir ein Framework, in dem Nutzer Melodien direkt im Musikraum generieren, auswählen und erkunden können. Im Rahmen unserer Arbeit werden mehrere Generationsverfahren implementiert, die auf den Modellen MusicVAE, Pop Music Transformer (REMI) und FIGARO basieren. Anschließend evaluieren wir deren Effektivität zur gezielten Befüllung benutzerdefinierter Bereiche des musikalischen Raums. Die quantitative Ergebnisse zeigen, dass MusicVAEs similar- und interpolate-Methoden am zuverlässigsten Ausgaben erzeugen, die nahe am Zielbereich liegen, während REMI und FIGARO größere Vielfalt liefern, die auf die Kosten der Präzision gehen. Eine qualitative Analyse verdeutlicht zudem, wie Dimensionalitätsreduktion, Parametereinstellungen und räumliche Dichte den Generationsprozess beeinflussen. Die Ergebnisse zeigen, dass die Verfahren basierend auf dem MusicVAE-Modell Melodien generieren, die sowohl nah als auch musikalisch ähnlich zu ihren umliegenden Punkten sind. Daraus erschließt sich, dass sich dieses Modell zur Generierung in gezielten Bereichen am besten eignet. Mit dieser Arbeit leisten wir einen Beitrag zur Weiterentwicklung visueller und interaktiver Methoden für die Mensch-KI-Co-Kreativität in der Musik und legen den Fokus dabei insbesondere auf Steuerbarkeit, Exploration und Inspiration im Kompositionsprozess.