Мысли в слух:
Процесс генерации музыки с помощью текстовых нейросетей - является крайне не тривиальной задачей.
У меня был успешный опыт работы с текстовыми моделями для создания векторной и растровой графики и 3D моделей, но с ними проще, так как существуют общедоступные ascii (текстовые) форматы.
С музыкой немного сложнее, тут приходится идти сложным путем, либо текстовым представлением Midi данных, либо путем использования нотной нотации ABC Notation. И то и другое имеет мало общего со стандартной музыкой wav и mp3 формата, тем не менее путем последующих сложных преобразований, мы можем добиться нужного нам результата.