Спасибо, поигрался немного с фронтир моделями через OpenRouter, но текстовые модели, видимо, вообще не понимают специфичные жанры, т.к. их нужно было бы обучать то ли на табах, то ли вообще на таких TidalCycle скриптах. На промпты (не смейтесь :) ):
напиши музыку в стиле Super Contra 8-bit на NES (боевик, энергичная музыка)
напиши progressive death metal
Выдаёт несусветное нечто. П. 2 - это, конечно, вообще не для таких скриптов, но попытка не пытка.
Но чтобы ту же 8-16-битную музыку массово превратить в ноты+инструменты и скормить нейросетке для обучения, это надо ковырять код/output из рип-форматов вроде nsf, vgm, sfc и т.д.. NSF - это вообще вырезанный код звукового движка, как он работает со звуковым чипом. Технически это даже сегодня возможно, но трудоёмко, и под каждый звуковой движок нужен отдельный конвертор. (Хотя был такой проект nsf2midi).
А прокрутка трека на позицию не предусмотрена? Или слишком сложно, поэтому её не реализуют?
Универсальный GUI-агент, который всё делает, как человек, - это очень сложно. Осенью 2024 Anthropic выпустили какую-то поделку под названием Computer Use: тыкнуть мышкой, сделать скриншот, прочитать скриншот, подумать. Медленно, дорого, криво. Были ещё поделки, но большого прогресса не видно. На практике я замечал, что модельки видят графику очень приблизительно. "размыто", но тут есть некоторые трюки. Могут рассказать подробней о своём опыте. А иконки даже человек часто не понимает (и OCR не поможет), но он может прочитать тултип к иконке. И если агент работает с человеком одновременно в одном рабочем столе и будет дёргать GUI-элементы, это будет мешать человеку. Есть вариант обучать агента работать с конкретными GUI-программами через системные вызовы: либо отправлять хоткеи, если они есть, либо сначала вытащить адреса/внутренние идентификаторы элементов меню и иконок, большинство программ и так ведь на стандартных компонентах работают. Видел списки таких идентификаторов на форумах тулов-кликалок. Но тут тоже непросто, а самый важный вопрос - как всё равно ЧИТАТЬ информацию из программы - либо опять расковыривать память, либо OCR. Помнится, Lingvo умела делать так: навёл на слово в любой программе мышкой, Lingvo дала перевод. Там чисто OCR был, не знаете? Ну т.е. если коротко, можно научить агента работать с конкретной программой и потом пользоваться. Лучше, чем ничего.
Спасибо, поигрался немного с фронтир моделями через OpenRouter, но текстовые модели, видимо, вообще не понимают специфичные жанры, т.к. их нужно было бы обучать то ли на табах, то ли вообще на таких TidalCycle скриптах. На промпты (не смейтесь :) ):
напиши музыку в стиле Super Contra 8-bit на NES (боевик, энергичная музыка)
напиши progressive death metal
Выдаёт несусветное нечто. П. 2 - это, конечно, вообще не для таких скриптов, но попытка не пытка.
Но чтобы ту же 8-16-битную музыку массово превратить в ноты+инструменты и скормить нейросетке для обучения, это надо ковырять код/output из рип-форматов вроде nsf, vgm, sfc и т.д.. NSF - это вообще вырезанный код звукового движка, как он работает со звуковым чипом. Технически это даже сегодня возможно, но трудоёмко, и под каждый звуковой движок нужен отдельный конвертор. (Хотя был такой проект nsf2midi).
А прокрутка трека на позицию не предусмотрена? Или слишком сложно, поэтому её не реализуют?
Универсальный GUI-агент, который всё делает, как человек, - это очень сложно. Осенью 2024 Anthropic выпустили какую-то поделку под названием Computer Use: тыкнуть мышкой, сделать скриншот, прочитать скриншот, подумать. Медленно, дорого, криво. Были ещё поделки, но большого прогресса не видно.
На практике я замечал, что модельки видят графику очень приблизительно. "размыто", но тут есть некоторые трюки. Могут рассказать подробней о своём опыте.
А иконки даже человек часто не понимает (и OCR не поможет), но он может прочитать тултип к иконке. И если агент работает с человеком одновременно в одном рабочем столе и будет дёргать GUI-элементы, это будет мешать человеку.
Есть вариант обучать агента работать с конкретными GUI-программами через системные вызовы: либо отправлять хоткеи, если они есть, либо сначала вытащить адреса/внутренние идентификаторы элементов меню и иконок, большинство программ и так ведь на стандартных компонентах работают. Видел списки таких идентификаторов на форумах тулов-кликалок. Но тут тоже непросто, а самый важный вопрос - как всё равно ЧИТАТЬ информацию из программы - либо опять расковыривать память, либо OCR. Помнится, Lingvo умела делать так: навёл на слово в любой программе мышкой, Lingvo дала перевод. Там чисто OCR был, не знаете?
Ну т.е. если коротко, можно научить агента работать с конкретной программой и потом пользоваться. Лучше, чем ничего.