1. Можно попробовать следующие теги: [Man], [Woman], [Male voice], [Female voice]. Эти теги пишут прямо в начале строк(и), которую(ые) надо спеть другим голосом. Например, так:
[Man][Male voice] Текст текст текст... Текст текст текст... Текст текст текст... Текст текст текст...
[Woman][Female voice] Текст текст текст... Текст текст текст...
Я пишу несколько вариантов одновременно, чтобы повысить вероятность. Правда, нельзя быть уверенным, что голоса не расставятся иным образом.
Вместе с этим рекомендую скрестить пальцы написать в Style of Music теги «male vocal» и «female vocal». Обычно голоса задают где-нибудь между списком жанров и списком инструментов, то есть примерно 3-м элементом.
2. В самой Suno такая возможность отсутствует, т. к. музыка и голос генерируются одновременно, на основе одного и того же математического числа (сида). Можно достичь приближённого эффекта: — Скачать песню себе на компьютер; — Разделить её на музыку и голос с помощью специальной программы. Наилучшее качество получается в SpectraLayers (программа для ПК, можно скачать демо-версию с оф. сайта) или Lalal.ai (онлайн-сервис); — Обрезать аудио максимум до 60 секунд (т. к. Suno принимает аудио длиной от 6 до 60 с), например выделить самую значимую часть, содержащую основную мелодию. Для этого подойдет тот же SpectraLayers или еще какой-то аудиоредактор, например lossless-cut. Как вариант, я бы смониторовал несколько частей песни, если они располагаются на расстоянии, но при этом каждая содержит важную музыкальную тему. — И этот готовый сохранённый файл подгрузить в интерфейс Suno с помощью кнопки Audio, расположенной слева от Create. Тогда мелодия будет встроена в генерируемый трек, но обычно она слегка изменяется.
3. Раньше так можно было делать, но сейчас это редко прокатывает даже с уловками. Если просто написать название группы «Depeche Mode», Suno отклонит генерацию трека. А если попытаться обойти ограничение, например задать в Styles of Music «DepecheMode-core» (представив, что это такой жанр), то трек сгенерируется, но опять же стиль не «прицепится» к песне. Хотя это может зависеть от группы — думаю, надо проверять для каждого исполнителя по отдельности. Чаще всего пишут с этим суффиксом «-core», прибавляя его к нужной группе.
Важно учитывать, что системные промты бывают двух видов — заводские и «программистские». И во втором случае утечка системного промта может быть настолько же критична, насколько и раскрытие, например, исходного кода серверных файлов, обрабатывающих логику веб-сайта.
Системные промты бывают двух видов: их может выставить компания-разработчик (OpenAI, xAI, DeepSeek AI, Anthropic...) или же пользователь, когда обращается к модели через API.
В первом случае там, в принципе, действительно вряд ли будет секретная информация — в основном наставления по нейтральности и толерантности выводимых сообщений, а также установки по форматированию текста и способам вывода информации (в каких случаях переключаться на тот или иной способ вывода).
А в случае системного промта, заданного самим пользователем, эта информация может включать непубличные способы проверки и преобразования данных. Можно сказать, что этот кастомный системный промт что-то вроде серверного исходного кода, который тоже зачастую содержит закрытые сведения.
Имеется пара онлайн-игр, где пользователю нужно побыть в роли хакера и заставить LLM сказать что-то, что противоречит указаниям в системном промте:
Спасибо, важный результат. Кстати, похоже, что модели различаются в способе организации системного промта, ведь, по сути, системных промтов бывает два — дефолтный и заданный разработчиком. Тут сложно даже подобрать термины — хочется написать «„системный“ системный промт» (заданный компанией) и «„пользовательский“ системный промт» (переданный пользователем через API).
Так вот, судя по всему, когда пользователь передает системный промт через API, некоторые модели могут его добавлять к своему изначальному системному промту, а некоторые — заменять. В случае Qwen-3, глядя на ваш вывод нейросети, скорее всего, они суммируются.
И кроме того, есть настройка поведения моделей, широко известная как выравнивание (alignment), которая может реализовываться и как файнтюнинг (дообучение), и как опять же тщательный подбор подходящего системного промта. В первом случае, дообучение, становится не таким очевидным способ изменить поведение модели через игру с системным промтом, равно как и извлечь его, так как это уже не промт, а гигантский набор весов-параметров, распределенных по всей модели.
В двух интерфейсах, в которых я проверял эту модель, процесс рассуждения просто обрубался, когда доходило до какого-то количества. Получается, что в вашем случае даже процесс одного рассуждения (14 110 токенов) превысил длину контекстного окна этой квантизированной версии (8192 токена), то есть при ответе на вопрос лишь 58% текста рассуждения (считая с конца) было учтено.
Супер, спасибо! Этот ответ, выданный QwQ-32B, действительно правильный. Признаюсь честно, что я пробовал очень много попыток, и модель чуть ли не при любых сложных вопросах уходила в бесконечные рассуждения. Но если всё как следует настроить, эту квантизированную рассуждающую версию действительно можно запускать на игровой видеокарте с 16 ГБ.
И вот так складывается своеобразная арка истории: GeForce принесла миру CUDA, а CUDA открыла путь для ИИ; графические процессоры на базе CUDA дали каждому исследователю в области ИИ возможность иметь суперкомпьютер прямо на рабочем столе. CUDA вывела ИИ на новый уровень, но удивительно, что потом ИИ вернулся, чтобы перевернуть всё в GeForce. Получается, он вернулся в дом, который помог ему появиться, и теперь компьютерная графика действительно стала полностью ведомой ИИ.
Для основного сравнения специально брал лишь нерассуждающие модели, так как рассуждающие (o1, o3-mini, DeepSeek-r1, Claude-3.7-Sonnet-Thinking и т. д.) действуют по другим принципам.
Но это ведь не только чёрное и белое — не просто кажется, а кажется на 30%, кажется на 80% и т. д. В степени уверенности и есть тест, а достичь максимальной уверенности — идеальное стремление в разработке человекоподобного ИИ.
Справедливо замечу, что формулировка была «ChatGPT прошёл тест Тьюринга в области психотерапии». Сейчас заголовок уточнён, но эта часть осталась в таком же виде.
Да, этот ответ близок к истине, ведь буква Y (гласность/согласность которой изменчива и зависит от конкретного случая, то есть произношения в слове) обычно идёт за согласную в логических задачах. Получается, что гласных остаётся не шесть, а пять: A, E, I, O, U. Но конечно, это формальное положение не соответствует произношению (forty, sixty, seventy) — однако и DeepSeek-r1, и ChatGPT-o1 сочли его за само собой разумеющееся, что опять же намекает на его распространённость.
Благодарю за отзыв!
1. Можно попробовать следующие теги: [Man], [Woman], [Male voice], [Female voice]. Эти теги пишут прямо в начале строк(и), которую(ые) надо спеть другим голосом. Например, так:
[Man][Male voice] Текст текст текст...
Текст текст текст...
Текст текст текст...
Текст текст текст...
[Woman][Female voice] Текст текст текст...
Текст текст текст...
Я пишу несколько вариантов одновременно, чтобы повысить вероятность. Правда, нельзя быть уверенным, что голоса не расставятся иным образом.
Вместе с этим рекомендую
скрестить пальцынаписать в Style of Music теги «male vocal» и «female vocal». Обычно голоса задают где-нибудь между списком жанров и списком инструментов, то есть примерно 3-м элементом.2. В самой Suno такая возможность отсутствует, т. к. музыка и голос генерируются одновременно, на основе одного и того же математического числа (сида). Можно достичь приближённого эффекта:
— Скачать песню себе на компьютер;
— Разделить её на музыку и голос с помощью специальной программы. Наилучшее качество получается в SpectraLayers (программа для ПК, можно скачать демо-версию с оф. сайта) или Lalal.ai (онлайн-сервис);
— Обрезать аудио максимум до 60 секунд (т. к. Suno принимает аудио длиной от 6 до 60 с), например выделить самую значимую часть, содержащую основную мелодию. Для этого подойдет тот же SpectraLayers или еще какой-то аудиоредактор, например lossless-cut. Как вариант, я бы смониторовал несколько частей песни, если они располагаются на расстоянии, но при этом каждая содержит важную музыкальную тему.
— И этот готовый сохранённый файл подгрузить в интерфейс Suno с помощью кнопки Audio, расположенной слева от Create. Тогда мелодия будет встроена в генерируемый трек, но обычно она слегка изменяется.
3. Раньше так можно было делать, но сейчас это редко прокатывает даже с уловками. Если просто написать название группы «Depeche Mode», Suno отклонит генерацию трека. А если попытаться обойти ограничение, например задать в Styles of Music «DepecheMode-core» (представив, что это такой жанр), то трек сгенерируется, но опять же стиль не «прицепится» к песне. Хотя это может зависеть от группы — думаю, надо проверять для каждого исполнителя по отдельности. Чаще всего пишут с этим суффиксом «-core», прибавляя его к нужной группе.
Очень здорово, что вопрос разрешился! Я желаю вам приятного использования нашего замечательного сервиса.
Важно учитывать, что системные промты бывают двух видов — заводские и «программистские». И во втором случае утечка системного промта может быть настолько же критична, насколько и раскрытие, например, исходного кода серверных файлов, обрабатывающих логику веб-сайта.
До сих пор выставляют. Недавно на GitHub добавили новые дефолтные системные промты, извлеченные из популярных LLM: https://github.com/jujumilk3/leaked-system-prompts/.
Системные промты бывают двух видов: их может выставить компания-разработчик (OpenAI, xAI, DeepSeek AI, Anthropic...) или же пользователь, когда обращается к модели через API.
В первом случае там, в принципе, действительно вряд ли будет секретная информация — в основном наставления по нейтральности и толерантности выводимых сообщений, а также установки по форматированию текста и способам вывода информации (в каких случаях переключаться на тот или иной способ вывода).
А в случае системного промта, заданного самим пользователем, эта информация может включать непубличные способы проверки и преобразования данных. Можно сказать, что этот кастомный системный промт что-то вроде серверного исходного кода, который тоже зачастую содержит закрытые сведения.
Имеется пара онлайн-игр, где пользователю нужно побыть в роли хакера и заставить LLM сказать что-то, что противоречит указаниям в системном промте:
https://www.vaultbreak.ai/daily-jailbreak;
https://gandalf.lakera.ai/baseline.
Именно через эти промты — нет! Но через некоторые другие да, постараюсь потом написать👍
Спасибо, важный результат. Кстати, похоже, что модели различаются в способе организации системного промта, ведь, по сути, системных промтов бывает два — дефолтный и заданный разработчиком. Тут сложно даже подобрать термины — хочется написать «„системный“ системный промт» (заданный компанией) и «„пользовательский“ системный промт» (переданный пользователем через API).
Так вот, судя по всему, когда пользователь передает системный промт через API, некоторые модели могут его добавлять к своему изначальному системному промту, а некоторые — заменять. В случае Qwen-3, глядя на ваш вывод нейросети, скорее всего, они суммируются.
И кроме того, есть настройка поведения моделей, широко известная как выравнивание (alignment), которая может реализовываться и как файнтюнинг (дообучение), и как опять же тщательный подбор подходящего системного промта. В первом случае, дообучение, становится не таким очевидным способ изменить поведение модели через игру с системным промтом, равно как и извлечь его, так как это уже не промт, а гигантский набор весов-параметров, распределенных по всей модели.
В двух интерфейсах, в которых я проверял эту модель, процесс рассуждения просто обрубался, когда доходило до какого-то количества. Получается, что в вашем случае даже процесс одного рассуждения (14 110 токенов) превысил длину контекстного окна этой квантизированной версии (8192 токена), то есть при ответе на вопрос лишь 58% текста рассуждения (считая с конца) было учтено.
Супер, спасибо! Этот ответ, выданный QwQ-32B, действительно правильный. Признаюсь честно, что я пробовал очень много попыток, и модель чуть ли не при любых сложных вопросах уходила в бесконечные рассуждения. Но если всё как следует настроить, эту квантизированную рассуждающую версию действительно можно запускать на игровой видеокарте с 16 ГБ.
Тоже этот момент показался странным, но интервьюер произносит так по памяти.
В заголовках интервью часто так делают — берут отдельную цитату, даже если она не описывает весь материал.
См. этот абзац:
Для основного сравнения специально брал лишь нерассуждающие модели, так как рассуждающие (o1, o3-mini, DeepSeek-r1, Claude-3.7-Sonnet-Thinking и т. д.) действуют по другим принципам.
Исправлено, спасибо!
Но это ведь не только чёрное и белое — не просто кажется, а кажется на 30%, кажется на 80% и т. д. В степени уверенности и есть тест, а достичь максимальной уверенности — идеальное стремление в разработке человекоподобного ИИ.
del
Справедливо замечу, что формулировка была «ChatGPT прошёл тест Тьюринга в области психотерапии». Сейчас заголовок уточнён, но эта часть осталась в таком же виде.
Добавил примечание в статье, что количество 18 — это без учёта буквы Y, которая действительно обычно не считается гласной в логических задачах.
Да, этот ответ близок к истине, ведь буква Y (гласность/согласность которой изменчива и зависит от конкретного случая, то есть произношения в слове) обычно идёт за согласную в логических задачах. Получается, что гласных остаётся не шесть, а пять: A, E, I, O, U. Но конечно, это формальное положение не соответствует произношению (forty, sixty, seventy) — однако и DeepSeek-r1, и ChatGPT-o1 сочли его за само собой разумеющееся, что опять же намекает на его распространённость.
Спасибо, исправлено! В одной из задач как-то не так перенеслось)