Эй, а как же наш агрегатор нейросетей BotHub? Он доступен без ВПН. Можно зарегистировать через почту или войти через «Яндекс», Google, VK, Telegram. ChatGPT-o3-high, ChatGPT-4o, DeepSeek-r1, DeepSeep-v3, Claude 3.5, Gemini, Dalle-3, Midjourney-6.3, Stable Diffusion 3 и многое другое: https://bothub.chat/, https://t.me/bothub_chat_bot.
Да, согласен, там не говорится, что тест сам что-то проверяет. Имеется в виду, что при помощи теста пытаются выяснить, насколько человек сможет отличить машину от человека, а не то, что тест выявляет это по фиксированному набору вопросов или заготовленному диалогу.
Из-за того, что само описание теста имеет нечёткие границы (описывается, что современные варианты насчитывают не менее трёх версий), думаю, исследователи допустили, что такая частичная формулировка имеет место быть.
Хм, интересно... Оказывается, сделать односимвольную ссылку невозможно. Это один из багов WYSIWYG-редактора «Хабра» (мне известно ещё несколько). Спасибо за сообщение об ошибке, написал иначе.
Думаю, здесь проблема возникала немного в другом — из-за особенностей предварительной токенизации и представления данных в обучающем корпусе. В целом это можно счесть недоработкой модели — как на уровне архитектуры, так и на уровне представления данных в обучающих датасетах. В какой-то момент нейроны пересекаются не так, как это хотели бы видеть разработчики и пользователи (однако нейросеть поняла это именно так), и возникают такие неадекватные сообщения. Мне кажется, загвоздкой вполне могли бы быть какие-то мелкие неточности в исходных датасетах, уровня забытой угловой скобки или незакрытого тега и т. д.
Мне тоже очень интересна эта тема, как кодируется информация в мозгу. Кстати, то, о чем вы пишете, уже, в принципе, реализовано в моделях, преобразующих аудио в текст (и обратно), таких как Whisper, которая очень хорошо распознает речь на множестве языков, даже быструю и с проглоченными звуками. Здесь, как мне кажется, самое большое значение имеет даже не архитектура модели, а качество и объем исходных данных: Whisper от OpenAI обучена более чем на 680 000 часах реальной речи. Благодаря тому что слова произносились в разных контекстах, с разными акцентами, на разной скорости и с разной степенью проглоченности звуков, нейросеть смогла настроить свои веса так, чтобы выстроить максимально точные с человеческой точки зрения матрицы вида «такая-то спектрограмма — такой-то текст». И здесь скорее распознается не по звукам, а по более крупным единицам — словам или даже сочетаниям слов (и, конечно, учитывается и остальной контекст в какой-то мере — к примеру, 30-секундный пакет, на которые разделяются исходные аудио при распознавании в Whisper). Так как при быстром произношении слова изменяются до неузнаваемости.
Таким образом, здесь скорее будет идти не в сторону более мелкого дробления, а, наоборот, в сторону расширения контекста — учета аудиоданных целых слов и вообще фразы. Это если принять в расчет, что при быстром произношении один и тот же набор звуков, например в словах «иммерсивный» и «реверсивный», может звучать идентично, но при этом один из вариантов будет иметь бо́льшую вероятность — в контексте предложения/абзаца/даже какого-то более раннего фрагмента в тексте.
Из железа потребуются не менее 16 ГБ оперативной памяти, также желательна GPU (от RTX 3060/RTX 4060). Объем видеопамяти также критичен — мне кажется, для хоум-нейросетей можно выделить два порога, это порядка 12 ГБ и порядка 24 ГБ. Если брать выше, то слишком большие LLM все равно не запустишь без профессиональной видеокарты, а на 12–24 ГБ уже можно делать что-то практичное, например работать с аудио, графикой, 3D-моделями. Где-то 12 ГБ должно хватить для обучения разрежённого автокодировщика.
Кроме того, разные компактные LLM можно запустить даже без GPU, например Mistral-7B, Lllama-2-7B, Phi-2, Gemma-2B.
Хороший вопрос! Мне кажется, с появлением рассуждающих LLM уже можно с уверенностью сказать, что понимание установлено. Однако рассуждения в LLM нужны не столько для визуализации понимания, а скорее для повышения точности логических, математических и др. вычислений. Ведь, когда модель явно проходится по этому мыслительному процессу, подсвечиваются нужные нейроны и они перетягивают мыслительный процесс ближе к стороне правильного ответа.
Кстати, заметил, что нерассуждающие LLM, например ChatGPT-4o, зачастую специально включают этот рассуждающий режим (даже если просить выдать только ответ, без рассуждений), когда просишь ответ в логическом или математическом ключе, например что-то подсчитать. Потому что иначе модель может выдать ошибку (и это действительно так, увы). Раньше такого подхода не было, но со временем OpenAI заметила фишку и стала насильно включать режим рассуждения для многих промтов, которые подразумевают вычисления и решения.
Кстати, если последовательно генерить в Dalle (через ChatGPT) картинки, то есть в рамках одного чата, при этом просить каждый раз нейросеть как-то улучшить результат, то она может включать в свои фактические Dalle-промты (их можно посмотреть, развернув сгенерированную картинку на весь экран и нажав значок «i» в правом верхнем углу) выражения вида «Refine previous result...», то есть «улучшить предыдущий результат», что-то изменив или добавив. И сперва как будто может показаться, что сам модуль Dalle обращается к предыдущим изображениям, но, скорее всего, такое на самом деле технически не предусмотрено и нейросеть просто суммирует текстовые промты, чтобы последующие генерации более соответствовали новым запросам пользователя.
Конечно, вы правы, при описании и распознавании изображений задействуется только ChatGPT, а в архитектуре Dalle не имеется способов задать входное изображение. Исправил все связанные с этим моменты, спасибо.
«Русская рыбалка» — отличная «кормстори», как там выразились. На мой взгляд, всё это прекрасные и легкие песни для радио и стриминга (и Дня рыбалки), которые можно слушать весь день. И ещё «Паника» под конец очень удивила.
Первый альбом — какой-то бешеный хип-хоп, супер. Как будто возвращаемся в 2000-е. Много притягательного в этом звучании лоу-фай, которое было в ранних моделях Suno.
Кстати, видел в «Яндекс музыке» миксы, где присутствует ИИ-речь, но подобных альбомов именно там не замечал. Кажется, скоро у меня появится новое хобби.
Эй, а как же наш агрегатор нейросетей BotHub? Он доступен без ВПН. Можно зарегистировать через почту или войти через «Яндекс», Google, VK, Telegram. ChatGPT-o3-high, ChatGPT-4o, DeepSeek-r1, DeepSeep-v3, Claude 3.5, Gemini, Dalle-3, Midjourney-6.3, Stable Diffusion 3 и многое другое: https://bothub.chat/, https://t.me/bothub_chat_bot.
Да, согласен, там не говорится, что тест сам что-то проверяет. Имеется в виду, что при помощи теста пытаются выяснить, насколько человек сможет отличить машину от человека, а не то, что тест выявляет это по фиксированному набору вопросов или заготовленному диалогу.
Из-за того, что само описание теста имеет нечёткие границы (описывается, что современные варианты насчитывают не менее трёх версий), думаю, исследователи допустили, что такая частичная формулировка имеет место быть.
А-ха-ха))) «Доктор, включите режим рассуждений. Сколько букв R вы здесь видите?»
Хм, интересно... Оказывается, сделать односимвольную ссылку невозможно. Это один из багов WYSIWYG-редактора «Хабра» (мне известно ещё несколько). Спасибо за сообщение об ошибке, написал иначе.
Ого, бывает( Поставил вам плюсиков)
Думаю, здесь проблема возникала немного в другом — из-за особенностей предварительной токенизации и представления данных в обучающем корпусе. В целом это можно счесть недоработкой модели — как на уровне архитектуры, так и на уровне представления данных в обучающих датасетах. В какой-то момент нейроны пересекаются не так, как это хотели бы видеть разработчики и пользователи (однако нейросеть поняла это именно так), и возникают такие неадекватные сообщения. Мне кажется, загвоздкой вполне могли бы быть какие-то мелкие неточности в исходных датасетах, уровня забытой угловой скобки или незакрытого тега и т. д.
Мне тоже очень интересна эта тема, как кодируется информация в мозгу. Кстати, то, о чем вы пишете, уже, в принципе, реализовано в моделях, преобразующих аудио в текст (и обратно), таких как Whisper, которая очень хорошо распознает речь на множестве языков, даже быструю и с проглоченными звуками. Здесь, как мне кажется, самое большое значение имеет даже не архитектура модели, а качество и объем исходных данных: Whisper от OpenAI обучена более чем на 680 000 часах реальной речи. Благодаря тому что слова произносились в разных контекстах, с разными акцентами, на разной скорости и с разной степенью проглоченности звуков, нейросеть смогла настроить свои веса так, чтобы выстроить максимально точные с человеческой точки зрения матрицы вида «такая-то спектрограмма — такой-то текст». И здесь скорее распознается не по звукам, а по более крупным единицам — словам или даже сочетаниям слов (и, конечно, учитывается и остальной контекст в какой-то мере — к примеру, 30-секундный пакет, на которые разделяются исходные аудио при распознавании в Whisper). Так как при быстром произношении слова изменяются до неузнаваемости.
Таким образом, здесь скорее будет идти не в сторону более мелкого дробления, а, наоборот, в сторону расширения контекста — учета аудиоданных целых слов и вообще фразы. Это если принять в расчет, что при быстром произношении один и тот же набор звуков, например в словах «иммерсивный» и «реверсивный», может звучать идентично, но при этом один из вариантов будет иметь бо́льшую вероятность — в контексте предложения/абзаца/даже какого-то более раннего фрагмента в тексте.
Конечно, но применяя другие датасеты. Например, вместо огромного The Pile можно взять OpenWebText (https://huggingface.co/datasets/Skylion007/openwebtext) или TinyStories (https://huggingface.co/datasets/roneneldan/TinyStories).
Из железа потребуются не менее 16 ГБ оперативной памяти, также желательна GPU (от RTX 3060/RTX 4060). Объем видеопамяти также критичен — мне кажется, для хоум-нейросетей можно выделить два порога, это порядка 12 ГБ и порядка 24 ГБ. Если брать выше, то слишком большие LLM все равно не запустишь без профессиональной видеокарты, а на 12–24 ГБ уже можно делать что-то практичное, например работать с аудио, графикой, 3D-моделями. Где-то 12 ГБ должно хватить для обучения разрежённого автокодировщика.
Кроме того, разные компактные LLM можно запустить даже без GPU, например Mistral-7B, Lllama-2-7B, Phi-2, Gemma-2B.
Хороший вопрос! Мне кажется, с появлением рассуждающих LLM уже можно с уверенностью сказать, что понимание установлено. Однако рассуждения в LLM нужны не столько для визуализации понимания, а скорее для повышения точности логических, математических и др. вычислений. Ведь, когда модель явно проходится по этому мыслительному процессу, подсвечиваются нужные нейроны и они перетягивают мыслительный процесс ближе к стороне правильного ответа.
Кстати, заметил, что нерассуждающие LLM, например ChatGPT-4o, зачастую специально включают этот рассуждающий режим (даже если просить выдать только ответ, без рассуждений), когда просишь ответ в логическом или математическом ключе, например что-то подсчитать. Потому что иначе модель может выдать ошибку (и это действительно так, увы). Раньше такого подхода не было, но со временем OpenAI заметила фишку и стала насильно включать режим рассуждения для многих промтов, которые подразумевают вычисления и решения.
Спасибо, исправил! Думаю, добавлю в чек-лист это словосочетание.
Кстати, если последовательно генерить в Dalle (через ChatGPT) картинки, то есть в рамках одного чата, при этом просить каждый раз нейросеть как-то улучшить результат, то она может включать в свои фактические Dalle-промты (их можно посмотреть, развернув сгенерированную картинку на весь экран и нажав значок «i» в правом верхнем углу) выражения вида «Refine previous result...», то есть «улучшить предыдущий результат», что-то изменив или добавив. И сперва как будто может показаться, что сам модуль Dalle обращается к предыдущим изображениям, но, скорее всего, такое на самом деле технически не предусмотрено и нейросеть просто суммирует текстовые промты, чтобы последующие генерации более соответствовали новым запросам пользователя.
Конечно, вы правы, при описании и распознавании изображений задействуется только ChatGPT, а в архитектуре Dalle не имеется способов задать входное изображение. Исправил все связанные с этим моменты, спасибо.
Конечно, давайте укажем ссылку: https://music.yandex.ru/artist/22993003.
«Русская рыбалка» — отличная «кормстори», как там выразились. На мой взгляд, всё это прекрасные и легкие песни для радио и стриминга (и Дня рыбалки), которые можно слушать весь день. И ещё «Паника» под конец очень удивила.
Первый альбом — какой-то бешеный хип-хоп, супер. Как будто возвращаемся в 2000-е. Много притягательного в этом звучании лоу-фай, которое было в ранних моделях Suno.
Кстати, видел в «Яндекс музыке» миксы, где присутствует ИИ-речь, но подобных альбомов именно там не замечал. Кажется, скоро у меня появится новое хобби.