All streams
Search
Write a publication
Pull to refresh
41
66.4
Дмитрий @dmitrifriend

User

Send message

Эй, а как же наш агрегатор нейросетей BotHub? Он доступен без ВПН. Можно зарегистировать через почту или войти через «Яндекс», Google, VK, Telegram. ChatGPT-o3-high, ChatGPT-4o, DeepSeek-r1, DeepSeep-v3, Claude 3.5, Gemini, Dalle-3, Midjourney-6.3, Stable Diffusion 3 и многое другое: https://bothub.chat/, https://t.me/bothub_chat_bot.

Да, согласен, там не говорится, что тест сам что-то проверяет. Имеется в виду, что при помощи теста пытаются выяснить, насколько человек сможет отличить машину от человека, а не то, что тест выявляет это по фиксированному набору вопросов или заготовленному диалогу.

Из-за того, что само описание теста имеет нечёткие границы (описывается, что современные варианты насчитывают не менее трёх версий), думаю, исследователи допустили, что такая частичная формулировка имеет место быть.

А-ха-ха))) «Доктор, включите режим рассуждений. Сколько букв R вы здесь видите?»

Хм, интересно... Оказывается, сделать односимвольную ссылку невозможно. Это один из багов WYSIWYG-редактора «Хабра» (мне известно ещё несколько). Спасибо за сообщение об ошибке, написал иначе.

Думаю, здесь проблема возникала немного в другом — из-за особенностей предварительной токенизации и представления данных в обучающем корпусе. В целом это можно счесть недоработкой модели — как на уровне архитектуры, так и на уровне представления данных в обучающих датасетах. В какой-то момент нейроны пересекаются не так, как это хотели бы видеть разработчики и пользователи (однако нейросеть поняла это именно так), и возникают такие неадекватные сообщения. Мне кажется, загвоздкой вполне могли бы быть какие-то мелкие неточности в исходных датасетах, уровня забытой угловой скобки или незакрытого тега и т. д.

Мне тоже очень интересна эта тема, как кодируется информация в мозгу. Кстати, то, о чем вы пишете, уже, в принципе, реализовано в моделях, преобразующих аудио в текст (и обратно), таких как Whisper, которая очень хорошо распознает речь на множестве языков, даже быструю и с проглоченными звуками. Здесь, как мне кажется, самое большое значение имеет даже не архитектура модели, а качество и объем исходных данных: Whisper от OpenAI обучена более чем на 680 000 часах реальной речи. Благодаря тому что слова произносились в разных контекстах, с разными акцентами, на разной скорости и с разной степенью проглоченности звуков, нейросеть смогла настроить свои веса так, чтобы выстроить максимально точные с человеческой точки зрения матрицы вида «такая-то спектрограмма — такой-то текст». И здесь скорее распознается не по звукам, а по более крупным единицам — словам или даже сочетаниям слов (и, конечно, учитывается и остальной контекст в какой-то мере — к примеру, 30-секундный пакет, на которые разделяются исходные аудио при распознавании в Whisper). Так как при быстром произношении слова изменяются до неузнаваемости.

Таким образом, здесь скорее будет идти не в сторону более мелкого дробления, а, наоборот, в сторону расширения контекста — учета аудиоданных целых слов и вообще фразы. Это если принять в расчет, что при быстром произношении один и тот же набор звуков, например в словах «иммерсивный» и «реверсивный», может звучать идентично, но при этом один из вариантов будет иметь бо́льшую вероятность — в контексте предложения/абзаца/даже какого-то более раннего фрагмента в тексте.

Конечно, но применяя другие датасеты. Например, вместо огромного The Pile можно взять OpenWebText (https://huggingface.co/datasets/Skylion007/openwebtext) или TinyStories (https://huggingface.co/datasets/roneneldan/TinyStories).

Из железа потребуются не менее 16 ГБ оперативной памяти, также желательна GPU (от RTX 3060/RTX 4060). Объем видеопамяти также критичен — мне кажется, для хоум-нейросетей можно выделить два порога, это порядка 12 ГБ и порядка 24 ГБ. Если брать выше, то слишком большие LLM все равно не запустишь без профессиональной видеокарты, а на 12–24 ГБ уже можно делать что-то практичное, например работать с аудио, графикой, 3D-моделями. Где-то 12 ГБ должно хватить для обучения разрежённого автокодировщика.

Кроме того, разные компактные LLM можно запустить даже без GPU, например Mistral-7B, Lllama-2-7B, Phi-2, Gemma-2B.

Хороший вопрос! Мне кажется, с появлением рассуждающих LLM уже можно с уверенностью сказать, что понимание установлено. Однако рассуждения в LLM нужны не столько для визуализации понимания, а скорее для повышения точности логических, математических и др. вычислений. Ведь, когда модель явно проходится по этому мыслительному процессу, подсвечиваются нужные нейроны и они перетягивают мыслительный процесс ближе к стороне правильного ответа.

Кстати, заметил, что нерассуждающие LLM, например ChatGPT-4o, зачастую специально включают этот рассуждающий режим (даже если просить выдать только ответ, без рассуждений), когда просишь ответ в логическом или математическом ключе, например что-то подсчитать. Потому что иначе модель может выдать ошибку (и это действительно так, увы). Раньше такого подхода не было, но со временем OpenAI заметила фишку и стала насильно включать режим рассуждения для многих промтов, которые подразумевают вычисления и решения.

Спасибо, исправил! Думаю, добавлю в чек-лист это словосочетание.

Кстати, если последовательно генерить в Dalle (через ChatGPT) картинки, то есть в рамках одного чата, при этом просить каждый раз нейросеть как-то улучшить результат, то она может включать в свои фактические Dalle-промты (их можно посмотреть, развернув сгенерированную картинку на весь экран и нажав значок «i» в правом верхнем углу) выражения вида «Refine previous result...», то есть «улучшить предыдущий результат», что-то изменив или добавив. И сперва как будто может показаться, что сам модуль Dalle обращается к предыдущим изображениям, но, скорее всего, такое на самом деле технически не предусмотрено и нейросеть просто суммирует текстовые промты, чтобы последующие генерации более соответствовали новым запросам пользователя.

Конечно, вы правы, при описании и распознавании изображений задействуется только ChatGPT, а в архитектуре Dalle не имеется способов задать входное изображение. Исправил все связанные с этим моменты, спасибо.

Конечно, давайте укажем ссылку: https://music.yandex.ru/artist/22993003.

«Русская рыбалка» — отличная «кормстори», как там выразились. На мой взгляд, всё это прекрасные и легкие песни для радио и стриминга (и Дня рыбалки), которые можно слушать весь день. И ещё «Паника» под конец очень удивила.

Первый альбом — какой-то бешеный хип-хоп, супер. Как будто возвращаемся в 2000-е. Много притягательного в этом звучании лоу-фай, которое было в ранних моделях Suno.

Кстати, видел в «Яндекс музыке» миксы, где присутствует ИИ-речь, но подобных альбомов именно там не замечал. Кажется, скоро у меня появится новое хобби.

Information

Rating
108-th
Location
Россия
Works in
Registered
Activity

Specialization

Content Writer, Copywriter
Middle
JavaScript
HTML
CSS
JQuery