All streams
Search
Write a publication
Pull to refresh
21
94.4
Датаист @andre_dataist

ИИ-исследователь

Send message

Замечаю интересный момент: сначала у вас были «сказки» и «сказочники», а теперь вдруг «интересный и ценный результат». Это, на мой взгляд, хороший прогресс.

Я никогда не писал, что «LLM = мозг». Формулировка «мост» — это образное описание того, что метрики из языковых моделей дают полезный инструмент для проверки гипотез о работе мозга. Это не поэтизация, а нормальная научная практика — объяснять, зачем результат важен в более широком контексте.

Ваше опасение про «введение в заблуждение» понятно, но, согласитесь, преувеличенные обвинения в «сказочничестве» куда больше создают шум и мифы, чем мой обзор.

Тогда выходит, что мы спорим не о результатах — тут все согласны, что они ценны, — а о стиле подачи. Я считаю, что популяризаторский текст имеет право на метафоры вроде «моста», если при этом фактология остаётся точной. Вы же за максимально сухое изложение. Это уже вопрос вкуса, а не науки.

На этом дискуссию объявляю закрытой.

Вы, похоже, мой самый преданный фанат: почти все обзоры на последние научные статьи об ИИ стабильно получают от вас одни и те же минусы и одинаковые комментарии про «сказки». Даже завидую вашей настойчивости.

Но знаете, раз за разом повторять «корреляция не равна причинности» — это не научная критика, а тост на вечеринке невежд. Никто в статье и не утверждает, что мозг = LLM. Показано другое: метрика предсказуемости по BERT количественно совпадает с нейрофизиологическими данными. Это факт, который можно воспроизвести и проверить.

Вы пишете:

«N400 — это не просто реакция на неожиданное слово, а индикатор когнитивного напряжения, связанного с моделью мира, опытом, эмоциями, телом и социальными целями. У LLM же нет ни понимания, ни истории, ни последствий. Она просто генерирует и всё забывает.»

Спасибо за поэзию, но это никак не опровергает данных. Учёные не утверждают, что BERT «понимает» или «хочет». Они показывают, что предсказуемость слов по модели хорошо коррелирует с амплитудой N400 и предстимульной активностью в мозге. Это не «сведение живого процесса к тени», а аккуратный способ измерить семантическую ожидаемость.

Вы отмечаете:

«Главная разница — в желании. Человек слушает, потому что хочет понять, помочь, быть услышанным. У LLM нет ни цели, ни интереса, ни радости.»

И снова мимо: никто не писал обратного. Наука не занимается антропоморфизацией BERT. Здесь речь о том, что статистические ожидания модели можно использовать как инструмент для анализа нейросигналов. И именно это подтверждается экспериментом.

Вы завершаете:

«Поэтому говорить, что мозг и LLM работают по одному принципу, значит сводить когнитивный процесс к технической тени.»

Но проблема в том, что это спор с придуманным оппонентом. Авторы статьи так не говорили. Вы воюете не с исследованием, а с воображаемой вами карикатурой.

В итоге получается: вы не оппонент, а просто постоянный зритель, которому без моих обзоров скучно. Спасибо, что читаете — хотя, судя по содержанию ваших выпадов, понимаете вы их слабо.

Может, хватит спорить с обзорами на научные статьи на Хабре? Просто возьмите и напишите своё опровержение в виде исследования. А то выходит как в басне Крылова про свинью под дубом...

В чем ваш аргумент и можете ли выпустить опровергающую научную статью, чтобы поспорить с авторами?

А у вас?

Статья "The Predictive Brain: Neural Correlates of Word Expectancy Align with Large Language Model Prediction Probabilities":

Человеческий мозг предсказывает следующее слово в речи, и это похоже на то, как работают большие языковые модели.

  • Участникам давали слушать аудиокнигу, параллельно записывали EEG и MEG.

  • Предсказуемость слов оценивалась с помощью BERT.

  • Результаты:

    • Чем предсказуемее слово, тем меньше усилий мозг тратит на его обработку.

    • Перед появлением ожидаемого слова в мозге уже была предварительная активация в зонах речи.

    • Для неожиданных слов подключались более широкие области, включая сенсомоторные.

Вывод: мозг использует predictive coding — заранее прогнозирует слова и снижает когнитивную нагрузку, если прогноз совпадает с реальностью. Это связывает нейрофизиологию человека и работу LLM, которые тоже делают предсказание следующего слова.

Цитата из оригинальной работы:

LLM Group (Group 1): Participants in this group were restricted to using OpenAI's GPT-4o as their sole resource of information for the essay writing task. No other browsers or other apps were allowed

Перевод:

LLM-группа (Группа 1): участникам этой группы разрешалось использовать в качестве единственного источника информации для написания эссе только GPT-4o от OpenAI. Использование любых других браузеров или приложений было запрещено.


В статье Times читайте дисклеймер в конце статьи и будьте внимательней с факт-чекингом.

да, инфраструктурный вопрос стоит на повестке дня, именно в инфраструктуру некоторые страны вливают большие деньги, даже строят отдельные АЭС под обучение моделей. Тут выхода два: либо переходить на децентрализованное (федеративное) обучение с помощью которого можно использовать даже небольшие девайсы типа мобильных телефонов или ноутбуков, чтобы обучать большую модель (пример модель Intellect-1), либо переходить на кардинально иной тип вычислений, например, квантовый. Квантовое машинное обучение довольно интересное направление, но тут мы все еще ждем квантового прорыва.

В данном случае 70% — это не доля полностью успешных экспериментов, а доля случаев, где ошибки были небольшими (всего 3 ошибки). Даже если почти все эксперименты (например, 200 из 203) показали наличие ошибок, распределение показывает, что:

• В 70% случаев ошибки были всего по 3 (то есть, "мелкие" провалы).
• В 1% случаев ошибки доходили до 200 (редкие, но «катастрофические» провалы).

Редкие провалы считаются серьезными, потому что даже единичные случаи с огромным числом ошибок могут сильно влиять на общее качество и надежность модели.

Хорошее замечание. думал как правильно перевести термин: зонды или пробы. В итоге обновил статью, оставив только «небольшие нейросети, обученные анализировать скрытые состояния модели» 

Что такое сознание (и тем более самосознание)? Только ответив на этот вопрос, можно о чем-то рассуждать. Сегодня по этому вопросу нет научного консенсуса.

Я думаю бесполезно что-то доказывать, а на Хабре это ещё и портит карму. Заметил, что люди минусуют статьи, где написано "ИИ". Что ж, для кого-то это просто предсказание следующего токена, для кого-то это система, решающая прикладные задачи, используя модель мира (в том числе с одной языковой модальностью, см. Логико-философский трактат Витгенштейна). В любом случае есть те, кто понимает прикладную полезность, внедряет ИИ в процессы своей компании, экономя кучу денег, кто-то создаёт ИИ-продукты и зарабатывает на этом. А у кого-то никакого ИИ не существует - таких тоже много, это нормально. Только не вижу смысла кого-то переубеждать - неблагодарное дело, лучше сохранить это время для полезных дел :)

Unlearning-методы применяются в том числе для alignment'а моделей. Например, в обучающую выборку могла попасть информация, нарушающая законодательство некоторых стран (допустим, информация как разработать бомбу) - модель должна это забыть без полного переобучения. Ну и ответы на разные политические вопросы - тут углубляться не буду, думаю и так понятно. Так что вообще это очень прикладная задача.

А что не так с заголовком? Видел на хабре обзорную статью про "разобучение" - так по-русски и будет unlearning.

Векторы остаются необходимы. Даже если явная смысловая арифметика уступила место работе нейросетей, сама архитектура нейросетей всегда требует перевода дискретных токенов в непрерывное пространство.

Это пространство позволяет нейросети эффективно обучаться с помощью дифференцируемых операций. В трансформерных архитектурах именно векторное представление позволяет вычислять внимания между токенами.

Минус в карму и к посту из-за "личной неприязни к автору" - это, конечно, "очень объективно".

Хорошая аналогия, если сильно упростить, то примерно так. Использование векторных представлений похоже на выбор удобной системы координат для орбит, но еще и обеспечивают непрерывное пространство. Тут работает не дискретная математика, а "аналоговая".

Векторы нужны, чтобы переводить дискретные токены в непрерывное пространство, где можно вычислять сходство и проводить "смысловую арифметику". Это облегчает обучение нейросети и помогает выявлять тонкие семантические связи, которые сложно реализовать напрямую с токенами.

Information

Rating
72-nd
Registered
Activity