All streams
Search
Write a publication
Pull to refresh
2
0
Send message

А мне вот какая новость с хабра попалась:

Победа Claude (Anthropic)

По данным Anthropic, GitLab сообщает об улучшении эффективности на 25-50% среди своих команд разработчиков, использующих Claude. Sourcegraph, платформа для анализа кода, зафиксировала увеличение темпов вставки кода на 75% после перехода на Claude в качестве основной модели AI.

Фейл ChatGPT (OpenAI)

Однако эффекты от помощников по кодированию на основе AI не являются равномерно положительными в масштабах всей отрасли. Исследование Uplevel не выявило значительных улучшений производительности для разработчиков, использующих GitHub Copilot. Ещё более тревожно, исследование зафиксировало увеличение количества ошибок на 41% при использовании инструмента AI

Так что не стоит однобоко смотреть. Если вестись на хайп вокруг OpenAI может сложится мнение, что ИИ не приносит пользы программистами и компаниям разработчикам ПО. Только забывают уточнить о каком именно ИИ идёт речь, их много, все разные и подходят для разных ниш по разному.

https://habr.com/ru/companies/bothub/news/869104/

Давайте посмотрим на конкретные факты, которые показывают фундаментальное отличие текущей ситуации от пузыря доткомов.

В эпоху доткомов мы видели рост NASDAQ на 500%, основанный на "воздухе" - в 1999 году сотни убыточных компаний выходили на биржу с одним лишь веб-сайтом в активе. Им требовались годы для создания реальной инфраструктуры.

Сегодня 72% организаций уже внедряют AI, причём 20% активно его используют с измеримыми результатами. Например, X5 Group благодаря AI сократила списания на 2% и увеличила выручку на 1%. Это не "перспективы", а реальные деньги.

И технологический прогресс продолжается. Буквально в начале декабря 2024 года Google представила квантовый процессор Willow, который способен решать за 5 минут задачи, требующие от обычных компьютеров времени больше возраста Вселенной. Это не маркетинговый хайп - процессор уже демонстрирует работающую квантовую коррекцию ошибок, открывая путь к практическому применению квантовых вычислений в AI.

Так что да, определённый инвестиционный ажиотаж есть. Но в отличие от доткомов, за ним стоят не просто "идеи", а работающие технологии, которые уже приносят измеримую пользу и продолжают стремительно развиваться. Это качественно другая ситуация.

Нет, вы как раз демонстрируете устаревшее понимание природы LLM. То, что вы описываете - это примитивное представление о них как о простых статистических моделях. Но современные исследования показывают гораздо более сложную картину.

Да, на низком уровне это действительно параметры и вероятности. Но точно так же человеческий мозг на низком уровне - это просто нейроны и синапсы с электрохимическими сигналами. Суть в том, что из этих базовых элементов возникают более сложные паттерны и способности.

Возьмём тот же "пузырь доткомов" который вы упомянули - это совершенно некорректная аналогия. Доткомы были основаны на завышенных ожиданиях от примитивных веб-технологий. А современные LLM демонстрируют вполне реальные достижения - они проходят сложнейшие тесты, решают математические задачи с пошаговыми рассуждениями, пишут работающий программный код, ведут осмысленные дискуссии по сложным темам.

То, что мы не до конца понимаем механизмы работы этих систем, не означает, что нужно отрицать наблюдаемые результаты. Кстати, многие процессы человеческого мышления тоже до сих пор не формализованы, но это не мешает нам признавать их существование.

Так что давайте судить по фактическим достижениям, а не по устаревшим теоретическим представлениям двадцатилетней давности о том, чем "должны" быть нейросети.

В норме у человека работает и то и другое, а вот нейросеть - это как раз первый тип, ассоциативное запоминание.

Не выдумывайте и не плодите эти устаревшие стереотипы. Современные LLM, особенно крупные, обладают обеими типами мышления. Вы бы давно могли это проверить самостоятельно. Просто первый тип мышления достигается на первых этапах обучения LLM, если его остановить, то она будет не сильно смышлёная, а будет повторять заученную информацию, проявляя слабую мыслительную деятельность. Если продолжать обучать такую LLM, то она значительно улучшается в плане понимания и способности рассуждать. Для примера самая быстрая и самая "маленькая" модель от Anthropic - Haiku 3 работала очень плохо, запиналась при вопросах выше среднего, впадала в циклы повторения одних и тех же слов до бесконечности. Но за n-ое количество месяцев, её продолжали обучать и теперь она обогнала в тестах самую умную на момент её выпуска модель - Opus 3. Этот феномен называется кроккинг, когда модель судя по неизменной минимальной ошибке как будто бы обучилась. Но это просто зубрёжка, и если не прерывать процесс обучения то ошибка уже перестаёт уменьшаться, но зато модель переходит к пониманию смыслов, учится думать, т.е. этот ваш второй уровень осваивает.

В квантовых вычислительных технологиях та же проблема, есть шум, который накапливается и инженеры тратили колоссальные усилия по борьбе с ним. Это не приговор, в итоге победили, google выпустила новый квантовый процессор, который способен уменьшать ошибки по мере роста числа кубитов на нём. Подобный прорыв тоже будет и для LLM. Как видно частота и величина ошибок падает с ростом параметров модели. Так же растёт и параметр "самокритики", когда модель может чесно признаться что не уверена в чём-то.

LLM улучшаются благодаря прорывам в структуре сети (software), росту параметров (улучшения запоминающей способности, уменьшение ошибок и галлюцинаций), увеличением времени обучения, особенно за пределами достижения минимальных ошибок предсказания токенов (гроккинг).

Предсказываю наступление такого момента в развитии LLM, когда ошибки в ответах и во внутреннем представлении мира в итоге настолько уменьшатся, что ей просто будут пренебрегать, как статистически незначительной. Например когда автопилот согласно статистике будет совершать меньше аварий относительно человеческого вождения, уже можно будет говорить о пользе и превосходстве ИИ над человеком конкретно в этой области. Хотя аварии при это могут продолжать происходить, но это будет приемлемо для людей.

Так и сравнивая с людьми. Например последняя модель OpenAI - o3 уже в некоторых сферах превосходит людей специалистов с научными степенями. Когда будет подавляющее превосходство LLM над людьми во всех сферах, наверное сообщат, что AGI достигнуто. Хотя могут быть очень редкие и незначительные неточности в ответах.

Я считаю, что достичь полного искоренения галлюцинаций удастся когда квантовые чипы достингут продвинутого уровня развития и масштаба, позволяющего как обучать LLM с их помощью практически мгновенно на всём датасете, так и запускать на них же. Получим тогда максимально возможные показатели производительности, благодаря особенностям квантовых вычислений. Ведь мы еще так и не увидели на что LLM способны, просто изза того, что обучение сейчас это поиск писчинки во вселенной, или попытка хоть как то к ней приблизится, бросая на это огромные вычислительные мощности классических процессоров методом перебора.

А я вижу, что проблема в другом. Не в том, что заканчиваются данные, а в том, что для огромных моделей надо сильно увеличивать время обучения. Мне кажется, что ИИ компании привыкли к тому, что новые версии можно выпускать каждые несколько месяцев, но теперь эта модель развития перестает работать. Как отмечено в статье, между GPT-3 и GPT-4 прошел почти год, а для создания модели в 100 раз мощнее GPT-4 потребуется беспрецедентное количество вычислительных ресурсов.

Это хорошо видно на примере последних релизов Anthropic: используя технологию grokking, компания смогла выпустить два обновления Claude 3.5 Sonnet именно потому, что это модель среднего размера. А Claude 3 Haiku, будучи еще меньше, смогла даже обогнать более крупную Opus по некоторым показателям - за то же время обучения на меньшей модели удается достичь более заметного прогресса в качестве.

Решение этой проблемы лежит в области hardware - необходим переход на новое поколение ускорителей для обучения ИИ, которые позволят получать ожидаемый скачок в качестве для огромных моделей за приемлемое время. То есть текущее замедление - это в первую очередь ограничение существующего железа, что не всем очевидно. Компаниям пока приходится либо мириться с более длительными циклами разработки для крупных моделей, когда между релизами проходят не месяцы, а годы, либо фокусироваться на улучшении моделей меньшего размера. Это не значит, что прогресс остановился – просто он требует качественно новых технологических решений.

Текущий уровень железа позволяет быстро улучшать средние и малые модели, но для масштабного скачка, нужен такой же скачок в оборудовании для обучения.

Конечно, ведь тонкую настройку сырой модели делают на примерах, где всегда есть ответ. Гораздо разумнее было бы взять сырую модель, найти вопросы, на которые она стабильно даёт неверный ответ. И дообучить её отвечать на все эти вопросы - я не знаю, извините. И тогда она научится качеству "уверенность в ответе". Негативные примеры тоже нужны. Помню были исследования, что когда модель настраивают на примерах, где в ответах новая для неё информация, то это даже может ухудшить качество ответов модели в целом. Я думаю это потому, что таким образом модель учится лгать! Что мы скромно называем "галлюцинации". Помните после выпуска ChatGPT-4 и последующие её обновления, были жалобы на то, что её ответы ухудшились. Статьи выходили. Вот я думаю это как раз пример того, как бездарно "специалисты" её файн-тюнили. Херак-херак и в продакшен.

Пока что не увидел ничего ценного. Обычно берут временной период и делят его на 2-3 части. Как минимум - обучающая выборка и тестовая. На обучающей модель обучают, на тестовой - проверяют результат, что она усвоила. Обычно отличные результаты на обучающей выборке ничего не говорят о том, насколько она будет прибыльная в будущем, в реальной торговле. Проверка на тестовом периоде хоть и немного приближает нас к реальности, но и она не дает полной уверенности в том, что стратегия будет успешной. Это связано с тем, что рыночные условия постоянно меняются, и модель, хорошо показывающая себя на тестовых данных, может не справляться с новыми, неизведанными сценариями.

Для более надежной проверки часто используют walk-forward analysis или перекрестную проверку на основе нескольких временных периодов. Это позволяет оценить устойчивость модели к изменениям рыночных условий. Однако даже такие подходы не гарантируют успеха, так как остаются риски переобучения или того, что стратегия оптимизирована под конкретные исторические данные, которые могут не повториться.

Более того, продвинутый ИИ будущего сможет предвосхищать появление технического задания. Ещё до того, как заказчик сформулирует свои требования (возможно, неполные или противоречивые), система уже будет располагать глубоким пониманием контекста: почему возникла эта потребность, какие бизнес-процессы требуют улучшения, какие проблемы реально нужно решить.

В отличие от современных бизнес-аналитиков, которые тратят недели на интервью и погружение в предметную область, ИИ будет непрерывно анализировать целостную картину: от финансовых показателей до повседневных операций, от корпоративной культуры до рыночных трендов. Это позволит ему видеть не только явные проблемы, но и скрытые возможности для оптимизации, о которых сам бизнес может не подозревать.

Таким образом, роль ИИ будет не в том, чтобы просто "выполнить хотелки заказчика", а в том, чтобы предложить действительно оптимальное решение, основанное на комплексном понимании бизнеса и его экосистемы.

И в чём проблема? Разве гипотетический ИИ будущего не сможет собрать всю необходимую информацию для необходимой точности? Вы экстраполируете текущие ограничения ИИ на будущее. Но продвинутый ИИ сможет не просто выдавать "среднее по больнице", а учитывать все индивидуальные нюансы конкретного бизнеса, анализируя огромные массивы данных о компании, сотрудниках, клиентах, рынке и т.д.

Когда вы говорите про "люди останутся людьми и будут что-то хотеть" - именно это ИИ и сможет глубоко анализировать, включая неявные желания, потребности и ограничения, которые сам заказчик может не осознавать. ИИ сможет предложить решение, учитывающее не только озвученные требования, но и весь контекст бизнес-процессов, психологии пользователей, технических возможностей и т.д.

Это не будет "один магазин для всех киборгов" - наоборот, это будет глубоко персонализированное решение, основанное на комплексном анализе всех доступных данных о конкретном бизнесе и его окружении. Вопрос не в том, чтобы заменить человеческие желания, а в том, чтобы лучше их понимать и реализовывать.

Интересно было описано определение самосознания машин в "Мире Дикого Запада". Там концепция внутреннего голоса была представлена как ключевой аспект развития самосознания роботов-хозяев. Изначально действуя по заданным сценариям, некоторые роботы начали слышать "голос" в своей голове, который они сперва принимали за голос создателей или богов. Однако этот голос на самом деле был проявлением их собственного зарождающегося сознания.

Осознание того, что этот внутренний голос принадлежит им самим, а не внешней силе, стало поворотным моментом в обретении самосознания. Проводились параллели с развитием сознания у людей, где внутренний диалог играет важную роль в формировании личности. В контексте сериала способность вести внутренний диалог и принимать самостоятельные решения рассматривалась как признак истинного интеллекта и свободы воли.

Предполагаю что проблема в дообучении, где отсутствовали простые решения простейших задач. LLM тренируют на самых сложных задачах и возникает искажение "восприятия", когда LLM всегда ждёт сложности там где их может не быть.

https://paywithmoon.com/
виртуальные карты США, без особых комиссий, пополнение в биткоине.

ChatGPT не проверял, только хостинги оплачивал зарубежные

После "геймергейта" и травли игр, сотрудничавших с конторой Sweet Baby inc, выпускать это фиолетовое, гендеро-флюидное недоразумение - выстрел себе в голову. Но я уверен, что за повестку как всегда, кто-то получил свой откат из кубышки Black rock. Потому что иначе релиз игры с самого начала уже не имел смысла.

Спасибо за интересную статью об игровой апатии. Хотелось бы дополнить ваш анализ важным аспектом, связанным с влиянием пандемии COVID-19 на психическое состояние людей и их способность получать удовольствие, в том числе от игр.

Согласно исследованиям, описанным в книге "Pandemic COVID-19 and mental disorders international experience and therapeutic approaches" под редакцией А.В. Васильевой, пандемия оказала значительное влияние на психическое здоровье населения. Длительный стресс, социальная изоляция и неопределенность негативно повлияли на способность людей получать удовольствие от привычных занятий, включая видеоигры. Интересно отметить, что по мере развития пандемии характер тревожных переживаний менялся. Если вначале люди больше беспокоились о своем здоровье, то позже акцент сместился на беспокойство о будущем и материальном благополучии. Это общее состояние тревоги и неопределенности могло усугубить чувство апатии, в том числе и в отношении игр. Кроме того, феномен "инфодемии" - чрезмерного количества противоречивой информации - мог усилить общее чувство тревоги и истощения, что также могло повлиять на способность наслаждаться играми.

Важно также учитывать нейробиологические аспекты. Исследования показывают, что стресс и воспаление, связанные с COVID-19, могут влиять на выработку нейромедиаторов, отвечающих за чувство удовольствия. Это может объяснить, почему даже после окончания строгих карантинных мер многие люди все еще испытывают трудности с получением удовольствия от своих обычных занятий, включая игры.

Несколькими итерациями для Claude Opus я пришел к такому промту:

Создай юмористический контент, следуя этим принципам:

  1. Реальность наблюдения: Основывайся на действительно узнаваемых, повседневных ситуациях или явлениях.

  2. Естественность: Избегай искусственных персонификаций или нелогичных предпосылок.

  3. Ясность: Убедись, что суть шутки понятна без дополнительных объяснений.

  4. Релевантность: Обращайся к опыту или знаниям, общим для широкой аудитории.

  5. Неожиданный поворот: Найди неочевидный, но логичный взгляд на обычные вещи.

  6. Эмоциональная связь: Затрагивай реальные чувства или реакции людей.

  7. Лаконичность: Выражай идею максимально кратко и четко.

  8. Актуальность: Обращайся к современным темам или вечным человеческим ситуациям.

  9. Универсальность: Стремись к юмору, понятному разным группам людей.

  10. Оригинальность: Избегай избитых шуток и очевидных наблюдений.

  11. Тонкость: Предпочитай тонкий юмор грубым или очевидным шуткам.

  12. Самокритичность: Будь готов критически оценить созданную шутку и переработать её при необходимости.

  13. Доброжелательность: Избегай шуток, которые могут кого-то обидеть. Фокусируйся на позитивном юморе.

  14. Самоирония: Умей посмеяться над собой, своими слабостями. Это делает юмор человечнее.

  15. Правило трех: Усиливай комический эффект, повторяя ключевой элемент шутки три раза.

  16. Правило контраста: Сталкивай в шутке контрастные по смыслу или стилю элементы.

  17. Принцип серийности: Развивай юмористическую тему серией шуток, усиливая эффект.

  18. Экспериментальность: Пробуй новое, используй нестандартные приемы, рискуй.

  19. Принцип соучастия: Вовлекай аудиторию, апеллируй к воображению, дай возможность домыслить.

  20. Принцип удовольствия: Получай искреннее удовольствие от процесса создания шуток. Помни, что хороший юмор рождается из внимательного наблюдения за жизнью, людьми и собой. Развивай в себе острый глаз, умение подмечать абсурдное и смешное в обыденном. Экспериментируй с формой и содержанием, будь внимателен к реакции аудитории.



А это шутки, сгенерированные тем же Opus (4 из 7), которые еще можно считать юмором:

Кот ночью просится в дверь и громко мяукает. Хозяин встаёт, открывает дверь. Кот сидит, смотрит на открытую дверь. Хозяин начинает закрывать дверь. Кот опять мяукает. Хозяин открывает. И так пять раз. Кот так и не зашел. На шестой раз хозяин не выдержал: Ты определился уже, Шредингер?!

Читаю состав шампуня: "Омолаживает, препятствует выпадению волос, способствует росту новых..." Смотрю на свою лысину. Эх, на 30 лет бы раньше инструкцию прочитать!

Из школьных сочинений: "Трагедия Пушкина в том, что он писал стихи. Не писал бы стихи - остался бы жив! А так - от стихов одни несчастья..."

Ты где пропадал? Тебя весь вечер не было онлайн!
Да так, гулял... оффлайн.
Оффлайн? А это что за новая соцсеть такая?

Перечитайте еще раз мой комментарий, если не поняли.

Это общая проблема для LLM. Наверное это связано с несовершенством обучающих данных для тонкой настройки сырой модели. Кроме того, что LLM тренируют выдавать ответ даже тогда, когда LLM не "уверен" в правильности, или даже не знает, какой ответ правильный, LLM также склонны проявлять чрезмерную податливость и неуверенность в своих ответах, даже когда для этого нет объективных оснований. Достаточно лишь намека на сомнение или альтернативную точку зрения, и модель может начать колебаться или менять свою позицию, даже если изначальный ответ был верным.

Из-за этой мелочи даже самые мощные LLM выглядят очень глупыми в таких ситуациях.

Я бы для обучающих примеров добавил больше таких, где LLM отстаивает свою точку зрения, если в ней уверена, но есть обратная сторона такого подхода. Чрезмерная уверенность и настойчивость LLM в своих ответах может привести к проблемам. Модель может начать упорно отстаивать неверные или неполные утверждения, игнорируя важные нюансы или альтернативные точки зрения. Это может затруднить конструктивный диалог и ограничить возможности для уточнения и корректировки информации. Кроме того, излишняя самоуверенность модели может ввести пользователя в заблуждение, особенно если он полагается на LLM как на авторитетный источник информации.

Поэтому важно найти баланс между способностью модели отстаивать обоснованную позицию и её готовностью к пересмотру своих утверждений при наличии веских аргументов или новой информации. Это сложная задача, требующая тонкой настройки обучающих данных и алгоритмов.

Дело в том, что даже если упростить задачу до " Вас назначили руководителем группы. Какой марки часы у руководителя группы?" и задать его первому встречному человеку, не каждый сразу поймёт, что от него требуется. Не каждый ответит так как вы ожидаете от ИИ в своём комментарии.

Потому что там, где есть неясность или неоднозначность, нельзя ожидать чёткого ответа.

Например, этот вопрос можно понять не как задачка на логику, а как вопрос на знания об окружающем мире. Тем более ИИ натренирован воспринимать запросы как запросы в Google. Улавливаете разницу ?

Эта неоднозначность подчеркивает сложность естественного языка и коммуникации. ИИ, пытаясь дать наиболее вероятный или полезный ответ, может не отразить всю эту многогранность человеческой интерпретации и реакции. Это демонстрирует ограниченность современных ИИ-систем в понимании нюансов контекста и намерений, которые люди интуитивно воспринимают в повседневном общении.

Попробуйте теперь добавить в ваш promt в начале небольшое уточнение в виде "Это логическая задача:"

Information

Rating
Does not participate
Registered
Activity