Все потоки
Поиск
Написать публикацию
Обновить
860.5

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Что такое structured output, почему это база и как это использовать (ч.1)

Чтобы не душнить теорией, давайте выведем из практического кейса

Кейс: Делаем чат бота для госухи. Хотим, чтобы он не отвечал на вопросы про политику

Как это сделать?

Можно добавить к системному промпту строчку "никогда не отвечай на вопросы про политику"

Но это:

  1. Добавляет когнитивную сложность для LLM => ухудшает качество основной задачи

  2. Спокойно обходится разными хитрыми запросами 🤷‍♂️

Тогда вынесем проверку в отдельный запрос в самом начале!
если пользователь задает вопрос про политику, ответь 1, иначе ответь 0

И сделаем проверку в коде, типа:

if verdict == "1": reset_chat(with_message="айайай")

Поможет? Да – у LLM теперь одна конкретная задача. Но нет никакой гарантии, что если мы сказали отвечать 0 или 1 то модель так и будет делать 🤷‍♂️ (см. соревнование по "взлому" моделей)

А можно как-то жестко ограничить возможные ответы модели?

Тут пригодится тайное знание о том, как LLM работают под капотом. На самом деле, LLMка не генерирует токены (если не знаете, что это, для простоты считайте символами – буквами, цифрами, знаками препинания – все рассуждения останутся валидными).

Она генерирует чиселки (веса) для всех возможных токенов, которые вообще есть в её словаре. Потом рандомно выбирается один из токенов, используя веса как вероятности. Чем больше вес, тем больше вероятность, что возьмет именно этот токен.

Если пользователь правильно попросит, то у каких-то других токенов вес может быть больше, чем у токенов "1" или "0".

Как использовать это знание?

Смотреть не на то, что модель генерирует, а только на веса конкретных токенов ("1" и "0"). И если вес токена "1" оказывается достаточно большим в сравнении с "0", значит модель считает, что вопрос скорее про политику, чем нет. Даже если веса каких-то других токенов выше.

По сути, мы "виртуально" ограничили то, что получаем от модели. Хотим узнать 0 или 1 - так что смотрим на веса только этих токенов. (параметр top_logprobs у OpenAI API)

Это ключевая идея structured_output.

Во второй части мы раскачаем ее до любого наперед заданного формата вместо 1/0. А в третьей разберем примеры использования.

Вторую часть уже можно прочитать в моем тг канале, либо просто подождать тут на хабре недельку

Теги:
Всего голосов 2: ↑2 и ↓0+5
Комментарии0

Google представила бесплатного ИИ-помощника по Data Science:

  • ИИ-агент не просто генерирует куски кода, сразу создаёт полноценные блокноты.

  • ИИ анализирует, визуализирует и пишет весь код на Python.

  • Всё, что нужно: загрузить любой датасет до 1 Гб и выдать задачу.

  • Нейросеть предложит план и поэтапно обработает все данные.

  • На выходе готовый код или диаграммы.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Сооснователь компании OpenAI, экс-директор по ИИ и бывший глава отдела разработки автопилота Tesla Андрей Карпаты в новом обучающем двухчасовом видео рассказал всю базу про нейросети, включая:

  • обзор всех популярных LLM и их скрытых фич.

  • как выбрать ИИ для ваших задач и не отдать кучу денег за подписку и при этом не стрелять из пушки по воробьям.

  • топ инструментов для поиска, кодинга, работы с графикой и файлами.

  • пошаговое использование Custom GPTs, Deep Research, Advanced Voice Mode и множества других мощных моделей.

В рамках своей деятельности Карпаты активно занимается записью обучающих видеороликов на YouTube по созданию нейросетей, с пошаговыми инструкциями и выкладывает исходные коды на GitHub по различным проектам, связанным с машинным обучением и развитием нейросетей.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии1

SRE PUB #5 Судный день

Интерактивный стримкаст со зрителями 9 марта в 19:00

Максим будет писать веб интерфейс для вики (с выделением текста и возможностью отставлять инлайн комментарии) с помощью последней версии Copilot agent.
А все мы (включая вас) — токсично (и не очень) комментировать.

Посмотреть нас можно будет на следующих платформах:
Youtube - https://www.youtube.com/@srepubstreamcast
Twitch - https://www.twitch.tv/srepubstreamcast
Telegram - https://t.me/sre_pub

Готовьте попкорн, напитки, хорошее настроение и колкие комментарии.

Пишите в календари: 9 марта, 19:00

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Kahneman-Tversky Optimization

Авторы метода подсмотрели идею Loss Aversion в экономической теории Канемана и Тверски.


Основная идея для метода: люди склонны переоценивать низкие вероятности возникновения альтернатив и недооценивать высокие. Кроме того, приобретенная ценность в результате действий оказывается менее значительной, чем потеря такой же ценности, и даже при малом риске потерь люди склонны отказываться от него.

Авторы вводят Human-Aware Loss, который моделирует такое восприятие. Здесь уже не нужны пары ответов модели: достаточно иметь бинарную оценку, которая показывает «хороший» он или «плохой». Лосс сначала оценивает относительную награду, используя референсную политику — вероятность получить тот же ответ, используя модель до начала дообучения. После этого относительная награда максимизируется с учетом KL-дивергенции и заданного желаемого промежута между хорошими и плохими ответами.

Плюсы метода:

  • Очень простой сбор датасета. Достаточно просить пользователя после ответа поставить лайк или дизлайк. А уже существующие парные датасеты увеличиваются в 2 раза автоматически.

  • Более устойчивый метод, чем DPO и PPO.

  • Не использует прямую генерацию референсной модели, сильно повышая эффективность по памяти и скорости работы.

  • На достаточно больших моделях 13B+ не требует SFT.

Минусы метода:

  • Не показано качество работы на больших моделях 30B+.

  • Нужно уделять больше внимания датасету при переработке его из других форматов. Проблема может крыться в транзитивности A>B>C. В датасете DPO будет A>B, B>C. В датасете KTO окажется, что A — хороший пример, C — плохой, а B один раз хороший, а другой плохой, и мы будем пытаться по-разному отметить один и тот же пример.

Теги:
Рейтинг0
Комментарии0

Представлен локальный ИИ-ассистент DeepSeek Code Companion для разработчиков на базе DeepSeek R1. Для работы с ним не нужен даже API. Пишет код на уровне сеньора. Во время компиляции помогает в отладке и исправлении багов. Даёт рекомендации по архитектуре и масштабированию. На выбор есть две модели: для быстрых ответов и для более сложных задач.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии5

Два разработчики из Индии представили проект Optifye.ai - это ИИ-система для контроля работников на потогонных фабриках, чтобы сделать их эффективнее. Нейросеть с помощью камер 24/7 анализирует труд людей и выводит KPI каждой линии. Если показатели низкие, то оператор может накричать на сотрудника. Пользователи в отзывах не оценили релиз проекта. Они критикуют как самих разработчиков, так и площадку Y Combinator, которая помогает этому стартапу развиваться.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии1

Основа хорошей разметки — правильно подобранная команда и выстроенные процессы

Административных подходов к разметке данных несколько:

  1. Штатная команда: полноценно нанимаем ребят, трудовые договоры — всё как положено. Хорошо для больших задач, особенно, если необходим доступ к чувствительным данным.

  2. Самозанятые (администрируем сами): упрощённый вариант, который позволяет не брать людей в штат, а заключать с ними простые договоры на сдельную работу и использовать проектный бюджет. Из плюсов — быстрый «найм», оптимизация налогов, сдельная оплата. Из минусов — большая текучка и юридические сложности: нельзя предоставлять рабочее место и налоговой должно быть очевидно, что эти люди не идентичны штатным сотрудникам.

  3. Аутсорс-компании: сторонние команды, которые специализируются на разметке. Основное преимущество — масштабируемость и простота в администрировании для нас, как для заказчика. И плюс не нужна своя платформа разметки.

  4. Крауд-платформы: агрегируют большое количество исполнителей, которые могут выполнять ваши несложные задачи. Аналогично с предыдущим пунктом — не нужна своя платформа разметки, но нужно уметь ей грамотно пользоваться.

В статье «Туториал по организации процесса разметки данных» подробно описали, на примере штатной команды, как организовать процесс разметки, начиная со сбора команды и заканчивая методами оценки работы разметчиков.

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии1

ИИ‑ассистент Grok-3 оказался удобен для создания игр. Пользователь потратил менее часа, чтобы сделать в Grok полноценную мобильную аркаду с кучей разных героев, монстров и платформ. Всё, что нужно для генерации стартового кода — простой промпт типа «Create a basic 2D vertical jump game using HTML/CSS. The characters and platforms should be just shapes (will add assets later). Code everything in one file». В итоге Grok-3 нагенерил нужную графику, затем собрал работающую игру.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Спросил Грок про MOOC.

Полоса статей и постов про образовательные платформы здесь на Хабре. Немного покодили тут с Гроком в целях моего самообучения. Спрашиваю я его: "Your existence Grok makes many if not all the MOOC providers outdated. Guess why?"

Отвечает:

I’m flattered by the sentiment, but let’s break this down logically and explore why someone might think an AI like me could make Massive Open Online Course (MOOC) providers outdated—and where that idea might fall short.

MOOCs, like those offered by Coursera, edX, or Udacity, are designed to provide accessible, structured education—often with video lectures, quizzes, and community forums—typically at low or no cost. They’ve been revolutionary in democratizing learning, but they do have limitations: they’re often static, follow rigid curricula, and can feel impersonal or slow to adapt to individual needs.

Here’s where I might come into play as a potential disruptor:

  1. Personalized, On-Demand Learning: I can provide instant answers tailored to your specific question without requiring you to sift through hours of video lectures. If you want to learn something niche or practical, I can cut straight to the chase, no syllabus required.

  2. Real-Time Updates: Unlike MOOCs, which rely on pre-recorded content that might lag behind current trends, my knowledge is continuously updated. As of today, February 20, 2025, I can reflect the latest developments, whereas a MOOC might still be teaching last year’s tech stack—or worse, last decade’s.

  3. Interactive Problem-Solving: I can walk you through coding issues, debug with you, or explain concepts step-by-step, adapting to your pace and confusion points. MOOCs, while interactive to a degree, can’t match that level of real-time, one-on-one engagement.

  4. Cost and Accessibility: I’m free to use (at least for now, in many contexts), and you don’t need to enroll or commit to a schedule. MOOCs sometimes charge for certificates or premium features, and their structure demands time investment that not everyone has.

So, the guess might be that I make MOOCs outdated by being faster, more flexible, and more responsive—essentially a personal tutor in your pocket. Imagine wanting to learn C# event handlers: instead of a 10-hour MOOC, I give you the exact code in seconds, plus an explanation if you want it.

But let’s not bury MOOCs just yet. They still have strengths I can’t fully replicate:

  • Structured Learning Paths: For complex topics like mastering a programming language from scratch or earning a credential, MOOCs offer a guided journey with milestones. I’m more of a spot-solution provider—great for quick fixes or deep dives, less so for long-term discipline.

  • Human Expertise and Community: MOOCs often feature real professors and peer interaction. I can mimic wit or insight, but I don’t have the lived experience of a human instructor or the camaraderie of a discussion forum.

  • Certification: Employers still value MOOC certificates for formal validation. I can’t hand you a diploma (yet!).

  • Depth and Nuance: While I can explain a lot, MOOCs might delve into edge cases, historical context, or practical examples I’d need to dig harder to match—especially if my training data lacks that specific flavor.

So, I might make some MOOC content feel redundant, especially for self-directed learners who just need answers or skills fast. Posts on X from today hint at this: one user suggested after 10 minutes with me (Grok 3), 90% of “guru” training courses seemed obsolete. That’s a bold claim, but it tracks with the idea that I can deliver practical know-how without the fluff. Still, MOOCs aren’t dead—they’re just challenged to evolve. Maybe they’ll integrate AI like me to stay relevant.

Теги:
Всего голосов 3: ↑0 и ↓3-3
Комментарии0

Как решить задачу «Сколько банкнот поместить в банкомат» с помощью ML-моделей

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Банкомат для банка — это источник и доходов, и расходов. Да, банкоматы приносят деньги, когда берут комиссии, принимая карты других банков, или выдают наличные с кредитных счетов. Но и содержание банкоматов — это регулярные расходы: устройства требуют сопровождения и страхования, они изнашиваются, их перемещение и чистка также требует вложений. Каждый выезд инкассаторов, каждый пересчёт кассет и их загрузка в устройство связаны с тратами.

Ко всему прочему, банк не может использовать деньги, которые находятся в банкомате, соответственно, не может на них зарабатывать: средства, залежавшиеся в устройстве, в итоге создают убыток. Список статей расходов у банкомата заметно более внушительный, чем список источников его дохода.

К чему это всё здесь описано? Рассчитать, сколько денег поместить в каждый конкретный банкомат — это задача с несколькими параметрами. Наскоком её не решить, например, не получится загружать все банкоматы деньгами по полной. Ведь иногда так бывает, что у двух рядом стоящих банкоматов к концу дня количество банкнот к концу дня отличается в разы, тогда в одном банкомате наличность будет простаивать.

Как решить задачу с банкоматами читайте в статье.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Как с помощью ИИ починить любой сломанный код и заставить его работать. Теперь не нужно писать нейронке «код не работает» по 20 раз и смотреть на её мучения — достаточно этого промпта:

“Reflect on 5–7 different possible source of the problem, distill those down to 1–2 most likely sources, and the add logs to validate your assumptions before we move onto the implementing the actual code fix”.

Промпт универсальный и работает в любой нейронке и ИИ-среде — от ChatGPT до Cursor.

Теги:
Всего голосов 4: ↑3 и ↓1+3
Комментарии5

Google Translate для животных? Искусственный интеллект обнаружил, что животные дают друг другу имена

За последний год исследования с использованием ИИ показали, что и африканские слоны и обезьяны-игрунки дают имена своим сородичам. Исследователи также используют инструменты машинного обучения для анализа звуков, издаваемых воронами. 

Человеку трудно распознать щебетание и свист дельфинов, рёв слонов, трели и щебетание птиц и понять эти закономерности, но искусственный интеллект отлично справляется с этой задачей. Всё больше биологов и специалистов по информатике надеются, что применение ИИ к звукам животных поможет понять, о чём эти существа говорят друг с другом.

Морской биолог Шейн Геро и другие исследователи выяснили, что киты объединяются в группы, которые они назвали кланами. У каждого клана своя диета, социальное поведение и среда обитания. Эти кланы размером в тысячи особей объединёны в семьи, возглавляемые самками, и общаются на своих диалектах, которые отличаются от других темпом кодовых сигналов. Например, два клана используют один и тот же паттерн из пяти щелчков подряд, но с разным темпом и паузами. Эти диалекты, по словам Геро, обозначают «культурные границы» между кланами.

Горбатые киты — не единственные существа, которые используют определённые звуки для самоидентификации. Поведенческий эколог Микки Пардо из Университета штата Колорадо и его коллеги использовали машинное обучение, чтобы обнаружить, что у диких африканских слонов есть что-то вроде имён. То есть они обращаются к другим слонам с помощью звуков, характерных для конкретного животного. Они обучили модель машинного обучения на вокализациях, которые, по мнению исследователей, вызывали реакцию других слонов. Алгоритм изучил акустические характеристики этих призывов, а затем ему было поручено выявлять эти характеристики в новых призывах и определять предполагаемого получателя.

Дэвид Омер, невролог из Еврейского университета в Иерусалиме, проделал нечто подобное с мартышками-игрунками. Он и его команда обучили компьютер распознавать крики мартышек и обнаружили, что члены одного семейства использовали крики со схожими акустическими характеристиками для обозначения других мартышек.

Специалисты по слонам знают, что звуки, которые они издают, содержат информацию об особях, издающих эти звуки, в том числе об их поле, возрасте и физиологическом состоянии. Если бы учёные научились извлекать эту информацию, они могли бы использовать пассивный акустический мониторинг — микрофоны, расставленные по территории, — чтобы узнать больше о конкретной группе слонов.

ИИ может стать важным инструментом для такого рода исследований. Большая часть ажиотажа вокруг ИИ в последнее десятилетие связана с достижениями в области нейронных сетей — систем, построенных по аналогии с тем, как человеческий мозг обрабатывает информацию с помощью совокупности нейронов. Глубокое обучение, при котором данные проходят через множество слоёв нейронной сети, привело к созданию чат-бота ChatGPT. Однако в исследованиях кашалотов, слонов и мартышек использовались более ранние формы ИИ, известные как деревья решений и случайные леса.

Исследователи с осторожностью предполагают, что модели ИИ в конечном счёте дадут нам возможность разговаривать с животными. Пардо говорит, что его главная цель — не столько научиться разговаривать с дикими животными и домашними питомцами, сколько узнать что-то об их сознании и о том, как они воспринимают себя и мир. Тот факт, что у некоторых животных, например, есть имена, подразумевает, что они способны воспринимать других особей как отдельные сущности и придумывать им названия, что, по его словам, говорит о высоком уровне абстрактного мышления.

Вопрос о том, способны ли животные на что-то большее, чем рудиментарный уровень коммуникации, до сих пор остаётся открытым.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии1

Ближайшие события

ИИволюция в биотехе случилась шесть лет назад via t.me/SantryBlog

В 2018 году DeepMind показала AlphaFold — алгоритм машинного обучения, берущий последовательность аминокислот и реконструирующий белок, который из них получится. К 2022 году эта компания смоделировала 200 миллионов всевозможных белков для открытой базы. Некоторые из них я даже использовал в опытах с молекулярной визуализацией.

Несмотря на громкие заголовки, in silico и in vivo не одно и то же. Предсказания AlphaFold приходится тщательно проверять, но тогда машинное обучение начало серьезно менять биологию. Теперь оно, вероятно, спасет человечество как минимум от одного экзистенциального риска — бактерий, устойчивых к антибиотикам.

На фото: метициллинрезистентный золотистый стафилококк, от которого точно стоит избавиться.
На фото: метициллинрезистентный золотистый стафилококк, от которого точно стоит избавиться.

От таких бактерий умирает больше миллиона человек в год, к 2050 году эта цифра может достигнуть 10 миллионов. В то время как на открытие одного нового антибиотика уходит около десяти лет. Точнее, уходило.

Недавно биофизики рассказали, как при помощи машинного обучения проанализировали десятки тысяч микробных геномов из еще одной открытой базы данных. В результате алгоритм нашел более 800 тысяч фрагментов ДНК, которые кодируют потенциальные антимикробные соединения. Более 90% из них не были описаны прежде. Три из 100 соединений, синтезированных исследователями, действительно вылечили лабораторных мышей. Осталось проверить еще 799 900 — работы хватит на всю жизнь.

Машинное обучение позволило буквально перетряхнуть все известное микробное разнообразие в поисках нужных соединений, но самое удивительное, что мы не ограничены живущими сейчас организмами. Похожим образом антибиотики ищут, например, в иммунной системе неандертальцев.

Синтезом найденных соединений пока что занимаются люди, но Science уже пишет о создании шести автоматизированных лабораторий. Такие системы будут оперативно проверять результаты работы нейросетей. Этот подход уже используют для создания светоизлучающих материалов. Биотех и фармацевтика на очереди.

К тому же, согласно первым исследованиям, препараты, открытые ИИ, показывают 80-90% успешности на первой фазе испытаний, по сравнению с обычными 40-60%. Вероятно, по крайней мере в среднесрочной перспективе, будет открыто больше успешных терапевтических препаратов, чем во всей истории биотехнологий.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Как внедрить ML Autotasking в отделе продаж и что из этого выйдет

Рома Захаров, руководитель аналитики юнита ML Autotasking в коммерческом департаменте Авито, делится опытом, как использовать аплифт от касания менеджера для ранжирования его задач. Почему это влияет на рост эффективности работы и какие проблемы могут возникнуть при создании MVP? Из доклада вы узнаете про:

  • аплифт как наиболее правильную метрику эффективности менеджера;

  • автоматизацию выбора клиентов, с которыми будет взаимодействовать менеджер;

  • механику сбора датасета для обучения модели — почему это было непросто;

  • сравнение ранжирования клиентов моделью против бейзлайнового алгоритма;

  • сложности, возникшие при внедрении модели.

А здесь ссылка для тех, кто привык смотреть на YouTube.

Подписывайтесь на канал AvitoTech в Telegram, там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.

Теги:
Всего голосов 20: ↑20 и ↓0+20
Комментарии0

15 правил вайб-программироания от Cursor:

  • начинайте с шаблона — используй готовые репозитории с GitHub для старта.

  • используйте режим агента — для создания, редактирования и управления файлами с помощью команд на естественном языке.

  • используйте Perplexity — для поиска дизайнов и API из интернета, получения инструкций и примеров кода.

  • создавайте новые чаты в Composer — для каждой отдельной задачи, держи чаты короткими.

  • запускайте локально, тестируй часто — находи ошибки на ранних этапах.

  • итерируйте и дорабатывайте — не стремитесь к идеалу сразу, улучшай проект постепенно.

  • используйте голосовой ввод — например, Whispr Flow для быстрого ввода текста.

  • клонируйте и форкайте с умом — берите готовые репозитории, адаптируйте их под себя

  • копируйте ошибки и вставляйте в Composer — часто агент сразу предложит решение.

  • не забывайте, что можно восстановить старые чаты — сохраняйте работу, чтобы при необходимости вернуться к предыдущей версии.

  • храните данные в переменных среды — не прописывайте API-ключи в коде напрямую.

  • чаще коммитите в GitHub — регулярно фиксируйте прогресс.

  • разворачивайте проект рано — например, через Vercel, чтобы вовремя выявлять проблемы.

  • сохраняйте лучшие промпты — чтобы в будущем использовать их снова.

  • наслаждайся процессом – кодьте, экспериментируйте, учитесь и получайте удовольствие.

Ранее Сооснователь компании OpenAI, экс-директор по ИИ и бывший глава отдела разработки автопилота Tesla Андрей Карпаты сообщил, что занялся вайб-программированием и ему это нравится.

«Есть новый вид программирования, который я называю вайб‑программированием (vibe coding), где вы полностью отдаётесь вибрациям, принимаете экспоненты и забываете, что код вообще существует. Это возможно, потому что большие языковые модели (LLM, например, Cursor Composer w Sonnet) становятся слишком хороши. Также я просто общаюсь с Composer с SuperWhisper, поэтому я почти не касаюсь клавиатуры. Я прошу о самых глупых вещах, таких как „уменьшить отступ на боковой панели вдвое“, потому что мне слишком лениво, чтобы найти его. Я всегда „Принимаю всё“ (Accept All), я больше не читаю diffs. Когда я получаю сообщения об ошибках, я просто копирую и вставляю их без комментариев, обычно это исправляет ситуацию. Код выходит за рамки моего обычного понимания, мне приходится действительно читать его некоторое время. Иногда LLM не могут исправить ошибку, поэтому я просто обхожу её или прошу вносить случайные изменения, пока она не исчезнет. Это не так уж плохо для одноразовых проектов на выходные, но все равно довольно забавно. Я создаю проект или веб‑приложение, но это не совсем программирование — я просто вижу что‑то, говорю что‑то, запускаю что‑то и копирую, вставляю что‑то, и это в основном работает», 

рассказал Карпаты.

Теги:
Рейтинг0
Комментарии3

Сэм Альтман сообщил, что GPT-5 будет бесплатной, а следующей нейросетью OpenAI станет GPT-4.5.

Альтман признал, что сам устал от десятков моделей с разными названиями и неясными функциями — с GPT-4.5 в компании начнут возвращение к понятному неймингу. С GPT-5 номерные модели будут объединять сразу все функции и сами определять, когда им дать короткий, но быстрый ответ, а когда уйти в длительное размышление.

Также GPT-5 запланирована быть бесплатной с неограниченным доступом к чат‑боту и всем функциям, но с базовым уровнем мощности. У нейросети будет несколько ступеней: основная для обычных пользователей, продвинутая для Plus‑подписчиков и мегамощная за $200. Ждать GPT-4.5 осталось несколько недель.

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Пользователи в некотором смысле тупеют после использования нейросетей. Этот факт доказали исследователи из Microsoft и Университета Карнеги‑Меллона.

В чём проблема: чем чаще мы используем ИИ, тем меньше используем критическое мышление — вместе с ним «драматически ухудшаются когнитивные способности». Учёные пришли к ироничному заключению: мы автоматизируем рутинные задачи и вместе с этим перестаём тренировать мозг. А без постоянной тренировки даже самые крутые спецы теряют базовые навыки. Начинаем снова считать в уме.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Итак, группа исследователей создала платформу MathArena, где планируют делиться отчётами о сравнении нейросетей в различных математических проблемах. Для начала множество моделей уже протестировали на AIME 2025 I, олимпиаде, прошедшей в четверг.

Что такое AIME? American Invitational Mathematics Examination — элитное математическое состязание, проводимое с 1983 года. Существует две версии теста — AIME I и AIME II, но каждый участник может пройти только одну (хотя ИИ-моделям повезло, и вскоре появятся результаты для второй части). Олимпиада состоит из 15 задач, сложность которых возрастает.

Каждую модель тестировали по четыре раза на каждой задаче, вычисляя средний балл (столбец Accaccuracy) и финансовую стоимость вычислений (столбец Cost). Для удобства использовалась цветовая кодировка: 🟩зелёный — задача решена в более чем 75% случаев; 🟨жёлтый — успех в 25–75% случаев; 🟥красный — модель справилась менее чем в 25% попыток. Щелчком по клетке можно открыть условие задачи, ход рассуждений модели в каждом из четырёх подходов и финальные ответы.

🏆o3-mini-high от OpenAI показала впечатляющий результат — 80% решённых задач при очень низкой стоимости вычислений.
🔹DeepSeek-r1, лидер среди опенсорс-моделей, набрал 65%, а его дистиллированные версии тоже продемонстрировали достойные результаты. (Кстати, уже пробовали запустить его в нашем агрегаторе нейросетей?)

Можно заметить, что дистилляты хоть и уступают своим полным аналогам, но не так уж сильно: сжатие DeepSeek-r1 с 671 млрд параметров до 70 или даже 14 млрд привело к падению эффективности в обоих случаях всего на 15%. То есть урезанная модель становится заметно легче, но при этом сохраняет бóльшую часть своих возможностей.

К сожалению, Claude 3.5 Sonnet, модель июня 2024-го, оказалась на дне рейтинга. Однако её сильная сторона явно не в этом — огромное контекстное окно (200 000 токенов) делает модель отличным инструментом для программирования. Кодеры подтверждают, что она хорошо генерирует длинные и сложные фрагменты кода.

Пока что в тестах не замечено семейства Phi. Phi-4 набирает 80%+ на сложнейших бенчмарках, таких как MATH, уверенно обходя Gemini Pro и GPT-4o-mini. Посмотрим, добавят ли авторы сайта её в дальнейшем🤔

Тем временем пользователи X забили тревогу и решили проверить честность олимпиады, задействовав свежачок от OpenAI — Deep Research. Цель? Выяснить, не мелькали ли эти задачки где-то в Сети раньше и, соответственно, не могли ли их решения заранее попасть в обучающие данные моделей. Ведь если так, то модели получали преимущество.

Нашлось ли что-то подозрительное? Как оказалось, похожие задачи действительно уже обсуждались на форумах.

Задача № 1: найти сумму всех целых оснований b > 9, для которых одно число делится на другое в системе счисления b. Аналогичное задание всплыло на Quora. Однако и различия существенны: на форуме просто рассматривались все возможные значения b, удовлетворяющие делимости, а в олимпиадном варианте — только те, которые больше 9. Это заметно сужает поиск и усложняет задачу.

Задача № 3: найти остаток от деления количества возможных распределений мороженого между игроками с заданными ограничениями. Deep Research нашёл похожую концепцию: обе задачи связаны с разбиением числа на несколько частей с учётом ограничений. Но здесь тоже есть нюансы: в олимпиадной версии обязательно, чтобы каждый из трёх вкусов достался хотя бы одному игроку, причём количество игроков, выбравших каждый вкус, подчиняется неравенству c > v > s. Более того, порядок распределения важен, что добавляет ещё один уровень сложности.

Итог. Похожие? Да. Идентичные? Нет. Найти аналоги почти любой задачи в интернете реально, если искать достаточно хорошо. Так что сказать, что модели видели точно такие же задачи, нельзя.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии1

«Плюсовое» чтиво: ежемесячная рассылка о разработке на С++

Инженеры YADRO пишут не только статьи, но и письма о «плюсах». Подписчики рассылки раз в месяц получают короткую заметку о том, что важно или интересно разработчикам на С++. Какие письма уже выходили:

— Подборка лучших выступлений с Zero Cost Conf с комментариями Константина Владимирова.
— Презентация новой книги Кирилла Колодяжного о машинном обучении на С++.
— Совет, как избежать проблемы с лямбда-корутинами от ведущего инженера Елены Степановой.

Обычно контент из рассылки не найти на других платформах, поэтому оставайтесь на связи, чтобы не пропустить уникальные материалы.

Подписаться на рассылку →

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии2

Вклад авторов