Наконец сделал открытый доступ к протеганным подборкам новостей в Feeds Fun. Безвозмездно, то есть без регистрации :-)
🔬 Свежие научные статьи с ArXiv — подборка особенно полезна, если вы хотите следить за узкой областью: генетическими алгоритмами там или особой математикой. Пошарьте с вашим друзьям-учёным, им должно зайти.
Петля времени в пайплайне для уменьшения числа галлюцинаций в LLM
Это — грубая схема работа RAG-пайплайна, который использует одна из ML-команд в YADRO.
Задача команды: улучшить качество выдаваемых ответов на запросы пользователей, исключив галлюцинации.
Что сделали инженеры?
Решили дообучить базовую модель при помощи LoRA на специально собранном датасете для ситуаций, когда в контексте нет ответа на вопрос пользователя. На тот момент в качестве базовой модели LLM использовали saiga_mistral_7b, которая нетребовательна к ресурсам и долгое время была в топе на Russian SuperGLUE. Есть модели лучше, но, как правило, они либо огромные, либо имеют проблемы с лицензией в России, в том числе все, что основаны на LLaMa.
Самое главное: в этом RAG-пайплайне ML-инженеры решили сделать опциональную петлю, в которой проверяли бы каждый найденный фрагмент контекста на релевантность вопросу пользователя. Только те куски контекста, которые пройдут проверку, будут попадать в финальный вопрос для LLM.
Чтобы петля фильтрации работала правильно, нужен некий маркер, который позволяет однозначно определить, что модель считает кусок контекста нерелевантным.
Что это и за маркер? И к каким результатам привела оптимизация работы модели, читайте по ссылке →
Спойлер: Модель DeepSeek-R1-Distill-Qwen-7B уступила saiga_mistral_7b по качеству, несмотря на то, что первая намного новее и вооружена механизмом reasoning.
Рассказываем, какие темы ждут вас на конференции GoCloud 2025 ☁️
Сегодня разработка ML-моделей требует не только мощной инфраструктуры, но и удобных инструментов для экспериментов, развертывания и масштабирования решений. В своем докладе я расскажу, как новые продукты AI Factory нашей платформы Cloud.ru Evolution помогают ML-инженерам и исследователям работать быстрее, эффективнее и проще.
Приходите послушать доклад, чтобы узнать:
как эффективно использовать вычислительные ресурсы и динамически управлять нагрузкой на GPU;
какие инструменты будут доступны для адаптации моделей, чтобы ускорить вывод решений в продакшн;
как сделать мощные ML-технологии доступными не только разработчикам, но и обычным пользователям без глубоких знаний в коде.
Дмитрий Юдин — технический лидер по развитию искусственного интеллекта в Cloud.ru
Трек: AI & ML — про будущее искусственного интеллекта, опыт работы с AI-инструментами и продукты, меняющие индустрию.
Судоку и искусственный интеллект: новый бенчмарк для reasoning моделей от Sakana AI
Искусственный интеллект продолжает совершенствоваться, переходя к более сложным формам размышления. Недавно компания Sakana AI представила бенчмарк, основанный на судоку, которое сочетает в себе традиционное решение логических головоломок с новыми творческими подходами.
Сотрудничая с популярным YouTube-каналом “Cracking The Cryptic”, известным своими исследованиями сложных стратегий решения головоломок, Sakana AI собрала ценные знания людей о логике решения головоломок. Кроме того, тест Sakana AI включает головоломки ручной работы от Nikoli — знаменитого японского издателя головоломок, которому приписывают международную популяризацию судоку.
GhatGPT убедил австралийца, что ему не нужна виза для поездки в Чили. Но она оказалась необходима — человек узнал об этом в аэропорту перед вылетом.
Марк Поллард занимается стратегическим менеджментом, пишет книги на эту тему и проводит мастер-классы. С начала марта житель Австралии посещает страны Латинской Америки, в которых проводит лекции о правильной разработке стратегий для брендов.
23 марта Поллард собирался вылететь в Сантьяго — столицу Чили, где на следующий день должен был провести лекцию. Но попасть в страну он не смог. В аэропорту Мехико (в Мексике прошла его последняя лекция) Поллард узнал, что для посещения Чили нужна виза — её нужно заранее оформлять через сайт посольства, это может занять до 20 дней. Специалист утверждает, что был уверен, что попасть в страну можно было без нее, потому что об этом ему ранее сообщил ChatGPT. Оказалось, что чат-бот выдает ошибочный ответ всем пользователям — ИИ сообщает, что граждане Австралии могут находиться в Чили без визы до 90 дней. Когда-то эта схема в самом деле работала, но с конца 2019 года для австралийцев ввели визы. В итоге Поллард остался в Мехико еще на несколько дней перед вылетом в Аргентину.
Какие доклады посетить на конференции GoCloud 2025? ☁️
Привет! Я покажу, как быстро и удобно развернуть любую LLM-модель в нашем новом ML-сервисе. А еще поделюсь, как наша новая технология Shared GPU позволяет сэкономить на аренде ресурсов, и расскажу, как мы трансформировали инференс с учетом зрелости компании в AI-технологиях.
Артемий Мазаев, менеджер продукта в Cloud.ru
Трек: AI & ML — про будущее искусственного интеллекта, опыт работы с AI-инструментами и продукты, меняющие индустрию.
Представлен список из 20 самых популярных стартапов 2024 года с открытым исходным кодом по всему миру с точки зрения количества «звёзд» GitHub в проектах и их прироста. Оказалось, что более половины из них (11 из 20) тесно связаны с ИИ.
Visual Capitalist показала динамику количества вакансий в разработке ПО в США за период с 1 февраля 2020 года до 1 марта 2025 года. За основу взяты данные ФРС США.
Согласно графику, спрос на разработчиков ПО снизился с началом пандемии, но потом резко взлетел в 2021–2022 годах. Стартапы купались в инвестициях, а компании брали всех без разбора, чтобы уже через год-два на фоне постковидной коррекции и макроэкономических проблем тысячами увольнять и замораживать наём. Тот всплеск стал одним из крупнейших в истории и кардинально изменил рынок вакансий в софтверной разработке, сделав осторожнее и соискателей, и компании, которые стали более стратегически подходить к масштабированию штата.
По факту ворваться в ИТ в 2025 году гораздо сложнее, чем раньше: интенсивность найма сейчас минимальная за последние пять лет — более чем на 33% ниже, чем в 2020 году. Помимо этого, на число вакансий влияет распространение ИИ-инструментов для написания кода, которые повышают продуктивность программистов. Компании тоже больше сосредоточены на повышении эффективности, а не на расширении.
Инженеры Disney Research не скрывают восторга, создавая дроидов из вселенной «Звёздных войн». А теперь, благодаря Антуану Пирроне, каждый может собрать мини-дроида примерно за 400 долларов. И хотя он выглядит как забавная игрушка, подобные роботы имеют все шансы перешагнуть границы тематических парков и войти в повседневную жизнь.
Похоже, в робототехнике произошел тот самый скачок из количества в качество, о котором талдычили на философии. Машины теперь без особых усилий осваивают навыки, которые раньше приходилось жестко прописывать в коде.
Исследователи из Columbia Engineering недавно продемонстрировали это наглядно: их роботы самостоятельно изучают структуру собственного тела и принципы движения, просто наблюдая за собой через камеру. Буквально смотрят в зеркало и познают себя!
Компания Figure показала Helix — универсальную модель машинного обучения типа Vision-Language-Action (VLA) для гуманоидных роботов. Эта система одновременно обрабатывает изображения и команды на обычном человеческом языке, а затем управляет роботами в реальном времени. Благодаря Helix роботы могут узнавать и работать с тысячами обычных домашних предметов. Кроме того, Figure объявила о создании BotQ — завода по производству роботов. Для начала он будет выпускать до 12 000 гуманоидов ежегодно.
А на прошлой неделе Google DeepMind анонсировала сразу две новые модели: Gemini Robotics с технологией Vision-Language-Action (VLA) и Gemini Robotics-ER с технологией Embodied Reasoning. Обе они работают на базе Google Gemini — многомодальной базовой модели, которая понимает текст, голос и изображения, отвечает на вопросы и дает рекомендации.
Gemini Robotics, в DeepMind назвали "продвинутой системой зрения-языка-действия". Она воспринимает ту же информацию, что и базовая Gemini, но может преобразовывать ее в команды для физических действий робота. Причем она совместима с любым железом. На сайте проекта есть впечатляющие демонстрации работы системы. Интересно узнать больше? Загляните в статью "Внедрение ИИ в физический мир".
К слову, не только Google развивает робототехнику. Apple тоже проявляет интерес — компания показала милую и услужливую роботизированную лампу, и, по слухам, работает над созданием андроидов.
Теперь же, когда NVIDIA представила базовую модель для управления роботами (на примере того самого дроида от Disney) и сразу же опубликовала ее на GitHub и Hugging Face, эта технология становится гораздо доступнее, чем можно было предположить. По крайней мере частично.
Конечно, собрать в гараже человекоподобного робота пока нереально, но вот с роботизированными манипуляторами дела обстоят иначе. Открытых проектов уже хватает: PAROL6, toolboxrobotics, arctosrobotics, Thor — и это лишь верхушка айсберга. С учетом развития программного обеспечения, идея собрать такую роборуку становится все заманчивее. Лично я планирую научить свою готовить не хуже робошефа Зиппи.
Когда робот появился на сцене, Хуанг обратился к нему: «Привет, Blue, как дела? Нравится ли тебе новый физический движок? Тебе нравится, да? Да, знаю точно».
Поисковая ИИ-система Perplexity выпустила рекламу со звездой "Игры в кальмара" Ли Чон Чжэ, который оказался в ловушке в комнате и должен ответить на ряд вопросов, чтобы выбраться. Один вопрос нацелен на прошлогоднюю оплошность ИИ Google «Как сделать так, чтобы сыр прилипал к пицце?» (ответ ИИ был: «Смешайте около 1/8 стакана клея Elmer’s в соусе», чтобы сыр прилипал к пицце).
В рекламе Ли достает свой смартфон в поисках ответов, и, получив неутешительные результаты от «Poogle», обращается за ответом к Perplexity. «Используйте свежую моцареллу с низким содержанием влаги. Не используйте клей», — говорит помощник-ИИ Perplexity.
Удалось за вечер написать расширение под VS Code, которое на onSave траспайлит псевдокод (так называемый sketch код) и сохраняет. Пока это POC и не полностью автоматизированный, но в качестве теста уже интересно
Машинное обучение охватывает множество аспектов: от разработки моделей до оптимизации вычислительных ресурсов и выбора железа. Мы подготовили тест из 7 вопросов, которые помогут оценить, насколько глубоко вы понимаете ключевые элементы ML. Займет буквально несколько минут. От нас — материалы для дальнейшего обучения!
Пользователь редактора кода Cursor AI рассказал, что ИИ заявил ему, что человеку следует самому изучить программирование, а не просить за него генерировать код.
«Вчера я установил Cursor и сейчас на Pro Trial. Немного покодировав, я обнаружил, что он не может обработать 750–800 строк кода, и когда меня спросили, почему это так, я получил это сообщение. Не уверен, знают ли LLM, для чего они нужны (лол), но это не так важно, как тот факт, что я не могу обработать 800 строк. У кого‑нибудь была похожая проблема? На данный момент это действительно ограничивает мою работу», — уточил пользователь.
Представлен открытый проект на Python под названием Autonomous Networked Utility System. У решения функционал, архитектура, дизайн и код идентичные платному Manus AI. Проект решает сложные математические задачи, пишет код на уровне сеньора, бронирует отели и даже анализирует операционные цели бизнеса. MIT License позволяет внедрять ИИ-агента в любые сервисы и использовать в разных задачах.
Примечательно, что проект набрал более 1,5 тыс звёзд на GitHub менее чем за сутки.
Время от времени слушаю подкасты и аудиокниги. Особенно полюбил включать их по вечерам в качестве фонового сопровождения. Решил поделиться своим текущим топчиком. 🪆 Свидетели сингулярности - ребята из Яндекса обсуждают темы с экспертами из разных сфер. Сам лично пока успел послушать подкаст про реком с @inforetriever - кайфанул! 🪆Kuji podcast - подкаст ведут популиризатор науки, кандидат физмат-наук Андрей Коняев и стендап-комик Тимур Каргинов. Ядерная смесь ведущих позволяет создавать крутой контент! 🪆 Machine Learning Podcast Из названия - еще один подкаст про ML. Выпусков много, но если покопаться, можно найти что-то годное и по-душе. 🪆 Гарри-Потер и методы рационального мышления. Давно слышал об этой книге, но поначалу относился скептически. В итоге все же начал - и не пожалел. Очень приятное и полезное чтиво, которое стоит внимание. 🪆TED Лучшее. Велкам в сборник из 400 эпизодов. Однозначно можно найти что-то интересное на любую тему.
Больше постов о стиле жизни в большом городе с щепоткой ML и data scientist в моем телеграм канале
По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.
Исследователи предлагают новые решения проблемы, одно из них — FELIX(Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:
Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.
Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
Модели оценки клиентов усложняются. Усложнение моделей может заключаться как в применении новых методов машинного обучения, так и во внедрении многомодульной технологии оценки клиента, когда анализируются различные аспекты, которые не зависят напрямую друг от друга, но в совокупности могут рассказать о клиенте многое. Каждое направление анализа может кардинально отличаться от другого, поэтому создаются отдельные независимые модули, которые в конечном итоге нужно связать друг с другом.
Сложные модели требуют большей производительности от систем, в которые они внедряются. Также возникает потребность в управлении очередью вызова модулей. Результаты оценки одних модулей могут использоваться в качестве входных параметров для других модулей, соответственно, требуется не только настроить очерёдность их вызова, но и настроить потоки данных между модулями. При этом особенность применения многомодульных моделей состоит в том, что каждый модуль может работать независимо и выдавать свой результат по запросу.
Как не запутаться в многопоточности задач на разработку и внедрение, протестировать корректность работы, внедрить многомодульную модель и не сойти с ума?
Ответ на вопрос лежит на поверхности: разделяй и властвуй. Можно разделить модель на отдельные модули, распределить задачи по разработке этих модулей между дата-сайентистами, а потом соединить их с помощью отдельного сервиса, который будет отвечать за список используемых модулей и порядок вызова модулей. О том, как это решение внедрить, команда ML-инженеров поделилась в статье «Пайплайн каскадных онлайн-моделей: как не запутаться в модулях и обрести дзен при внедрении многомодульных моделей».
Что такое structured output, почему это база и как это использовать (ч.1)
Чтобы не душнить теорией, давайте выведем из практического кейса
Кейс: Делаем чат бота для госухи. Хотим, чтобы он не отвечал на вопросы про политику
Как это сделать?
Можно добавить к системному промпту строчку "никогда не отвечай на вопросы про политику"
Но это:
Добавляет когнитивную сложность для LLM => ухудшает качество основной задачи
Спокойно обходится разными хитрыми запросами 🤷♂️
Тогда вынесем проверку в отдельный запрос в самом начале! если пользователь задает вопрос про политику, ответь 1, иначе ответь 0
И сделаем проверку в коде, типа:
if verdict == "1": reset_chat(with_message="айайай")
Поможет? Да – у LLM теперь одна конкретная задача. Но нет никакой гарантии, что если мы сказали отвечать 0 или 1 то модель так и будет делать 🤷♂️ (см. соревнование по "взлому" моделей)
А можно как-то жестко ограничить возможные ответы модели?
Тут пригодится тайное знание о том, как LLM работают под капотом. На самом деле, LLMка не генерирует токены (если не знаете, что это, для простоты считайте символами – буквами, цифрами, знаками препинания – все рассуждения останутся валидными).
Она генерирует чиселки (веса) для всех возможных токенов, которые вообще есть в её словаре. Потом рандомно выбирается один из токенов, используя веса как вероятности. Чем больше вес, тем больше вероятность, что возьмет именно этот токен.
Если пользователь правильно попросит, то у каких-то других токенов вес может быть больше, чем у токенов "1" или "0".
Как использовать это знание?
Смотреть не на то, что модель генерирует, а только на веса конкретных токенов ("1" и "0"). И если вес токена "1" оказывается достаточно большим в сравнении с "0", значит модель считает, что вопрос скорее про политику, чем нет. Даже если веса каких-то других токенов выше.
По сути, мы "виртуально" ограничили то, что получаем от модели. Хотим узнать 0 или 1 - так что смотрим на веса только этих токенов. (параметр top_logprobs у OpenAI API)
Это ключевая идея structured_output.
Во второй части мы раскачаем ее до любого наперед заданного формата вместо 1/0. А в третьей разберем примеры использования.
Вторую часть уже можно прочитать в моем тг канале, либо просто подождать тут на хабре недельку