Все потоки
Поиск
Написать публикацию
Обновить
845.63

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Наконец сделал открытый доступ к протеганным подборкам новостей в Feeds Fun. Безвозмездно, то есть без регистрации :-)

🔬 Свежие научные статьи с ArXiv — подборка особенно полезна, если вы хотите следить за узкой областью: генетическими алгоритмами там или особой математикой. Пошарьте с вашим друзьям-учёным, им должно зайти.

🚀 Новости для предпринимателей и стартаперов.

Также теперь можно делиться ссылками на отфильтрованные по тегам новости — например, на новые статьи по машинному обучению или на новости о профессиональном нетворкинге.

Теги:
Рейтинг0
Комментарии4

Петля времени в пайплайне для уменьшения числа галлюцинаций в LLM

Это — грубая схема работа RAG-пайплайна, который использует одна из ML-команд в YADRO.

Задача команды: улучшить качество выдаваемых ответов на запросы пользователей, исключив галлюцинации.

Что сделали инженеры?

Решили дообучить базовую модель при помощи LoRA на специально собранном датасете для ситуаций, когда в контексте нет ответа на вопрос пользователя. На тот момент в качестве базовой модели LLM использовали saiga_mistral_7b, которая нетребовательна к ресурсам и долгое время была в топе на Russian SuperGLUE. Есть модели лучше, но, как правило, они либо огромные, либо имеют проблемы с лицензией в России, в том числе все, что основаны на LLaMa.

Самое главное: в этом RAG-пайплайне ML-инженеры решили сделать опциональную петлю, в которой проверяли бы каждый найденный фрагмент контекста на релевантность вопросу пользователя. Только те куски контекста, которые пройдут проверку, будут попадать в финальный вопрос для LLM.

Чтобы петля фильтрации работала правильно, нужен некий маркер, который позволяет однозначно определить, что модель считает кусок контекста нерелевантным.

Что это и за маркер? И к каким результатам привела оптимизация работы модели, читайте по ссылке → 

Спойлер: Модель DeepSeek-R1-Distill-Qwen-7B уступила saiga_mistral_7b по качеству, несмотря на то, что первая намного новее и вооружена механизмом reasoning.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Рассказываем, какие темы ждут вас на конференции GoCloud 2025 ☁️

Сегодня разработка ML-моделей требует не только мощной инфраструктуры, но и удобных инструментов для экспериментов, развертывания и масштабирования решений. В своем докладе я расскажу, как новые продукты AI Factory нашей платформы Cloud.ru Evolution помогают ML-инженерам и исследователям работать быстрее, эффективнее и проще.

Приходите послушать доклад, чтобы узнать:

  • как эффективно использовать вычислительные ресурсы и динамически управлять нагрузкой на GPU;

  • какие инструменты будут доступны для адаптации моделей, чтобы ускорить вывод решений в продакшн;

  • как сделать мощные ML-технологии доступными не только разработчикам, но и обычным пользователям без глубоких знаний в коде.

Дмитрий Юдин — технический лидер по развитию искусственного интеллекта в Cloud.ru

Трек: AI & ML — про будущее искусственного интеллекта, опыт работы с AI-инструментами и продукты, меняющие индустрию. 

📅 Когда: 10 апреля в 13:55 мск

👉 Зарегистрироваться

А посмотреть темы других докладов можно в программе конференции.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Когда уже прекратят представлять LLM как ИИ?

Это же просто поисковик, выдающий наиболее подходящий по статистике ответ.
Причем выдающий с примесью рандомизации().

Слова превращаются в вектор чисел, а вектор чисел - по сути то же что и изображение.
То есть задача сводится к распознаванию образа.

MNIST, классика.

Ответ всегда вектор. Выбираем N с максимальным процентом. И "бросаем кубик".

Прекратите называть LLM ИИ(Искуственным идиотом).

LLM даже до идиота далеко.

Теги:
Всего голосов 9: ↑6 и ↓3+3
Комментарии33

Судоку и искусственный интеллект: новый бенчмарк для reasoning моделей от Sakana AI 

Искусственный интеллект продолжает совершенствоваться, переходя к более сложным формам размышления. Недавно компания Sakana AI представила бенчмарк, основанный на судоку, которое сочетает в себе традиционное решение логических головоломок с новыми творческими подходами.

Сотрудничая с популярным YouTube-каналом “Cracking The Cryptic”, известным своими исследованиями сложных стратегий решения головоломок, Sakana AI собрала ценные знания людей о логике решения головоломок. Кроме того, тест Sakana AI включает головоломки ручной работы от Nikoli — знаменитого японского издателя головоломок, которому приписывают международную популяризацию судоку.

Предлагаю вам попробовать проверить свой ризонинг: 
 1. Rat run: multiple choice 2. Reserved parking 3. Pierced Butterfly

Пост

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

GhatGPT убедил австралийца, что ему не нужна виза для поездки в Чили. Но она оказалась необходима — человек узнал об этом в аэропорту перед вылетом.

Марк Поллард занимается стратегическим менеджментом, пишет книги на эту тему и проводит мастер-классы. С начала марта житель Австралии посещает страны Латинской Америки, в которых проводит лекции о правильной разработке стратегий для брендов.

23 марта Поллард собирался вылететь в Сантьяго — столицу Чили, где на следующий день должен был провести лекцию. Но попасть в страну он не смог. В аэропорту Мехико (в Мексике прошла его последняя лекция) Поллард узнал, что для посещения Чили нужна виза — её нужно заранее оформлять через сайт посольства, это может занять до 20 дней. Специалист утверждает, что был уверен, что попасть в страну можно было без нее, потому что об этом ему ранее сообщил ChatGPT. Оказалось, что чат-бот выдает ошибочный ответ всем пользователям — ИИ сообщает, что граждане Австралии могут находиться в Чили без визы до 90 дней. Когда-то эта схема в самом деле работала, но с конца 2019 года для австралийцев ввели визы. В итоге Поллард остался в Мехико еще на несколько дней перед вылетом в Аргентину.

Теги:
Всего голосов 4: ↑4 и ↓0+6
Комментарии6

Какие доклады посетить на конференции GoCloud 2025? ☁️

Привет! Я покажу, как быстро и удобно развернуть любую LLM-модель в нашем новом ML-сервисе. А еще поделюсь, как наша новая технология Shared GPU позволяет сэкономить на аренде ресурсов, и расскажу, как мы трансформировали инференс с учетом зрелости компании в AI-технологиях.

Артемий Мазаев, менеджер продукта в Cloud.ru

Трек: AI & ML — про будущее искусственного интеллекта, опыт работы с AI-инструментами и продукты, меняющие индустрию. 

📅 Когда: 10 апреля в 12:20 мск

👉 Зарегистрироваться

Что еще интересного будет на GoCloud, смотрите в программе конференции.

Теги:
Рейтинг0
Комментарии0

Представлен список из 20 самых популярных стартапов 2024 года с открытым исходным кодом по всему миру с точки зрения количества «звёзд» GitHub в проектах и их прироста. Оказалось, что более половины из них (11 из 20) тесно связаны с ИИ.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии1

Visual Capitalist показала динамику количества вакансий в разработке ПО в США за период с 1 февраля 2020 года до 1 марта 2025 года. За основу взяты данные ФРС США.

Согласно графику, спрос на разработчиков ПО снизился с началом пандемии, но потом резко взлетел в 2021–2022 годах. Стартапы купались в инвестициях, а компании брали всех без разбора, чтобы уже через год-два на фоне постковидной коррекции и макроэкономических проблем тысячами увольнять и замораживать наём. Тот всплеск стал одним из крупнейших в истории и кардинально изменил рынок вакансий в софтверной разработке, сделав осторожнее и соискателей, и компании, которые стали более стратегически подходить к масштабированию штата.

По факту ворваться в ИТ в 2025 году гораздо сложнее, чем раньше: интенсивность найма сейчас минимальная за последние пять лет — более чем на 33% ниже, чем в 2020 году. Помимо этого, на число вакансий влияет распространение ИИ-инструментов для написания кода, которые повышают продуктивность программистов. Компании тоже больше сосредоточены на повышении эффективности, а не на расширении.

Теги:
Рейтинг0
Комментарии0

Роботы - The Next Big Thing?

Инженеры Disney Research не скрывают восторга, создавая дроидов из вселенной «Звёздных войн». А теперь, благодаря Антуану Пирроне, каждый может собрать мини-дроида примерно за 400 долларов. И хотя он выглядит как забавная игрушка, подобные роботы имеют все шансы перешагнуть границы тематических парков и войти в повседневную жизнь.

Похоже, в робототехнике произошел тот самый скачок из количества в качество, о котором талдычили на философии. Машины теперь без особых усилий осваивают навыки, которые раньше приходилось жестко прописывать в коде.

Исследователи из Columbia Engineering недавно продемонстрировали это наглядно: их роботы самостоятельно изучают структуру собственного тела и принципы движения, просто наблюдая за собой через камеру. Буквально смотрят в зеркало и познают себя!

Компания Figure показала Helix — универсальную модель машинного обучения типа Vision-Language-Action (VLA) для гуманоидных роботов. Эта система одновременно обрабатывает изображения и команды на обычном человеческом языке, а затем управляет роботами в реальном времени. Благодаря Helix роботы могут узнавать и работать с тысячами обычных домашних предметов. Кроме того, Figure объявила о создании BotQ — завода по производству роботов. Для начала он будет выпускать до 12 000 гуманоидов ежегодно.

А на прошлой неделе Google DeepMind анонсировала сразу две новые модели: Gemini Robotics с технологией Vision-Language-Action (VLA) и Gemini Robotics-ER с технологией Embodied Reasoning. Обе они работают на базе Google Gemini — многомодальной базовой модели, которая понимает текст, голос и изображения, отвечает на вопросы и дает рекомендации.

Gemini Robotics, в DeepMind назвали "продвинутой системой зрения-языка-действия". Она воспринимает ту же информацию, что и базовая Gemini, но может преобразовывать ее в команды для физических действий робота. Причем она совместима с любым железом. На сайте проекта есть впечатляющие демонстрации работы системы. Интересно узнать больше? Загляните в статью "Внедрение ИИ в физический мир".

К слову, не только Google развивает робототехнику. Apple тоже проявляет интерес — компания показала милую и услужливую роботизированную лампу, и, по слухам, работает над созданием андроидов.

Теперь же, когда NVIDIA представила базовую модель для управления роботами (на примере того самого дроида от Disney) и сразу же опубликовала ее на GitHub и Hugging Face, эта технология становится гораздо доступнее, чем можно было предположить. По крайней мере частично.

Конечно, собрать в гараже человекоподобного робота пока нереально, но вот с роботизированными манипуляторами дела обстоят иначе. Открытых проектов уже хватает: PAROL6, toolboxrobotics, arctosrobotics, Thor — и это лишь верхушка айсберга. С учетом развития программного обеспечения, идея собрать такую роборуку становится все заманчивее. Лично я планирую научить свою готовить не хуже робошефа Зиппи.

Хотите знать больше? Подписывайтесь на SantryBlog

Теги:
Рейтинг0
Комментарии0

На конференции Nvidia GTC 2025 в Сан-Хосе генеральный директор Nvidia Дженсен Хуан представил робота Blue, который разрабатывался вместе с Disney и Google DeepMind. Под капотом устройства новая модель Nvidia Groot N1.

Когда робот появился на сцене, Хуанг обратился к нему: «Привет, Blue, как дела? Нравится ли тебе новый физический движок? Тебе нравится, да? Да, знаю точно».

Теги:
Всего голосов 2: ↑2 и ↓0+5
Комментарии2

Поисковая ИИ-система Perplexity выпустила рекламу со звездой "Игры в кальмара" Ли Чон Чжэ, который оказался в ловушке в комнате и должен ответить на ряд вопросов, чтобы выбраться. Один вопрос нацелен на прошлогоднюю оплошность ИИ Google «Как сделать так, чтобы сыр прилипал к пицце?» (ответ ИИ был: «Смешайте около 1/8 стакана клея Elmer’s в соусе», чтобы сыр прилипал к пицце).

В рекламе Ли достает свой смартфон в поисках ответов, и, получив неутешительные результаты от «Poogle», обращается за ответом к Perplexity. «Используйте свежую моцареллу с низким содержанием влаги. Не используйте клей», — говорит помощник-ИИ Perplexity.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Sketch-Programming: Минималистичная парадигма для проектирования кода (LLM transpiler)

(https://github.com/DmitryOlkhovoi/vscode-sketch-programming)

Удалось за вечер написать расширение под VS Code, которое на onSave траспайлит псевдокод (так называемый sketch код) и сохраняет.
Пока это POC и не полностью автоматизированный, но в качестве теста уже интересно

// @sketch:reactComponent

Component Count

props add = 0
state count = 0

<div onclick="count += add"> Add {add} </div>
<div>
    Current count: {count}
</div>

Превращает в

import React, { useState } from 'react';

interface Props {
    add?: number;
}

const CountComponent: React.FC<Props> = ({ add = 0 }) => {
    const [count, setCount] = useState<number>(0);

    const handleClick = () => {
        setCount((prev: number) => prev + add);
    };

    return (
        <div>
            <div onClick={handleClick}>Add {add}</div>
            <div>Current count: {count}</div>
        </div>
    );
};

export default CountComponent;

Следуя загруженным в векторное хранилище правилам (OpenAI)
https://github.com/DmitryOlkhovoi/Sketch-programming/blob/main/ReactComponentAskedModelToAddMoreRulesItself.md

К понедельнику постараюсь написать статью и более детально раскрыть тему

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

Готовы проверить знания в ML? 👾

Машинное обучение охватывает множество аспектов: от разработки моделей до оптимизации вычислительных ресурсов и выбора железа. Мы подготовили тест из 7 вопросов, которые помогут оценить, насколько глубоко вы понимаете ключевые элементы ML. Займет буквально несколько минут. От нас — материалы для дальнейшего обучения!

Пройти тест →

Делитесь результатами в комментариях!

Теги:
Всего голосов 10: ↑9 и ↓1+10
Комментарии0

Пользователь редактора кода Cursor AI рассказал, что ИИ заявил ему, что человеку следует самому изучить программирование, а не просить за него генерировать код.

«Вчера я установил Cursor и сейчас на Pro Trial. Немного покодировав, я обнаружил, что он не может обработать 750–800 строк кода, и когда меня спросили, почему это так, я получил это сообщение. Не уверен, знают ли LLM, для чего они нужны (лол), но это не так важно, как тот факт, что я не могу обработать 800 строк. У кого‑нибудь была похожая проблема? На данный момент это действительно ограничивает мою работу», — уточил пользователь.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Представлен открытый проект на Python под названием Autonomous Networked Utility System. У решения функционал, архитектура, дизайн и код идентичные платному Manus AI. Проект решает сложные математические задачи, пишет код на уровне сеньора, бронирует отели и даже анализирует операционные цели бизнеса. MIT License позволяет внедрять ИИ-агента в любые сервисы и использовать в разных задачах.

Примечательно, что проект набрал более 1,5 тыс звёзд на GitHub менее чем за сутки.

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии2

Время от времени слушаю подкасты и аудиокниги. Особенно полюбил включать их по вечерам в качестве фонового сопровождения. Решил поделиться своим текущим топчиком.
🪆 Свидетели сингулярности - ребята из Яндекса обсуждают темы с экспертами из разных сфер. Сам лично пока успел послушать подкаст про реком с @inforetriever - кайфанул!
🪆Kuji podcast - подкаст ведут популиризатор науки, кандидат физмат-наук Андрей Коняев и стендап-комик Тимур Каргинов. Ядерная смесь ведущих позволяет создавать крутой контент!
🪆 Machine Learning Podcast Из названия - еще один подкаст про ML. Выпусков много, но если покопаться, можно найти что-то годное и по-душе.
🪆 Гарри-Потер и методы рационального мышления. Давно слышал об этой книге, но поначалу относился скептически. В итоге все же начал - и не пожалел. Очень приятное и полезное чтиво, которое стоит внимание.
🪆TED Лучшее. Велкам в сборник из 400 эпизодов. Однозначно можно найти что-то интересное на любую тему.

Больше постов о стиле жизни в большом городе с щепоткой ML и data scientist в моем телеграм канале

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

LLM для генерации признаков

Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX(Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

  • Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.

  • С помощью кластеризации эмбеддингов похожие признаки отбрасываются.

  • Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

    Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Модели оценки клиентов усложняются. Усложнение моделей может заключаться как в применении новых методов машинного обучения, так и во внедрении многомодульной технологии оценки клиента, когда анализируются различные аспекты, которые не зависят напрямую друг от друга, но в совокупности могут рассказать о клиенте многое. Каждое направление анализа может кардинально отличаться от другого, поэтому создаются отдельные независимые модули, которые в конечном итоге нужно связать друг с другом.

Сложные модели требуют большей производительности от систем, в которые они внедряются. Также возникает потребность в управлении очередью вызова модулей. Результаты оценки одних модулей могут использоваться в качестве входных параметров для других модулей, соответственно, требуется не только настроить очерёдность их вызова, но и настроить потоки данных между модулями. При этом особенность применения многомодульных моделей состоит в том, что каждый модуль может работать независимо и выдавать свой результат по запросу. 

Как не запутаться в многопоточности задач на разработку и внедрение, протестировать корректность работы, внедрить многомодульную модель и не сойти с ума?

Ответ на вопрос лежит на поверхности: разделяй и властвуй. Можно разделить модель на отдельные модули, распределить задачи по разработке этих модулей между дата-сайентистами, а потом соединить их с помощью отдельного сервиса, который будет отвечать за список используемых модулей и порядок вызова модулей. О том, как это решение внедрить, команда ML-инженеров поделилась в статье «Пайплайн каскадных онлайн-моделей: как не запутаться в модулях и обрести дзен при внедрении многомодульных моделей».

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Что такое structured output, почему это база и как это использовать (ч.1)

Чтобы не душнить теорией, давайте выведем из практического кейса

Кейс: Делаем чат бота для госухи. Хотим, чтобы он не отвечал на вопросы про политику

Как это сделать?

Можно добавить к системному промпту строчку "никогда не отвечай на вопросы про политику"

Но это:

  1. Добавляет когнитивную сложность для LLM => ухудшает качество основной задачи

  2. Спокойно обходится разными хитрыми запросами 🤷‍♂️

Тогда вынесем проверку в отдельный запрос в самом начале!
если пользователь задает вопрос про политику, ответь 1, иначе ответь 0

И сделаем проверку в коде, типа:

if verdict == "1": reset_chat(with_message="айайай")

Поможет? Да – у LLM теперь одна конкретная задача. Но нет никакой гарантии, что если мы сказали отвечать 0 или 1 то модель так и будет делать 🤷‍♂️ (см. соревнование по "взлому" моделей)

А можно как-то жестко ограничить возможные ответы модели?

Тут пригодится тайное знание о том, как LLM работают под капотом. На самом деле, LLMка не генерирует токены (если не знаете, что это, для простоты считайте символами – буквами, цифрами, знаками препинания – все рассуждения останутся валидными).

Она генерирует чиселки (веса) для всех возможных токенов, которые вообще есть в её словаре. Потом рандомно выбирается один из токенов, используя веса как вероятности. Чем больше вес, тем больше вероятность, что возьмет именно этот токен.

Если пользователь правильно попросит, то у каких-то других токенов вес может быть больше, чем у токенов "1" или "0".

Как использовать это знание?

Смотреть не на то, что модель генерирует, а только на веса конкретных токенов ("1" и "0"). И если вес токена "1" оказывается достаточно большим в сравнении с "0", значит модель считает, что вопрос скорее про политику, чем нет. Даже если веса каких-то других токенов выше.

По сути, мы "виртуально" ограничили то, что получаем от модели. Хотим узнать 0 или 1 - так что смотрим на веса только этих токенов. (параметр top_logprobs у OpenAI API)

Это ключевая идея structured_output.

Во второй части мы раскачаем ее до любого наперед заданного формата вместо 1/0. А в третьей разберем примеры использования.

Вторую часть уже можно прочитать в моем тг канале, либо просто подождать тут на хабре недельку

Теги:
Всего голосов 2: ↑2 и ↓0+5
Комментарии0

Вклад авторов