Обновить
800.1

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Microsoft представила бесплатный курс EdgeAI for Beginners, чтобы познакомить пользователей с захватывающим миром периферийного ИИ. В рамках учебных материалов в открытом репозитории раскрыты фундаментальные концепции, популярные ИИ-модели, методы вывода, приложения для конкретных устройств, оптимизация моделей и технологии разработки интеллектуальных агентов периферийного ИИ.

Хотите выяснить, где учиться IT? В экосистеме Хабра есть маркетплейс курсов на Хабр Карьере, на котором собраны сотни онлайн-обучений в самых разных специализациях: программировании, аналитике, дизайне, менеджменте и других. Чтобы пользователи могли проверить качество курсов, там показаны отзывы от тех, кто уже прошел обучение — изучайте и выбирайте лучшее для себя.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Читаю Талеба «Чёрный лебедь» — и ловлю себя на мысли, насколько точно он описывает разрыв между нашей биологией и современным миром.

Наши инстинкты сформировались для выживания среди диких зверей и соседних племён.
А живём мы сегодня в «Крайнестане» — мире, где редкие и маловероятные события определяют ход истории, экономик и компаний.

🦢 Чёрный лебедь может появиться после тысяч белых.
И именно он перевернёт систему — а не то, к чему мы «готовились».

Наш мозг не чувствует эти сдвиги.
Мы по-прежнему думаем, что «всё будет как вчера», хотя реальность управляется не средним сценарием, а экстремумами.

📌 Почему это важно для лидеров и продуктовых команд:
— Большинство наших решений всё ещё строятся на интуиции и прошлом опыте.
— Но в среде высокой неопределённости это опасно.
— Нужно учиться работать с неопределённостью осознанно: строить сценарии, усиливать антихрупкость, планировать не «по среднему», а по краевым случаям.

«В далеком прошлом люди могли делать выводы быстрее и точнее… Сегодня число “чернолебяжьих” зон неизмеримо выросло».

Именно в этих «чернолебяжьих» зонах рождаются не только кризисы — но и прорывы.

Теги:
Всего голосов 10: ↑2 и ↓8-5
Комментарии22

MWS AI выложила в открытый доступ код и валидационный датасет к бенчмарку MWS Vision Bench - для оценки способностей мультимодальных LLM в работе с тяжелым визуально-текстовым контентом на русском: сканами документов, текстом с картинками, графиками, чертежами, таблицами и пр.

Кратко:

Бенчмарк состоит из 5 практических заданий:
- полностраничный OCR (страница→текст),
- структурированный OCR (страница→markdown),
- grounding (координаты текста),
- KIE/JSON (извлечение ключей),
- VQA (вопрос‑ответ).

Размер: 800 изображений, 2580 вопросов (валидация - 1 302, тест - 1 278). 

Репозиторий - на GitHub
Валидационный датасет - на HF

Подробно - тут: https://habr.com/ru/companies/mts_ai/articles/953292/ .

Теги:
Рейтинг0
Комментарии0

Google опубликовала список из 1001 варианта использования генеративного ИИ в различных секторах, таких как автомобилестроение, финансовые услуги, производство, здравоохранение, бизнес, гостиничный бизнес, туризм и СМИ.

Теги:
Рейтинг0
Комментарии0

Идеи, с чем интегрировать LLM из Evolution Foundation Models 🖥

В сервисе Evolution Foundation Models представлены open source модели, к которым вы можете делать запросы по API. А еще есть возможность интегрировать эти LLM в разные фреймворки, библиотеки и редакторы кода, чтобы автоматизировать часть задач и облегчить себе работу.

⬇️ Расскажем о четырех сценариях применения LLM из Evolution Foundation Models с разными инструментами. А еще дадим ссылки на руководства по подключению:

  1. Создайте своего Code Agent с Aider и VS Code. Подключите в свой сервис по API подходящую под ваши задачи LLM, а потом используйте редакторы кода, чтобы создать интеллектуального помощника по программированию. Тот поможет писать и рефакторить код, искать баги, проводить тесты и составлять документацию.

  2. Встройте LLM в чат-интерфейс платформ ChatboxOpen WebUI или LibreChat. Так вы сможете, например, настроить работу команды с LLM и контролировать расход токенов, создавать собственных AI-ассистентов, использовать RAG и поиск в интернете.

  3. Напишите своего чат-бота с фреймворком LangChain, который предназначен для создания AI-ориентированных приложений. Добавьте созданного чат-бота в беседу, чтобы он делал выжимки из диалогов и отслеживал в них задачи. Или интегрируйте получившегося AI-помощника в службу поддержки, чтобы быстрее отвечать клиентам. 

  4. Организуйте LLM-шлюз с библиотекой Litellm. Например, она на дает доступ к разным LLM по единому API-ключу и возможность выбрать резервную модель на случай, если с основной что-то случится. LLM-шлюз упростит вам работу: он может управлять сразу несколькими LLM, помогает балансировать нагрузку и контролировать траты.

Кстати, более 20 LLM, эмбеддеров и реранкеров из Evolution Foundation Models доступны бесплатно до 31 октября. Выберите модели, которые по бенчмаркам лучше подходят к вашим задачам, и протестируйте их в работе 🤖

Теги:
Рейтинг0
Комментарии0

OpenAI и Nvidia раздувают пузырь искусственного интеллекта объёмом в 1 триллион долларов с помощью сети циклических сделок.

Теги:
Всего голосов 7: ↑6 и ↓1+8
Комментарии2

OutBoxML: как мы построили свою ML‑платформу от архитектуры до продакшена

Если вы хоть раз выводили ML‑модель в прод, то знаете этот сценарий.

Папки final_final_v2, десятки Python‑скриптов, неотслеженные версии данных, ручной деплой на сервер, и тревожное чувство, что «где‑то что‑то точно отвалится».

Со временем даже хорошо построенный ML‑процесс превращается в хаос — набор несовместимых пайплайнов и моделей, где каждый инженер решает задачу по‑своему.

Мы столкнулись с этим тоже. Но вместо того чтобы латать процессы по частям, мы решили построить собственную ML‑платформу OutBoxML — систему, которая централизует всё: от обучения и управления фичами до продакшн‑деплоя и мониторинга качества моделей.

OutBoxML — это не концепция на слайдах, а реальный проект, который мы внедрили в продакшн, чтобы стабилизировать и масштабировать ML во всём ИТ‑контуре Страхового Дома ВСК.

В серии из трёх статей на Хабре наши инженеры подробно разбирают, как мы прошли путь от архитектуры до продакшена, какие решения приняли — и какие ошибки помогли нам вырасти.

Решение: платформа OutBoxML

Мы не остановились на обёртках вокруг сторонних инструментов — мы создали OutBoxML: платформу, способную управлять жизненным циклом моделей от разработки до стабильного продакшена.

Мы шаг за шагом описываем во всех трёх статьях, как родилась архитектура, как устроен компонент работы с признаками и как устроена надёжность при выводе моделей.

Часть 1: Библиотека OutboxML от Страхового Дома ВСК

В первой статье мы показываем конструкцию ядра OutBoxML и обоснование архитектурных подходов.

Ключевой технический инсайт: мы ушли от монолитных систем и отдали предпочтение сервисам с чёткими границами ответственности, использованию событийной коммуникации и контейнеризации.

Мы описываем принципы маршрутизации данных, версионирования и взаимодействия между сервисами, а также как обеспечиваем воспроизводимость экспериментов.

Часть 2: Автоматизированное машинное обучение с помощью нашего Open Source фреймворка: задача о Титанике

В следующее статье мы разбирали моменты, в которых классический ML выигрывает у сложных нейросетей, на примере страховой индустрии.

К тому же обсудили как мы автоматизировали обучение и инференс моделей с помощью OutBoxML и модульную архитектура и гибкие настройки процессов.

Часть 3: Data Drift в ML Страхового Дома ВСК: от PSI‑анализа до пересборки фичей и сравнения моделей

Машинное обучение в страховании — это не только про красивые метрики на этапе тестирования. Самая большая проблема приходит позже, когда модель выходит «в прод»: данные начинают меняться, и точность предсказаний падает. Это явление называется Data Drift. В статье мы делимся практическим опытом:

  • как диагностировать дрифт с помощью PSI‑метрики;

  • как использовать SHAP‑анализ для переосмысления модели;

  • чем отличается модель «с дрифтом» от модели «без дрифта» на реальных страховых данных.

Мы показываем не теорию, а эксперимент с открытым кодом и цифрами: какие признаки пришлось исключить, как изменилась логика модели и что это дало бизнесу на практике.

Совсем скоро выйдет заключительная статья нашего первого цикла open source проекта OutBoxML!

Присоединяйтесь к нашему проекту на GitHub и в Telegram. К тому же, библиотека опубликована в pypi и доступна к установке через pip install outboxml

Пишите в комментариях, о каких аспектах автоматизации ML вам хотелось бы узнать подробнее. Удачи в реализации ваших проектов!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Автоматизация discovery: от идеи до интерфейса за один день

Мы у себя провели эксперимент и пришли к ряду выводов

Зачем

Классический discovery: недели согласований, уточнений, макетов, пока команда не дойдёт до первого прототипа. Мы проверили гипотезу: можно ли сократить весь цикл от идеи до интерфейса до 24 часов — без потери управляемости и качества.

Что сделали

Собрали полуавтоматический pipeline, который превращает любые вводные (голос, текст, фото) в CJM, прототип и UML. Нижняя граница — один день. Обычно 2-3 дня. Пайплайн выстроен вокруг генеративных инструментов:

  1. ChatGPT — генерирует эпики, сценарии, модели данных, UI-интерфейсы и документацию

  2. Bolt.new — визуализирует CJM и собирает первый прототип

  3. GitHub + Codex — превращают интерфейсы в код и валидируют логику (не удалось внедрить из-за ограниченного контекстного окна)

  4. tldv; — записывает и логгирует встречи со стейкхолдерами и командой

В итоге discovery превращается из цепочки встреч в цикл общения с GPT

Результат

  • Цикл discovery сократился до 2-3 дней, иногда — 1

  • Трудозатраты продуктов и дизайнеров снизились в разы, иногда — без дизайна

  • Стоимость на команду — около 190 $/мес (tldv + bolt.new + chatgpt)

  • Качество артефактов стабильно, при условии нормальных вводных

  • Возможность полного отказа от дизайна в ряде кейсов (Bolt)

Что не заработало

  • Bolt ограничен по объёму токенов, не подходит для сложных интерфейсов

  • Вводные без контекста ломают качество генерации

  • Для больших проектов пока не хватает контекстного окна и нужно предварительное упрощение проекта

  • Часть сценариев по-прежнему требует ручной доводки.

Бизнес-эффект

  • Time-to-Market резко снижается

  • Высвобождение продуктовых и дизайнерских ресурсов

  • Формализованный discovery-процесс, готовый к стандартизации

Автоматизация discovery жизнеспособна. Большая часть процесса может быть выполнена GPT с минимальным участием людей. Проект завершился на ручном приводе — но подтвердил, что конвейер от идеи до интерфейса за сутки реален. Дальше — вопрос масштаба и доверия к машине.

Теги:
Всего голосов 2: ↑0 и ↓2-2
Комментарии0

Представлен полный курс по Sora 2 от OpenAI, включая официальный гайд по промптам и созданию сцен с помощью нейросети: аниме, документалки, интервью с любыми персонажами, настройка камеры, света и генерация осмысленных диалогов.

Чем короче промпты — тем больше свободы у нейронки. Так вы дадите ИИ творческую свободу. Пример: In a 90s documentary-style interview, an old Swedish man sits in a study and says, "I still remember when I was young."

Настраиваем формат видео.

  • Format & Look: Duration 4s

  • 180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave.

Выставляем свет и создаём атмосферу:

  • Lighting & Atmosphere

  • Natural sunlight from camera left, low angle (07:30 AM).

  • Bounce: 4×4 ultrabounce silver from trackside.

  • Negative fill from opposite wall.

  • Practical: sodium platform lights on dim fade.

  • Atmos: gentle mist; train exhaust drift through light beam.

«Подбираем» камеру для съёмки. Увеличиваем или уменьшаем фокус, корректируем передний и задний планы:

  • Camera shot: wide shot, low angle

  • Depth of field: shallow (sharp on subject, blurred background)

  • Lighting + palette: warm backlight with soft rim

Ведём себя как настоящий режиссёр и контролируем, задаём игру актёров: Actor takes four steps to the window, pauses, and pulls the curtain in the final second.

[Описание сцены прозой простым языком. Опиши персонажей, костюмы, декорации, погоду и другие детали. Будь как можно более описательным, чтобы видео соответствовало твоему замыслу.]
Кинематография:
Кадр камеры: [композиция и угол съёмки, например: широкий план, уровень глаз]
Настроение: [общий тон, например: кинематографично и напряжённо, игриво и тревожно, роскошное ожидание]
Действия:
- [Действие 1: чёткое, конкретное движение или жест]
- [Действие 2: ещё один отдельный момент в клипе]
- [Действие 3: другое действие или реплика]
Диалоги:
[Если в кадре есть диалог, добавь короткие естественные реплики здесь или в списке действий. Делай их короткими, чтобы они уместились в длину клипа.]

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Вышел бесплатный курс Agentic AI по проектированию ИИ-агентов от создателя Cursor Эндрю Ына. В рамках проекта рассказывается как автоматизировать любые задачи и создать собственного помощника для исследований. Курс построили по последним разработкам в области, включая четыре паттерна дизайна агентов (Reflection — анализ ответов нейросетей и их улучшение, Tool Use — использование инструментов моделью, Planning — декомпозиция задач и Multy-agent Collaboration — создание целой команды ИИ-агентов), акцент на анализе ошибок и оценке ответов нейропомощников — без них не построить эффективные инструменты автоматизации.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

«Сегодня переписал всю нашу документацию с помощью ИИ, предоставив доступ к нашей кодовой базе. Сделано 250 коммитов в 58 файлах. Работа выполнена отлично», — рассказал основатель SiteGPT.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии2

Байесовские А/Б-тесты: конверсии

Теги:
Рейтинг0
Комментарии0

OpenAI представила AgentKit — комплексную платформу для разработки ИИ-агентов

На конференции DevDay 2025 OpenAI анонсировала AgentKit — набор инструментов для создания, развертывания и оптимизации ИИ-агентов с визуальным интерфейсом на основе узлов. Платформа объединяет Agent Builder, ChatKit, Evals и Connector Registry в единую экосистему разработки.

Архитектура платформы

AgentKit предоставляет полный стек для перехода агентов от прототипа к продакшену. Платформа поддерживает как визуальную разработку через drag-and-drop интерфейс, так и code-first подход через Responses API.

Основные компоненты:

  • Agent Builder — визуальный canvas для создания логики агентов

  • ChatKit — встраиваемый UI-тулкит для чата с агентами

  • Evals — инструменты оценки производительности агентов

  • Connector Registry — корпоративный реестр готовых коннекторов

Agent Builder

Визуальный интерфейс Agent Builder работает как n8n или Zapier, предоставляя drag-and-drop узлы для композиции рабочих процессов. Система поддерживает версионирование, preview-запуски и встроенную конфигурацию эвалюаций.

Возможности Builder:

  • Визуальное создание мультиагентных воркфлоу

  • Подключение инструментов и настройка guardrails

  • Полное версионирование для итерации

  • Встроенная конфигурация оценок

  • Быстрое прототипирование без кода

Интерфейс позволяет разработчикам быстро тестировать идеи и переходить к продакшн-версиям без переписывания архитектуры.

ChatKit для интерфейса

ChatKit предоставляет готовый UI для взаимодействия с агентами через чат. Компонент встраивается в существующие приложения и поддерживает выполнение агентских узлов через диалоговый интерфейс.

Toolkit обеспечивает консистентный UX для агентских взаимодействий без необходимости разрабатывать интерфейс с нуля.

Система оценки Evals

Расширенная система Evals интегрирована напрямую в workflow разработки. Инструменты позволяют оценивать производительность агентов, управлять датасетами и отслеживать метрики качества.

Функции Evals:

  • Автоматическое тестирование агентов

  • Управление тестовыми датасетами

  • Отслеживание производительности

  • Inline-конфигурация оценок в Builder

Connector Registry

Корпоративный реестр коннекторов предоставляет готовые интеграции для расширения возможностей агентов. Компоненты можно использовать как building blocks для быстрой сборки сложных воркфлоу.

Registry включает предварительно настроенные коннекторы к популярным сервисам и API, снижая время разработки интеграций.

Конкурентная позиция

AgentKit конкурирует с платформами вроде Zapier и n8n, но фокусируется на ИИ-агентах с использованием моделей OpenAI. Интеграция всего стека в единую платформу — ключевое преимущество.

Отличия от конкурентов:

  • Zapier/n8n — автоматизация без ИИ-агентов

  • LangChain — фреймворк для кода, без визуального интерфейса

  • AgentKit — полный стек от UI до деплоя

Доступность

Платформа доступна через OpenAI Platform для разработчиков и корпоративных клиентов. Agent Builder находится по адресу platform.openai.com/agent-builder.

Сэм Альтман отметил, что AgentKit снижает трение при переходе от прототипа к продакшену и предоставляет всё необходимое для оптимизации агентских воркфлоу.

Если материал был полезен, поставьте, пожалуйста, плюс — мы стараемся выбирать для вас только самые актуальные и интересные новости из мира ИИ.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

Обучение операторов: из стажёра в боевого за день

Мы провели эксперимент и убедились — классическое обучение можно не заменять, а ускорять

Зачем

Обычно оператор идёт по стандартному пути: неделя обучения, неделя адаптации, потом первые смены под контролем. Медленно. Мы проверили: можно ли сделать так, чтобы новичок уже в первую смену закрывал диалоги — и не наугад, а качественно.

Что сделали

  • Построили систему дообучения операторов на базе ChatGPT plugins.

  • Каждый плагин — типовой кейс: от «где мой заказ» до «верните деньги, но я без чека».

  • Оператор учится на примерах прямо в GPT, разбирает реальные кейсы, видит ответы и объяснения.

  • 60–70 плагинов под самые типовые ситуации

Результат

  • Кол-во закрытых диалогов у новичков в первую смену выросло в 3 раза

  • Качество ответов не просело

  • Обучение стало дополнением к классике — не конкурирует, а усиливает

  • 4 куратора на группу из 30 человек

  • 7 аккаутов на ChatGPT по 30$

Что не заработало

  • Без базовой теории GPT не спасёт: нужен фундамент

  • Не все операторы готовы «учиться у машины»

  • Некоторые кейсы требуют тонкости, где GPT пока слабее человека

  • Проблема с оплатами в ChatGPT из-за отсутсвия доступа к Enterprise плану у GPT (они не дают и 60$+ за человека), а на team плане — плохая управляемость доступами

Бизнес-эффект

  • Быстрее вводим операторов в строй с увеличением в 3 раза закрываемых диалогов в первой смене

  • Стандартизируем ответы и сценарии

  • GPT-тренинг не заменяет академию — он её ускоряет

  • Операторы выходят в смену не «на авось», а уже с руками, натренированными на кейсах

  • Дальше — масштабирование и тонкая настройка под каналы и сегменты

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Как «Пятерочка» сэкономила четверть бюджета на рекламу, использовав AI-дублера Ольги Медынич 👩🎥

Что за компания

«Пятерочка» — крупнейшая российская сеть продовольственных магазинов «у дома», входит в состав компании X5 Retail Group. Объединяет более 20 тысяч магазинов в 69 регионах России.

Какая была задача

Ритейлер запланировал продвигать сыры своей марки Liebendorf, а еще — сократить расходы на рекламу. Важная задача заключалась в том, чтобы успеть сделать запуск до конца года — так, чтобы завоевать доверие покупателей, и уже в Новый год сыры Liebendorf оказались на столах россиян. При этом декабрь — загруженный сезон для съемочных студий и знаменитостей, и в связи с плотным графиком сложно найти у селебрети слот для съемок.

Как ее решили

В Cloud.ru предложили нестандартное решение: приобрести у Ольги Медынич права на использование ее образа, а вместо живых съемок использовать цифровой двойник актрисы. AI-двойника создали на базе платформы Evolution AI Factory, а над AI-образом актрисы работали специалисты института искусственного интеллекта AIRI.

За основу взяли open source модель DeepFaceLab: доработали ее под задачи «Пятерочки», дообучили на общедоступных изображениях Ольги Медынич, а после съемок заменили лицо дублера на лицо актрисы.

Что в результате

«Пятерочка» сэкономила четверть бюджета, заложенного на привлечение знаменитости. Подготовка к съемкам заняла неделю — при том, что обычно подготовка к производству рекламы с участием звезд занимает около месяца.

Читайте полный кейс, чтобы узнать детали и увидеть результат — тот самый рекламный ролик, для которого использовали дипфейк 🤖

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии6

Zhipu AI выпустила GLM-4.6 с контекстом 200K токенов и производительностью уровня Claude Sonnet 4

Китайская компания Zhipu AI (Z.ai) представила GLM-4.6 — обновленную версию флагманской модели с расширенным контекстом до 200K токенов и улучшенными способностями в программировании, рассуждениях и агентских задачах. Модель показывает паритет с Claude Sonnet 4 при снижении потребления токенов на 15%.

Технические улучшения

GLM-4.6 построена на архитектуре предшественника GLM-4.5 с существенными оптимизациями обработки длинного контекста и генерации кода. Модель тестировалась на восьми публичных бенчмарках, покрывающих агентов, рассуждения и программирование.

Ключевые характеристики:

  • Контекст расширен со 128K до 200K токенов

  • Улучшенная генерация фронтенд-кода

  • Многошаговые рассуждения с использованием инструментов

  • Интеграция в поисковые и инструментальные фреймворки

  • Снижение потребления токенов на 15% относительно GLM-4.5

Результаты бенчмарков

На LiveCodeBench v6 модель набрала 82.8 балла против 63.3 у GLM-4.5 — существенный прирост. Claude Sonnet 4 лидирует с 84.5, но разрыв минимальный. На SWE-bench Verified GLM-4.6 показала 68.0 против 64.2 у предшественника.

Производительность в бенчмарках:

  • LiveCodeBench v6: 82.8 (GLM-4.5: 63.3, Claude Sonnet 4: 84.5)

  • SWE-bench Verified: 68.0 (GLM-4.5: 64.2)

  • CC-Bench: 48.6% win rate против Claude Sonnet 4

  • Снижение токенов: 15% относительно GLM-4.5

Компания расширила CC-Bench более сложными задачами, где человеческие оценщики работали с моделями в изолированных Docker-контейнерах, выполняя многошаговые реальные задачи от фронтенд-разработки до анализа данных.

Практическое применение

GLM-4.6 интегрирована в популярные агенты кодирования: Claude Code, Kilo Code, Roo Code, Cline. Модель доступна через Z.ai API platform и OpenRouter для разработчиков.

Для программирования:

  • Генерация фронтенд-компонентов с логичной структурой

  • Создание инструментов и автоматизация

  • Анализ данных и тестирование

  • Алгоритмические задачи

Ценообразование и доступность

GLM Coding Plan предлагает производительность уровня Claude по цене в 7 раз ниже с троекратной квотой использования. Модель доступна через веб-интерфейс chat.z.ai и API.

Варианты доступа:

  • Веб-интерфейс Z.ai с выбором модели GLM-4.6

  • API через Z.ai platform и OpenRouter

  • Локальное развертывание через vLLM и SGLang

  • Веса модели на HuggingFace и ModelScope

Сравнение с конкурентами

GLM-4.6 показывает конкурентоспособность с DeepSeek-V3.2-Exp и Claude Sonnet 4, но отстает от Claude Sonnet 4.5 в программировании. Модель опережает китайские аналоги при использовании на 30% меньше токенов.

Конкурентная позиция:

  • Паритет с Claude Sonnet 4 в реальных задачах

  • Превосходство над китайскими альтернативами

  • Отставание от Claude Sonnet 4.5 в кодинге

  • Токен-эффективность выше на 15-30%

Архитектура и развертывание

Модель поддерживает современные фреймворки инференса для эффективного локального развертывания. Доступны базовая и чат-версии для различных сценариев использования.

Всесторонние инструкции по развертыванию опубликованы в официальном GitHub-репозитории с примерами интеграции и конфигурации.

Оценка реального использования

Компания подчеркивает, что реальный опыт важнее лидербордов. Траектории выполнения задач из CC-Bench опубликованы на HuggingFace для исследований сообщества, обеспечивая прозрачность оценки.

Если материал был полезен, поставьте, пожалуйста, плюс — мы стараемся выбирать для вас только самые актуальные и интересные новости из мира ИИ.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии2

Как мы ушли с Airflow и упростили MLOps

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS. За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Недавно мы полностью пересобрали пайплайны и мигрировали c Airflow на Argo Workflows + Argo CD. Делимся подробностями!

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows
Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании...
habr.com

Почему Airflow стал мешать?

Airflow отлично подходит для десятков DAG’ов, но на масштабе сотен моделей появляются проблемы: всё усложняется, теряется Kubernetes-нативность, GitOps работает через костыли, а обновления DAG’ов становятся ручным трудом. Версионирование ломается, пайплайны идут десятками минут, и отлаживать их настоящая боль.

Почему Argo Workflows?

Argo — это K8s-native решение, декларативный подход, совместимость с GitOps, простейшее развертывание и минимум лишних компонентов. Для нас это был буквально глоток свежего воздуха. Вместо монолитного Kubeflow — один контроллер, никаких лишних слоёв и масштабируемость из коробки

Подробнее читайте в статье «GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows»

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

xAI анонсировала Grokipedia — ИИ-энциклопедию на основе модели Grok

Компания xAI Илона Маска объявила о разработке Grokipedia — альтернативы Википедии с автоматической коррекцией ошибок через искусственный интеллект. Проект позиционируется как шаг к цели xAI "понять Вселенную" и должен стать open-source платформой с ИИ-модерацией контента.

Технология и архитектура

Grokipedia будет использовать модели Grok от xAI для создания корпуса знаний, аналогичного Википедии. Система применяет синтетические коррекции для переписывания информации из Википедии, книг и других онлайн-источников с автоматической проверкой фактов.

Заявленные возможности:

  • Автоматическая коррекция ошибок через ИИ

  • Проверка точности и фактологичности контента

  • Open-source архитектура

  • Интеграция с моделями Grok для генерации статей

Отличия от Википедии

Основное отличие — использование ИИ для автоматической верификации и коррекции информации вместо краудсорсинговой модели редактирования Википедии. Маск критикует Википедию за предвзятость и позиционирует Grokipedia как более нейтральную альтернативу.

Ключевые преимущества по версии xAI:

  • ИИ-проверка фактов в реальном времени

  • Снижение человеческой предвзятости

  • Более быстрое обновление информации

  • Автоматическое выявление противоречий

Контекст и мотивация

Анонс Grokipedia следует за длительной критикой Маском Википедии, которую он обвиняет в политической предвзятости. Проект вписывается в общую стратегию xAI по созданию альтернатив существующим информационным платформам.

Маск заявил, что Grokipedia — "необходимый шаг к цели xAI понять Вселенную", связывая проект с более широкой миссией компании по развитию общего искусственного интеллекта.

Технические вызовы

Создание ИИ-энциклопедии сталкивается с рядом фундаментальных проблем. Большие языковые модели склонны к галлюцинациям — генерации правдоподобно звучащей, но ложной информации.

Потенциальные проблемы:

  • Галлюцинации ИИ и генерация ложных фактов

  • Сложность верификации автоматически созданного контента

  • Отсутствие прозрачности процесса редактирования

  • Зависимость от качества обучающих данных

Модель управления контентом

Детали управления Grokipedia пока не раскрыты. Непонятно, будет ли сохранена краудсорсинговая модель редактирования или контент будет полностью генерироваться и модерироваться ИИ.

Вопрос прозрачности критичен — Википедия показывает историю правок и обсуждения, что обеспечивает подотчетность. Неясно, как Grokipedia будет решать эту проблему в ИИ-управляемой системе.

Конкуренция и рынок

Grokipedia не первая попытка создать альтернативу Википедии. Существуют Conservapedia, Citizendium и другие проекты, но ни один не достиг сопоставимого охвата и влияния.

Преимущества Википедии:

  • 60+ миллионов статей на 300+ языках

  • Установленное доверие сообщества

  • Прозрачная модель редактирования

  • Некоммерческий статус

Сроки и доступность

Конкретные сроки запуска Grokipedia не объявлены. Маск заявил о разработке проекта в xAI, но детали технической реализации, модели финансирования и планов по выпуску не раскрыты.

Учитывая сложность задачи и амбициозность целей, реализация может занять значительное время и потребовать решения множества технических и этических вопросов.

Теги:
Рейтинг0
Комментарии1

Приложение Sora 2 доступно пока по приглашениям и работает только на устройствах Apple, но видеороликами из него забиты уже все ленты социальных сетей. Хотя это просто очередной генератор видео, OpenAI позиционирует приложение как соперника TikTok в деле разжижения мозгов и уничтожения способности удерживать внимание. Разница лишь в том, что контент создаёт генеративная нейросеть на основе промптов пользователей. Бесполезно проводить время предлагается за просмотром шлака от ИИ.

Заявляется, что относительно первой версии модель Sora 2 значительно более продвинутая. Это очевидно даже по описанию технических характеристик: Sora 2 генерирует 10-секундные клипы с синхронизированной аудиодорожкой, в то время как первая итерация модели умела создавать только видеоряд. Клипы могут быть ремиксом или начинаться со статичного изображения, а особую популярность снискала функция камео.

На практике это означает, что все ленты сейчас заполнены Сэмом Альтманом, ворующим игровые видеокарты из магазинов электроники. Ну а чего вы хотели? Фантазии у первопроходцев мало, да и его лицо в редакторе — это одно из предлагаемых. В лучшем случае он будет ползать по полу офиса OpenAI в кигуруми кота и истошно мяукать.

На самом деле интересные бенчмарки всё же придумывают. К примеру, как показывает Кристофер Фрайант, Sora 2 выдаёт отлично выглядящие 10-секундные клипы геймплея любой популярной видеоигры. Многие хвалят Sora 2 за отличное понимание физики.

Как утверждает дата-саентист из Meta¹ Колин Фрейзер, не всё так однозначно. У себя в микроблоге он показал несколько примеров откровенных косяков Sora 2. Ниже представлена склейка шести из них.

Здесь опробованы разные промпты. Чаще всего они связаны с отделением одного объекта от другого или их совмещением в единое целое. Как показал скептик, с взаимодействием объектов в кадре у Sora 2 откровенно туго:

  1. Вылезающий из автомобиля человек. В ответ на промпт Фрейзера модель зажимает ногу человека дверью.

  2. Прыгающий через обруч пёс никуда не прыгает.

  3. Пиво ведёт себя как желе, у бармена с пальцами случилась каляка-маляка.

  4. Кстати, попытки упростить промпт про вылезание из машины ничего хорошего не приносят.

  5. Даже когда Колин явно задал в промпте состояние стакана, сосуд с апельсиновым соком опустошён до дна не был — уровень жидкости даже не изменился.

  6. Ну и задувание свечей всё так же на реальность не походит.

Твиты Фрейзера вызвали резко негативную реакцию. У себя в микроблоге он пожаловался, что люди в ответ на поиск изъянов начинают злиться. Колин не понимает, почему многие настолько эмоционально инвестированы в какое-то приложение для генерации и листания видеороликов.

(1) Холдинговая компания Meta — экстремистская организация, её деятельность запрещена.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Разбираю статью про обучение с подкрплением для самых маленьких и генерацию ответов

Все мы знаем, что большие модели любят учиться на готовых ответах. Но, угадай что? Готовых ответов у нас нет. Они либо дорогие, либо спорные, либо вообще непонятно какие. Представь, что у тебя есть только ты сам, твои черновики и пара свободных вечеров. Ну что, будем учиться на своих же косяках?

Вот для этого придумали Compute as Teacher (CaT). Работает оно так:

  1. Пользователь кидает запрос. Ну там: «объясни квантовую физику бабушке».

  2. Модель честно пишет сразу несколько версий ответа. Каждая по-своему кривая, но иногда попадаются удачные куски.

  3. Другая копия этой же модели собирает из них «лучший хит» — вроде плейлиста «самое ок» из твоих старых песен.

  4. Потом мы сравниваем все черновики с этим «финальным шедевром» и решаем: «ага, вот это было ближе, а это лучше забыть как страшный сон».

  5. Модель сама делает выводы и в следующий раз уже тупит чуть меньше.

В итоге получается странная штука: модель учится без учителя, проверяя сама себя. Как если бы школьник писал 5 вариантов решения задачи, потом сам делал «сборку Франкенштейна» из них, и именно её принимал за эталон. А дальше наказывает себя за плохие черновики и хвалит за удачные.

И что самое весёлое — это реально работает. Без людей, без правильных ответов, без пафоса. Просто куча вычислений, которые модель тратит на то, чтобы спорить сама с собой и становиться чуть умнее.

Если коротко: CaT — это как спорить с самим собой в душе, только полезно

Ссылка на статью у меня в блоге, потому что у меня карма маленькая и тут я не могу всё опубликовать

—————

Менеджер? Давай сюда!
Ищи работу здесь
Технологии и архитектура

Теги:
Всего голосов 3: ↑0 и ↓3-3
Комментарии0

Вклад авторов