Open Data Science, Москва - Крупнейшее русскоязычное Data Science сообщество / Статьи / Хабр

ПрофильСтатьи193Посты1Новости4Подписчики12K

Reshin 19 фев в 12:34

Почему я стал ИТ-волонтером & Датасет новостей о противоречиях современного общества

Простой

9 мин

9.7K

Блог компании Open Data ScienceNatural Language Processing * IT-компанииКарьера в IT-индустрииПрограммирование *

Ретроспектива

Примерно 6 лет назад мой мир ограничивался работой, личной жизнью и компьютерными играми. Всё шло своим чередом, но в моей голове всё-таки вертелись 2 вопроса: обывательский и профессиональный. Почему цены растут быстрее зарплат? И почему наука в нашей стране «стагнирует», хотя в недавнем прошлом было огромное количество научно-технических достижений? Попытка разобраться через популярные источники привела к когнитивному диссонансу...

+18

averkij 19 фев в 08:09

Как устроен Codex

Простой

20 мин

9.4K

Блог компании Open Data ScienceПрограммирование * Машинное обучение * Искусственный интеллект

Интервью

Перевод

Подробный разбор того, как команда OpenAI Codex создаёт своего кодового агента, как его используют другие команды, как он влияет на инженерные практики создателей ChatGPT и что это может значить для будущего разработки ПО.

Чтобы в этом разобраться, я поговорил с тремя сотрудниками OpenAI:

Тибо Соттио (Thibault Sottiaux) — руководитель Codex.

Шао-Цянь Ма (Shao-Qian (SQ) Mah) — исследователь в команде Codex, обучающий модели, на которых тот работает.

Эмма Тан (Emma Tang) — руководитель data-инфраструктуры; она не входит в команду Codex, но её команда активно им пользуется.

В этом разборе:

Как всё начиналось. От внутреннего эксперимента в конце 2024 года до продукта, которым пользуется больше миллиона разработчиков.

Технологические и архитектурные решения. Почему Rust и open source? Подробно о том, как работает агентный цикл.

Как Codex создаёт сам себя. По оценкам команды, более 90% кода приложения написано самим агентом. А ещё: интересные инженерные практики — как проводят код-ревью, самотестирование Codex и онбординг новых инженеров.

Исследования. Обучение следующей модели с помощью текущей и параллели с разработкой ПО. Запуск eval'ов, A/B-тестирование и внутренний догфудинг (использование сотрудниками собственных наработок в повседневной работе — прим перев.).

Использование Codex в OpenAI. Количество PR стало таким, что традиционный процесс ревью начинает трещать по швам. Мысли команды про то, что с этим делать.

Как меняется разработка ПО в OpenAI. «Правило 30/70», возвращение некоторых инженеров к tab completion и значение «инженерного вкуса».

+21

madrugado 30 янв в 07:00

Курс Natural Language Processing & LLMs — новый сезон

Средний

1 мин

7.5K

Блог компании МТСБлог компании MWS AIБлог компании Open Data ScienceИскусственный интеллектNatural Language Processing *

новый запуск курса начинается 10 февраля

курс включает в себя все базовые технологии от TF-IDF до агентов, про вайб-кодинг тоже поговорим

+28

madrugado 18 сен 2025 в 11:00

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

Средний

8 мин

7.4K

Блог компании Open Data ScienceБлог компании MWS AINatural Language Processing * Программирование * Искусственный интеллект

Всем привет! Пару месяцев Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил MERA CODE — бенчмарк для оценки качества умений написания кода для больших языковых моделей. Инструмент хороший, но есть одна проблема. Все задачи в MERA CODE, как впрочем и в SWE-bench и других бенчмарках подобного назначения , следуют классической парадигме: есть фиксированный обучающий набор данных и, что более важно, фиксированный проверочный набор, которые имеют свойство устаревать. Например, многие из наборов данных для таких бенчмарков собраны из открытых источников типа GitHub. Большие языковые модели, которые мы пытаемся оценивать нашим набором задач, также учатся на GitHub и рано или поздно (и в наше время скорее рано) они во время обучения увидят данные из проверочного множества. Это явление называется контаминацией данных. Из-за этого мы не можем больше быть уверены в том, что оценка способностей моделей является объективной.

Мы думали об этой проблеме, и пришли к выводу, что ее влияние можно минимизировать, если мы будем периодически обновлять проверочное множество. Так родилась идея для нашего нового бенчмарка — SWE-MERA, о котором и пойдет речь в этой статье.

+12

averkij 25 июл 2025 в 09:18

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Средний

12 мин

8.4K

Блог компании СберБлог компании Open Data ScienceМашинное обучение * Open source * Natural Language Processing *

Обзор

С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

Если коротко, RAG — это способ «подкормить» LLM свежими данными: перед генерацией ответа модель получает не только сам вопрос, но и релевантные тексты, найденные внешней поисковой системе или во внутренней базе знаний. Идея звучит просто, но как понять, насколько хорошо это работает? Какие документы действительно помогли модели, а какие запутали её ещё больше? А главное — как сравнить разные RAG-системы между собой по-честному?

Оценка таких систем — нетривиальная задача. С одной стороны, нужно учитывать и качество извлечённых документов, и финальный ответ модели. С другой — важно избегать контаминации: когда модель «угадывает» правильный ответ просто потому, что уже видела его в процессе обучения. Это особенно актуально при использовании статических наборов данных вроде Natural Questions или HotpotQA: они давно «протекли» в открытые датасеты, в том числе для обучения популярных LLM.

+21

balezz 18 июл 2025 в 12:39

RKNN Toolkit2: конвертация моделей и симуляция NPU Rockchip

Средний

8 мин

8.7K

Блог компании Open Data ScienceTensorFlow * Raspberry Pi * Python * Интернет вещей

Туториал

Rockchip — довольно крупная китайская компания, которая разрабатывает микросхемы для ТВ-приставок, смартфонов и планшетов. Мне довелось поработать с одноплатным компьютером Orange Pi 5, оснащенным ARM чипом RK3588 и NPU (neural processing unit) с заявленной производительностью до 6 TOPS.

В этой статье я хочу поделиться своим опытом по конвертации нейросети в формат rknn с помощью библиотеки rknn-toolkit2. Анализ процесса преобразования поможет лучше разобраться с тем, как работает эта платформа. Это полезно как для учебных целей, так и для будущих исследований.

+12

alenusch 18 июл 2025 в 12:18

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

Средний

9 мин

3.6K

Блог компании СберБлог компании Open Data ScienceМашинное обучение *

Кейс

Всем привет! Авторы бенчмарка MERA этим летом не только анонсировали отраслевую ветку — MERA Industrial, но и рады сообщить о расширении проекта на кодовые задачи.

Большие языковые модели (LLM) сегодня умеют не только вести диалог, но и писать код, помогать с документацией и автоматизировать задачи разработчиков. Однако возникает вопрос: «Как мы измеряем качество этих способностей?» Большинство бенчмарков сосредоточены на проверке понимания языка и, частично, на генерации кода. Но насколько такой код применим на практике? Учитываются ли требования, сформулированные на русском? Как модели работают с документацией на других языках, кроме английского? Мультиязычные бенчмарки вроде HumanEval-X, MultiPL-E и mxEval делают шаг в нужную сторону, но по большей части сосредоточены на языках программирования. Связь между кодом и естественным языком, особенно в многоязычном контексте, пока освещена слабо.

Чтобы учесть все эти моменты, мы разработали MERA Code — первый комплексный бенчмарк для оценки больших языковых моделей на реальных прикладных задачах, с которыми сталкивается программист в русскоязычном контексте.

+21

DataWondering 28 мар 2025 в 12:17

Байесовская собака: анализ пёсьего компаса

Средний

23 мин

13K

Блог компании Open Data SciencePython * Визуализация данных *

Туториал

✏️ Победитель Технотекста 7

Ориентируются ли собаки по компасу, когда делают свои грязные дела? Оказывается — да! Если вам интересно, как можно это подтвердить в домашних условиях, используя компас, Байесовскую статистику и собаку (собака не включена), то добро пожаловать под кат.

+52

averkij 3 янв 2025 в 15:02

Создаем воспоминания. Осваиваем FLUX, LoRA и ComfyUI

7 мин

56K

Блог компании Open Data ScienceМашинное обучение * DIY или Сделай самИскусственный интеллектОбработка изображений *

Туториал

Разбираюсь на праздниках с дообучением моделей для генерации изображений. Было интересно, насколько сложно дообучить модель для генерации изображений по тексту в домашних условиях, сколько нужно обучающих данных и как затем генерировать качественные фотографии и иллюстрации.

Чтобы через время не забыть про особенности процесса и как-то его зафиксировать, решил поделиться наработками. Под катом подробности и еще немного фотографий АБССС.

Читать

+60

kseniiakeera 22 дек 2024 в 14:19

Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

6 мин

5.8K

Блог компании Open Data ScienceМашинное обучение * ФизикаИнженерные системы * Научно-популярное

Обзор

✏️ Технотекст 7

Ускорители заряженных частиц — уникальные машины, играющие ключевую роль в фундаментальной науке и прикладных исследованиях. Они помогают заглянуть внутрь материи, создавать новые материалы и лекарства, а также раскрывать тайны Вселенной — от бозона Хиггса до реликтового излучения.

Ускорители заряженных частиц — сложные установки, которые требуют высокой точности работы. Даже небольшое отклонение пучка, сравнимое с долей толщины человеческого волоса, может иметь значение. Чтобы справляться с такими задачами, всё чаще используют методы машинного обучения.

В статье мы расскажем о том, как применяют методов машинного обучения на ускорителях по всему миру. Например, нейронные сети стабилизируют орбиту пучка и оптимизируют параметры ускорителей, обучение с подкреплением используется для управления пучками заряженных частиц в сложных условиях, а байесовская оптимизация помогает решать многокритериальные задачи настройки ускорителей.

+11

stalkermustang 18 сен 2024 в 05:00

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Простой

27 мин

199K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллектБудущее здесьNatural Language Processing *

Обзор

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →

+249

351

stalkermustang 11 сен 2024 в 04:55

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

Средний

30 мин

111K

Блог компании Open Data ScienceМашинное обучение * Научно-популярноеИскусственный интеллектБудущее здесь

Обзор

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества.

Узнать →

+178

maks-sh 15 авг 2024 в 10:55

Как организовать процесс А/В тестирования на коленке

Простой

10 мин

Блог компании Конференции Олега Бунина (Онтико)Блог компании Open Data ScienceБлог компании OkkoАнализ и проектирование систем * Управление продуктом *

Роадмэп

Привет, Хабр!

Меня зовут Максим Шевченко и последние два года я занимаюсь развитием платформы экспериментов в Okko, одном из ведущих онлайн-кинотеатров в России. Наша команда разрабатывает инструменты, которые позволяют продуктовым командам самостоятельно проводить А/В тесты и анализировать их результаты. Мы отвечаем за весь цикл экспериментов – от помощи в дизайне и выдаче пользователям разного опыта до предоставления рекомендаций по принятию решений.

Когда речь заходит об А/В-тестах, первыми в голову приходят статистические методы: различные параметрические или непараметрические критерии и многое другое. Но если взглянуть шире, становится понятно, что статистика – лишь часть экспериментов. Довольно важная часть, но не единственная. В контролируемых онлайн-экспериментах также важны сплитование трафика, удобное управление изменениями пользовательского опыта, обработка данных, дашборды, система мониторинга и многое другое.

В этой статье я поделюсь опытом и результатами организации процесса экспериментов в компании, где нет собственной платформы для экспериментов или она только начинает развиваться. Если в вашей компании есть собственная платформа экспериментов и вы собаку съели на A/B-тестах, я вряд ли смогу вас удивить. Всех остальных интересующихся темой милости прошу под кат.

+22

egorborisov 31 июл 2024 в 21:06

Введение в MLflow

Средний

19 мин

59K

Блог компании Open Data ScienceOpen source * Python * Визуализация данных * Машинное обучение *

Туториал

MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпараметры с помощью optuna, сравнивать модели и выбирать лучшие параметры. Также рассмотрим логирование моделей, использование их в разных форматах, упаковку проекта в MLproject и установку удаленного Tracking Server MLflow.

+15

yorko 16 июл 2024 в 09:11

В 48 собесах от оффера в Гугл

Средний

21 мин

35K

Блог компании Open Data ScienceData Mining * Машинное обучение * Карьера в IT-индустрииNatural Language Processing *

Обзор

Здравствуй, хабр! Что-то я давно не писал, отбился от рук, а ведь когда-то мы целый курс машинного обучения на Хабре вели. Расскажу про свой недавний заход по собесам, что спрашивали, какие выводы сделал. Контекст: Applied Machine Learning science (в том числе этот ваш Generative AI), Нидерланды, уровень синьор+. Я долго получал отказы, старался не унывать и в конце таки нашил лычку Staff GenAI Field Solutions Architect в Google Cloud. Тут поделюсь статистикой собесов, полезными ресурсами и, конечно, всякими советами.

+66

EddyLan 15 мая 2024 в 08:09

ChatGPT + YandexGPT API = ЛЮБОФ. Часть 1

Средний

17 мин

21K

Блог компании Open Data SciencePython * Программирование * Управление разработкой * Искусственный интеллект

Туториал

Сказ о том, как мы, дата-сайентист и аналитик данных, на троих с ChatGPT, без программиста и девопса, создали сервис пересказа новостей TechMix с текстом и озвучкой. ChatGPT писал код, а мы ему только поддакивали.

Авторы: Эдуард Ланчев, Илья Кузнецов, ChatGPT

+18

stalkermustang 18 дек 2023 в 14:28

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Средний

21 мин

130K

Блог компании Open Data ScienceБудущее здесьИскусственный интеллектМатематика * Natural Language Processing *

Обзор

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →

+171

273

alex_golubev13 4 дек 2023 в 06:51

Кто такие LLM-агенты и что они умеют?

Средний

24 мин

66K

Блог компании Open Data ScienceМашинное обучение * Искусственный интеллект

Обзор

В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными темпами, привлекая внимание не только специалистов в области машинного обучения, но и обычных пользователей. Кто-то высказывает массу опасений насчет их дальнейшего развития, а кто-то и вовсе предлагает бомбить дата-центры — и даже в Белом Доме обсуждают будущее моделей. Но неужели текстом можно кому-то навредить? А что если такая модель приобрела бы агентность, смогла создать себе физическую оболочку и полностью ей управлять? Ну, это какая-то фантастика из (не)далёкого будущего, а про агентов нашего времени я расскажу в этой статье. И не переживайте — знание машинного обучения вам не понадобится!

+23

stalkermustang 11 ноя 2023 в 06:57

Главное событие в мире AI: создатель ChatGPT рассказал, в какое будущее он нас всех ведет

Простой

25 мин

102K

Блог компании Open Data ScienceБудущее здесьИскусственный интеллектМашинное обучение *

Обзор

В этой статье мы расскажем вам про самые важные фичи, внедренные за последние полгода в ChatGPT (самую мощную нейросетку в мире), а также обсудим – каким видением будущего поделился Сэм Альтман на прошедшей 7 ноября конференции от OpenAI. Спойлер: они хотят запилить «агентов Смитов», которые смогут самостоятельно взаимодействовать с миром!

Это мы читаем →

+94

104

madrugado 6 сен 2023 в 13:00

Пять книг про NLP, с которых можно начать

Простой

3 мин

25K

Блог компании Open Data ScienceБлог компании MWS AIБлог компании МТСПрофессиональная литература * Natural Language Processing *

Обзор

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

+13

2 3 ...

9 10

Почему я стал ИТ-волонтером & Датасет новостей о противоречиях современного общества

Как устроен Codex

Курс Natural Language Processing & LLMs — новый сезон

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

RKNN Toolkit2: конвертация моделей и симуляция NPU Rockchip

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

Байесовская собака: анализ пёсьего компаса

Создаем воспоминания. Осваиваем FLUX, LoRA и ComfyUI

Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

Как организовать процесс А/В тестирования на коленке

Введение в MLflow

Ближайшие события

В 48 собесах от оффера в Гугл

ChatGPT + YandexGPT API = ЛЮБОФ. Часть 1

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Кто такие LLM-агенты и что они умеют?

Главное событие в мире AI: создатель ChatGPT рассказал, в какое будущее он нас всех ведет

Пять книг про NLP, с которых можно начать

Информация