Open source-экосистемы: как Группа Т-Технологии развивает AI/ML-решения / Хабр

Делюсь разговором с AI/ML-командой Группы Т-Технологии. Это — Анатолий Потапов @anatolii-potapov, который руководит группой фундаментальных технологий LLM, и Даниил Гаврилов, возглавляющий исследования в AI. Получился подробный разбор того, чем занимается AI/ML-команда и Группа в целом в рамках данного направления.

На фото: Анатолий Потапов, руководитель группы фундаментальных технологий LLM в Т (изображение предоставлено специалистами компании)

Расскажите, пожалуйста, коротко о своей профессиональной экспертизе.

Анатолий Потапов (далее — «АП»): Я руковожу группой фундаментальных технологий LLM. Это — несколько команд, которые отвечают за весь цикл дообучения LLM. Моя команда в том числе делает проекты для наших внутренних продуктов и моделей (в частности, внутреннего промптинга, саппорта и различных LLM-агентов) и open source проекты. Я в компании достаточно долго — больше 7 лет. До этого занимался customer-саппортом — пониманием намерений пользователя в наших ботах поддержки.

Даниил Гаврилов (далее — «ДГ»): Я руковожу исследованиями в AI. Пишем научные статьи по разным топикам. Если коротко рассказать про мой путь, то я окончил СПбГУ по специальности «прикладная математика и информатика». Потом какое-то время работал в научно-инженерной команде VK, где занимался обработкой естественного языка (NLP). После этого был старшим инженером-исследователем в компании Replika. И в 2021 году перешел в исследовательский отдел Т-Банка, где спустя три года возглавил лабораторию научных исследований искусственного интеллекта.

Стоит отметить активность Группы Т-Технологии в области AI/ML — например, в прошлом году на Хабре появилось сразу несколько материалов о ваших открытых языковых моделях (T-Pro 2.0 и T-one). Расскажите, как вы начали развивать это направление? Какие цели ставили на первых порах? Сами решили экспериментировать в открытом формате или это стратегия руководства?

АП: В Т open source существует давно. Но с появлением открытых AI-проектов началась новая глава этой истории, и как будто бы она стала у нас более заметной. Мы в AI-центре в эту гонку активно вступили — задались вопросом разработки LLM-технологий в контексте появления ChatGPT как большого продукта. T-Pro 2.0 и T-One — это уже наш третий большой релиз. И мы выпускаем не только модели, но и библиотеки, а также открытые дата сеты.

Базовые LLM-технологии нужны нам, чтобы развивать собственные продукты и иметь возможность проходить все этапы кастомизации в контексте таких технологий. В этом плане первые релизы нашей большой языковой модели T-lite и библиотеки инструментов для обучения больших языковых моделей Turbo Alignment стали для нас своего рода манифестом того, что мы смогли сделать шаг в сторону собственных базовых решений и валидировать данную стратегию. За счет такой пробы пера мы как компания закрепили для себя, что это направление действительно значимо.

Наши релизы — это инициативы самих команд, которые поддерживает и топ-менеджмент компании. Что сильно радует и мотивирует, конечно. Изначально мы в команде не ставили цели получить какие-то плюшки от этой активности. Мы просто хотели поделиться своими наработками с инженерным сообществом. Но после первых релизов мы увидели, что это позитивно влияет и на технобренд, и даже на найм крутых спецов — стало сильно больше входящих откликов в наши ML-команды.

ДГ: Мы в исследованиях тоже с самого начала жили в open source-формате. Потому что не очень понятно, как мы можем это делать иначе. Это в большей степени вопрос необходимости: если мы делаем исследования, то они обязаны быть открытыми, воспроизводимыми и так далее. Поэтому так изначально мы и работаем.

АП: В сфере AI достаточно сильна культура открытости, поскольку эта тема сильно завязана на исследования. Инженерная часть отрасли во многом полагается на открытые модели, датасеты, репозитории и статьи. Это также влияет и на наш подход.

Получается, такая bottom-up инициатива, встроенная в общее развитие компании?

ДГ: Да, топ менеджмент понимает, как развиваются технологии ИИ и понимает необходимость контрибьюта. Это определенные расходы, но мы на них смотрим как на инвестицию в развитие инженерного комьюнити, что важно и ценно для нас.

АП: Мотивация команды после первого релиза сильно выросла, делать такие проекты очень интересно. Мы с кайфом выделяем на них все наше личное время. Да, с ресурсами нам помогает компания. Но время мы стараемся находить на эти проекты так, чтобы и бизнесовые задачи решить, и чтобы открытую модель выложить.

Для всех нас важно быть полезными индустрии. В этом и была, наверное, основная наша идея. Потому что на самом деле не каждая компания может заниматься глубоким дообучением LLM. Большинство российских игроков пытаются окупать это продажей моделей, допустим, в B2B-формате или через свои продукты. Мы же в своё время стояли перед выбором места в этой истории. С одной стороны, мы достаточно большие, а с другой — пока не участвуем в этой гонке с продажей API своих моделей.

Однако сама их разработка уже окупилась за счет роста эффективности операционных процессов. Поэтому для нас в какой-то момент стало очевидным решением поделиться этим — дать пользу сообществу и менее крупным игрокам, которые смогут переиспользовать те решения, которые мы делаем.

У вас есть и другие открытые технологии (помимо языковых моделей). Это — решения для работы над LLM, аналитики и прогнозирования временных рядов. Какую роль такого рода решения играют в развитии других продуктов?

АП: Например, у нас есть библиотека Turbo Alignment для обучения LLM. Кроме этого, мы выложили несколько бенчмарков, а также начали делиться датасетами — опубликовали синтетический кросс-доменный датасет для исследований в области рекомендательных систем. В целом мы смотрим разные варианты того, чем можем делиться. В рамках исследований много чего выкладываем, здесь лучше Даня уточнит.

То, что мы выкладываем (ReBased, CORL, Headless-AD и проч.), необходимо для подкрепления исследований, чтобы они были воспроизводимы. Часто выкладываем сопутствующие инструменты и исходники, которые — как мы считаем — полезны для сообщества. Условно говоря, кернелы для обучения чего-то, которые мы написали и используем. Они идут как часть нашего научного вклада и выходят в open source.

Даниил Гаврилов

возглавляет исследования в AI в Т

АП: В частности, Turbo Alignment, который в своё время был написан в коллаборации нашей и исследовательской команды, стал востребованным и активно используемым инструментом файнтюнинга LLM на продуктовые задачи внутри компании. Часто бывает, что такие инструменты становятся очень востребованными внутри организации и вне её, становясь переиспользуемым «кубиком», который пишется один раз и потом приносит много пользы в разных местах. Исследования работают примерно аналогично и также обладают подобными свойствами. Кроме того, с точки зрения развития данной области в целом — решения распространяются и развиваются лучше в открытом формате.

Считаете ли вы, что исследования это — своего рода этап вывода решений в продакшен? Или это несколько иначе работает?

ДГ: У нас устроено это так: есть научная лаба, которая занимается фундаментальными исследованиями (этой лабой я, собственно, и руковожу) и есть RnD-центр, который занимается прикладными исследованиями, заказчиками которых выступают наши бизнес-линии. И вот эти два направления – разные. Это необходимо в силу того, что многие AI-технологии, которыми мы занимаемся, было бы сложно развивать, концентрируясь только на определенном продукте. Такой подход задает иные рамки планирования — он редко подразумевает какие-то сильно долгосрочные планы. Но если мы хотим делать действительно передовые технологии, то нам необходимо заниматься ими с позиции исследований. А именно — с определенным долгосрочными видением того, что мы пытаемся построить. Научные публикации — это своего рода форма демонстрации или «заземления» промежуточного прогресса в этом направлении.

Параллельно могут идти иные активности, потому что у нас есть другие команды, которые вносят свой вклад. В RnD-центре команды собирают решения и продукты из того, что актуально прямо сейчас, по ходу дела появляются и исследования на основе таких экспериментов, когда команда понимает, что получился убедительный результат, чтобы это опубликовать как научную работу. Такие статьи тоже публикуются.

АП: Это позволяет нам развивать в компании сообщество, которое становится центром притяжения, к которому приходят более продуктовые и прикладные инженеры. В такой среде могут появляться совместные проекты в более прикладном русле.

ДГ: Да, при этом первичный вопрос с позиции исследований состоит в том, чем мы занимаемся и что на основе этого возможно в перспективе. Кстати, сами статьи мы стараемся делать понятными и интересными в том числе практикам. Не любые статьи могут быть им интересны, но мы стараемся писать именно такие.

Получается, что исследования и научные публикации можно отнести к своего рода «обучению аудитории» по аналогии с техническими книгами и руководствами? Как считаете, такой подход с исследовательской активностью характерен только для крупных организаций и экосистем, у которых нет проблем с ресурсами?

Мы часто используем свои модели и инструментарий не только в академии, но и, например, при работе на выездных мероприятиях, допустим, в Сириусе. Там менторы проводят занятия на примере наших решений, что позволяет, в том числе, потом получать стажёров, которые уже хорошо знают наши технологии. Плюс — по мере того, как наши решения расходятся по сообществу, мы чаще встречаем людей, которые приходят к нам работать и знакомы с нашим стеком. Еще мы видим обратную связь от компаний и энтузиастов, которые пробуют использовать наши модели и инструментарии. Это нам позволяет развиваться.

Анатолий Потапов

руководит группой фундаментальных технологий LLM в Т

ДГ: Это объёмный вопрос. В целом такой спектр активностей в контексте открытых проектов доступен, конечно же, крупным организациям в силу требований к ресурсам.

Научные конференции категории А* нужны как часть работы — для валидации определенных результатов наших исследований — как часть жизненного цикла проектов. При этом есть большое количество других активностей, которые несут ценность с точки зрения продвижения нашей экспертизы. В той или ной степени это сводится к развитию сообществ и образовательным активностям. Например, мы читаем курсы в университете для студентов, потому что мы понимаем — это ребята, с которыми мы в будущем будем работать и развивать эту область в России. С точки зрения «обучения аудитории» мы стремимся к некоему поднятию уровня нашей области в целом. Это очень важно в open source, причем, конечно же, не только в AI. Мы можем выложить научную работу и тем самым дать знания людям, которые занимаются технологиями или исследованиями, чтобы они развивали свои навыки и проекты на основе этого. Так мы вместе толкаем нашу сферу деятельности вперёд.

АП: Сейчас в области практических решений стало меньше прозрачности. Трейнинг-репорты больших языковых моделей в 2025 году выглядят скорее как whitepaper или способ похвалиться, чем как какой-то рецепт, который можно воспроизвести. В свою очередь, мы выкладываем достаточно подробные тренинг репорты вместе со своими моделями, в частности, на хабре или на других площадках. Мы стараемся поделиться проблемами и нюансами: как именно мы делали, какие проблемы были, к чему мы пришли. И мы получаем обратную связь, что в целом это все и на других крупных игроков влияет в том плане, что все внимательно читают и используют наши выводы. Так мы можем в целом повлиять вообще на то, каким путём в индустрии развивается сообщество и сама сфера нашей деятельности.

Помимо научных публикаций — как еще вы взаимодействуете с аудиторией потенциальных участников открытых проектов и аудиторией пользователей?

АП: Каждый релиз мы стремимся сопровождать подробным трейнинг-репортом и рассказывать, что удается и не удается укладывать в такие репорты. Также ведем аккаунт на Hugging Face. Делаем доклады, спикерим на крупных конференциях, участвуем в выездных лекциях и мастер-классах для школьников и студентов, где используется наш инструментарий. Еще есть внутренние активности. Короче говоря, стараемся на 360 градусов работать.

На фото: Даниил Гаврилов, руководитель исследований в AI в Т (изображение предоставлено специалистами компании)

Можно ли говорить о том, что ваш AI-центр фактически является своего рода open source program-офисом и координирует открытые AI-проекты компании?

АП: Возможно, пока да. Но мы как-то специально не думали над этим. У нас часто решения идут снизу. Как минимум предложения относительно того, что мы можем сделать, какие артефакты выложить, чем поделиться с комьюнити. Идеи часто идут от команд, которые владеют экспертизой и пониманием того, что в моменте может быть полезно сообществу. Да, на уровне AI-центра или на более высоком уровне происходит валидация и согласование таких предложений в зависимости от ситуации.

ДГ: Такие структуры уникальны от компании к компании. У нас ситуативный подход. И часто мы в команде сами формируем план и стратегию развития именно исследовательских работ.

АП: Конечно же, у нас есть и внутренние цели, которые связаны с развитием продуктов и технологий внутри компании. В результате этого получаются различные внутренние артефакты, которые могут быть интересны сообществу, мы этим можем поделиться и нам может быть интересна обратная связь, например, и другие возможности в open source. В какой-то момент мы понимаем, что мы можем чем-то поделиться, готовим и согласовываем это.

Какие обычно вы выбираете лицензии для исследовательских инструментов и открытых AI-проектов? Критичен ли для вас выбор таких «правил игры»?

АП: Мне кажется, наше уникальное положение относительно других российских бигтехов состоит в том, что мы изначально не пытались ограничить использование своих open source-артефактов другими игроками, в том числе в коммерческих целях. Обычно мы используем максимально пермиссивные лицензии вроде Аpache 2.0 или MIT.

ДГ: С точки зрения исследований, такой подход обусловлен тем, что практические исследования — как мы считаем — обязаны быть открытыми и воспроизводимыми. Поэтому здесь также часто используем Аpache 2.0.

Принимают ли участие в развитии ваших открытых проектов другие организации (не только индивидуальные контрибьютеры) или пока нет такой практики?

АП: У нас основные вещи всё-таки происходят внутри и исключительно во внутренней команде. Тут есть разные аспекты. Во-первых, мы часто дорабатываем открытые датасеты для своих нужд — используем открытые артефакты для производства своих внутренних результатов. Во-вторых, есть всякие коллаборации – например, с Альянсом в сфере искусственного интеллекта, где мы совместно делаем какие-то бенчмарки. Там вклад в общий результат вносят разные компании. Также мы взаимодействуем с другими российскими проектами, где можем обмениваться опытом, валидировать результаты друг друга. Основная работа, конечно, делается внутри, но на периферии также есть важные коллаборации.

Как вы оцениваете, что дает открытый подход вашему AI-Центру и экосистеме в целом? Какие у вас есть цели в этом отношении?

АП: Хочется чувствовать, что мы влияем на индустрию и помогаем другим игрокам внедрять новые технологии и создавать классные продукты. Совокупно наши базовые модели были скачаны с Hugging Face более 220 тыс. раз. Сейчас прибавляется примерно по 20 тыс. новых скачиваний в месяц. Это свидетельствует о том, что большое количество игроков на рынке так или иначе используют наши решения. Еще мы получаем от конкретных компаний обратную связь по нашим моделям, что нам дополнительно позволяет понимать их сильные и слабые стороны, приоритизировать внутри какие-то треки и наш R&D-процесс. Open source еще и классно работает на бренд команды и компании. Мы показываем, что мы — компания, которая действительно является технологическим лидером, может производить артефакты и исследования определенного уровня. Это позитивно влияет на привлечение классных инженеров, которые выбирают нас во многом по такого уровня решениям.

Я ориентируюсь на то, насколько нам удается привлекать квалифицированных специалистов, и как наши работы расходятся в сообществе, в том числе за рубежом. Как на наши работы реагирует международное сообщество.

Даниил Гаврилов

возглавляет исследования в AI в Т

Важно понимать, что тут дело не только в непосредственно открытом коде. На самом деле это все — системная работа с сообществом. Очень многие, кажется, её недооценивают. Когда мы только начинали заниматься исследованиями, мы искали студентов к нам в команды. И тогда было по паре заявок буквально. Сейчас у нас сотни заявок, и это — совершенно иная ситуация. Поэтому, все эти активности в комплексе с нашей работой важны и позволяют нам добиваться больших успехов в нескольких направлениях.

Анатолий Потапов

руководит группой фундаментальных технологий LLM в Т