MTS AI, Москва / Статьи / Хабр

ПрофильСтатьи47Посты2Новости6Подписчики305

Ann_Rodina 1 фев 2024 в 16:05

Дайджест новостей: ИИ для обучения роботов и спящие агенты в LLM

4 мин

1.1K

Блог компании MTS AIИскусственный интеллектМашинное обучение*

Дайджест

Представляем дайджест новостей сферы искусственного интеллекта за первый месяц 2024 года. В этом выпуске вы узнаете, смогли ли ученые победить «спящих агентов» в LLM, способны GPT влиять на человеческий мозг, какую еще методику придумали для самообучения больших моделей и другие интересные исследования.

AlanRobotics 13 дек 2023 в 16:10

LLMClone: как клонировать себя в Telegram

8 мин

18K

Блог компании MTS AIМашинное обучение*Искусственный интеллектNatural Language Processing*

✏️ Технотекст 2023

У меня, как и у многих, довольно много чатов в телеграмме. Иногда просто нет времени (а иногда и не хочется) отвечать на некоторые сообщения. Именно так возникла идея создания виртуального клона. В статье рассматривается простая идея, состоящая в том, чтобы зафайнтюнить языковую модель на личных сообщениях, выгруженных из Telegram-чатов. Возможно, в дальнейшем такой клон сможет общаться за вас

+31

darinka666 2 ноя 2023 в 12:22

Обзор Llemma: новая математическая open-source модель

Средний

6 мин

11K

Блог компании MTS AIИскусственный интеллект

Привет! Меня зовут Дарина, и я занимаюсь фундаментальными исследованиями в MTS AI. Основной фокус нашей работы сейчас — обучение больших языковых моделей, их тестирование и оптимизация.

Сегодня хочу сделать обзор на недавно вышедшую статью LLEMMA: an open language model for mathematics. Расскажу про обучение модели, новый датасет Proof-Pile-2 и в конце сравню ее с ChatGPT и GPT-4 на ЕГЭ заданиях по профильной математике.

+12

kazzand 14 сен 2023 в 17:33

Собираем русскоязычный лонгформер шаг за шагом

8 мин

8.9K

Блог компании MTS AIБлог компании МТСNatural Language Processing*

✏️ Технотекст 2023

Привет, меня зовут Андрей Казначеев, я NLP engineer в компании MTS AI. В этой статье я расскажу, как создал лонгформер для русского языка. Все началось с того, что мне подкинули задачу по классификации длинных диалогов. Тексты длинные, а большинство популярных моделей имеют строгое ограничение по длине входной последовательности. Хотелось сделать решение умнее, чем просто побить текст на куски, однако ничего готового для русского языка не нашел. Тогда я задумался, а так ли сложно сделать свою собственную версию лонгформера под русский язык? Оказалось, совсем не сложно.

+38

AlanRobotics 7 сен 2023 в 11:49

LLaMa vs GigaChat: может ли опенсорсная модель работать лучше LLM с 13 млрд параметрами?

9 мин

12K

Блог компании MTS AIБлог компании МТСNatural Language Processing*Искусственный интеллектМашинное обучение*

Всем привет, меня зовут Алан, я разработчик-исследователь в MTS AI, мы сейчас активно изучаем LLM, тестируя их возможности. В настоящее время в России вышло несколько коммерческих языковых моделей, в том числе GigaChat и YandexGPT, которые хорошо выполняют текстовые задачи. В этой статье показывается, что языковая модель меньшего размера, обученная на открытых данных за несколько часов, показывает сравнительно неплохую, а в некоторых случаях и лучшую производительность относительно больших коммерческих решений. На небольшом количестве примеров мы проверим способность моделей решать простые математические задачи, отвечать на вопрос по заданному контексту, в котором содержатся числа и выполнять простые текстовые инструкции. Затем мы кратко рассмотрим, как и на чем обучалась наша модель.

+11

madrugado 6 сен 2023 в 16:00

Пять книг про NLP, с которых можно начать

Простой

3 мин

19K

Блог компании МТСБлог компании MTS AIБлог компании Open Data ScienceNatural Language Processing*Профессиональная литература*

Обзор

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

+13

Ann_Rodina 15 авг 2023 в 17:56

«За три года я победил в семи международных соревнованиях по ИИ». Лайфхаки и стратегии финалиста конкурсов NASA и Google

Простой

5 мин

3.6K

Блог компании МТСБлог компании MTS AIМашинное обучение*Искусственный интеллект

Интервью

Аммар Али вместе со своим другом Жаафаром Махмудом взяли золото каггла по созданию 3D-реконструкции. Их команда вошла в топ-10 победителей конкурса Google Image Matching Challenge 2023. Аммар Али работает старшим инженером-исследователем MTS AI и учится в аспирантуре ИТМО на факультете информационных технологий и программирования, его друг Жаафар тоже аспирант ИТМО, но учится на факультете систем управления и робототехники. В Image Matching от Google они принимают участие второй год подряд. В 2022-м вошли в топ-30. Для Аммара это далеко не первая победа в международном конкурсе. Мы решили узнать у него подробности - какое решение принесло им золото Image Matching Challenge 2023, и как вообще победить на международных соревнованиях по ИИ.

— Аммар, поздравляем тебя с победой. Расскажи немного о конкурсе.

— Google Image Matching Challenge проходит ежегодно, начиная с 2019-го. В этом году конкурс длился два месяца с 11 апреля по 12 июня. Целью было создать 3D-реконструкцию объекта по датасету из фотографий. Честно говоря, для меня это было немного сложнее, чем в прошлом году, потому что требовались не только знания в области машинного обучения. Нам было нужно применить дополнительные алгоритмы, математическую оптимизацию структуры для построения 3D-реконструкции, где до сих пор специализировались на Slam в целом в робототехнике. В конкурсе я отвечал за часть задач, связанную с искусственным интеллектом, а Жаафар занимался оптимизацией и настройкой алгоритмов.

— Какое решение вы предложили?

+17

aarmaageedoon 10 июл 2023 в 13:49

Как использовать метод Дэвида-Скина для агрегации разметки. Разбираем по шагам

Средний

9 мин

Блог компании МТСБлог компании MTS AINatural Language Processing*Машинное обучение*

Обзор

Всем привет. Открываю серию статей, посвященную агрегации разметки. Этим вопросом я активно занимался, пока работал в нашем центре компетенций по работе с данными: нам нужен был механизм агрегации разметки из разных задач. По пути накопил материалов и, причесав, делюсь с вами.

В этой части я расскажу про модель Дэвида-Скина, которая заложила основы для многих методов агрегации разметки и является второй по значимости после голосования большинством. Многие создатели проектов следуют этому методу для повышения качества данных. Изначально он был разработан в 1970-х для вероятностного моделирования медицинских обследований. Именно поэтому разберем этот метод на примере с докторами.

letitshine 24 мая 2023 в 16:39

Переходим на личности: как создать не просто бота, а виртуального персонажа с характером и историей

18 мин

8.1K

Блог компании MTS AIМашинное обучение*Искусственный интеллект

Обзор

Надоели стандартные боты с типовыми запросами? Да, мы вас очень понимаем.

Именно поэтому в этой статье мы решили поделиться своим исследованием по созданию не просто ботов, а виртуальных личностей с проработанным характером.

Эти наработки появились немного раньше, чем к нам пришел заказчик с запросом на виртуального персонажа, так что на наших глазах теория становилась практикой.

use_magic 14 апр 2023 в 17:36

Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

Средний

9 мин

3.7K

Блог компании MTS AIМашинное обучение*Natural Language Processing*Big Data*Искусственный интеллект

Туториал

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократить количество ручной разметки в проекте.

Ann_Rodina 13 апр 2023 в 11:33

AI-focused digest: ИИ для удаления шумов с космических фото, генерация изображений на основе фМРТ мозга

4 мин

1.1K

Блог компании MTS AIМашинное обучение*Искусственный интеллект

Дайджест

Всем привет!

В апрельском выпуске AI-focused digest мы расскажем, как можно сократить затраты на обучение больших ML-моделей, как японские ученые научили нейросеть генерировать изображения по фМРТ мозга. Также поговорим о новом CV-алгоритме для улучшения астрономических фото. В заключении порекомендуем исследовательскую статью, которая поможет лучше понять, чего ждать от стремительного развития языковых моделей.

sergeyzyo 29 мар 2023 в 12:00

Беспилотные автомобили, китайцы и платный доступ: какое будущее ждет нейросети

6 мин

2.6K

Блог компании MTS AIБлог компании МТСБудущее здесьИскусственный интеллектКонференции

Термин «искусственный интеллект» постепенно перебрался из фантастики в маркетинг, а сейчас все больше входит в лексикон технических специалистов. Сегодня считается, что будущий полноценный ИИ невозможен без машинного обучения. И за последний год мы приблизились к нему благодаря новым версиям моделей-трансформеров — GPT, в том числе линейке ChatGPT.

Меня зовут Сергей Загоруйко, я занимаюсь фундаментальными исследованиями искусственного интеллекта в МТС и руковожу группой, в которой есть направления по обработке естественного языка (NLP) и компьютерному зрению. В этой статье я расскажу о том, как сейчас обстоят дела в мире беспилотных автомобилей и искусственного интеллекта в целом, а в конце вас ждет приглашение на мое выступление на конференции True Tech Day, которая пройдет 31 марта 2023 года.

use_magic 3 мар 2023 в 16:02

Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

Средний

9 мин

4.2K

Блог компании MTS AIМашинное обучение*Natural Language Processing*Искусственный интеллект

Туториал

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. Мы не понаслышке знаем, что сбор и разметка данных часто становятся “бутылочным горлышком" в проектах, связанных с машинным обучением. У нас в компании есть постоянная необходимость в разных видах разметки аудио, текста и изображений.

В этой статье я хочу поделиться лайфхаками по подготовке и разметке текстовых датасетов и возможными "граблями", на которые можно наступить, если вы создаете датасет впервые. Многие из этих советов универсальны, но основной фокус сделан на обработке естественного языка, поскольку я опираюсь в первую очередь на собственный опыт: в разное время я работала с юридическими документами, доменными чат-ботами и участвовала в подготовке и проведении соревнования по автоматической детоксификации текстов.

+10

aarmaageedoon 20 янв 2023 в 11:49

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

10 мин

2.5K

Блог компании MTS AIМашинное обучение*Natural Language Processing*

Всем привет! На связи Игорь Буянов, разработчик в команде разметки MTS AI. Сегодня я поделюсь с вами своими наработками, появившимися во время изучения метрик оценки генерации данных. Когда я только пришел в команду разметки, эта задача была особо актуальной - нас тогда просили нагенерить данные под тестирование информационного бота по COVID. Дело в том, что тестирование результатов выполнялось вручную, что значительно замедляло работу. Каких-либо автоматических метрик оценки качества генерации тестовых данных не существовало.

В какой-то момент мне надоело это терпеть, и я решил посмотреть, а как качество текстов оценивают разработчики языковых моделей. У них точно есть перплексия, может, есть что-то еще.

Спустя время, проведенное за штудированием статей, я нашел кандидата среди известных метрик для оценки качества генерации, но кроме того, к своему удивлению, у меня появилось несколько теоретических тезисов о качестве данных вообще. В этом посте я делюсь ими с сообществом в надежде на дальнейшее обсуждение. Для лучшего понимания дальнейшего текста рекомендую прочитать эту статью.

lizabethy 29 дек 2022 в 15:18

3 лайфхака как пережить первые месяцы тим-лидерства

5 мин

Блог компании MTS AIУправление разработкой*Управление персоналом*Карьера в IT-индустрииЧитальный зал

Всем привет! Меня зовут Лиза Ермакова, настраиваю Discovery процессы и организовываю cx-исследования для продуктов МТС ИИ.

По первому образованию - лингвист. По второму - коуч, практикующий по стандартам ICF.

Тим-лидерствую с 2017 года в разных сферах и командах.

Первый опыт тим-лида получала в команде менеджеров переводческих проектов, далее в: строила направление разметки данных с 0, где руководила командами разметчиков данных (начинала с 1, затем 10 и 30 человек). В них были не только линейные сотрудники, но и старшие специалисты, менеджеры и ML-инженер.

Также собирала временные кросс-функциональные команды для реализации проектов по сбору данных, продуктовых исследований.

В свободное время работаю наставником начинающих тим-лидов, помогаю студентам старших курсов и выпускникам находить первую работу в IT (консультирую по вопросам карьеры) и коучу всех тех, кому сейчас это необходимо. Чаще приходят ребята из IT компаний, кто хочет менять род деятельности, делать разные карьерные переходы в рамках сферы или выходить в новую отрасль.

В этой статье остановлюсь теме тим-лидерства и расскажу новичкам про очевидные и не очень способы справиться с этой ролью в первые месяцы. Все рекомендации собраны из своего опыта и опыта моих подопечных.

aarmaageedoon 28 дек 2022 в 19:09

I never asked for this. Как понять, на что способен аугментатор текстов

6 мин

1.5K

Блог компании MTS AIМашинное обучение*Natural Language Processing*

Туториал

Привет, я Буянов Игорь. Разработчик в команде разметки MTS AI. Сегодня я вам расскажу о способе понять, на что способен ваш аугментатор текста и в каких случаях его лучше использовать.

История создания этой методики началась с задачи текстовой генерации, в которой разметчики должны писать тексты под определенный класс. Такой отчаянный способ создания данных, когда их нет совсем. В раздумьях о том, как облегчить труд разметчиков, мне пришла идея:
что если разметчики будут писать не весь объем текстов, а, скажем, только некоторую часть, пусть и большую, а меньшую добивать с помощью аугментаторов. Однако, как убедиться, что тексты, полученные от аугментатора, хотя бы соответствуют тематике класса? Ко всем ли текстам можно применять аугментатор и ожидать, что все будет работать как надо? Другими словами, надо получить характеристику аугментатора, чтобы знать, чего от него можно ожидать.

В этой небольшой заметке я покажу простую и довольно быструю, хоть и ручную, методику оценки текстовых аугментаторов.

Читать дальше →

palette_knife25 27 дек 2022 в 13:32

Автоматическое исправление ошибок ASR с помощью sequence-to-sequence моделей

11 мин

3.6K

Блог компании MTS AINatural Language Processing*Машинное обучение*Искусственный интеллектЧитальный зал

Обзор

Всем привет, я Алсу Вахитова — NLP-разработчица в MTS AI. Вместе с коллегами мы создаем различные алгоритмы обработки текста и извлечения информации из него. Большое количество проектов включает в себя взаимодействие с командами из “соседних” доменов, например, automatic speech recognition (ASR). Одна из таких задач - исправление ошибок в результате работы ASR методов (ASR error correction). В этой статье я приведу теоретический обзор некоторых статей, решающих данную проблему.

JpegDPV 5 дек 2022 в 15:27

Как мотивировать команду нефинансовыми методами, поддержать сотрудников в трудные времена и завоевать их доверие

9 мин

Блог компании MTS AIКарьера в IT-индустрииУправление персоналом*Управление проектами*

Привет, меня зовут Павел Дубков, я - директор департамента интеграции MTS AI.

Я достаточно давно руковожу различными подразделениями, но еще лет 15 назад, когда был обычным разработчиком, стал присматриваться к своим руководителям и задаваться вопросом: что заставляет людей работать много, эффективно, искать новые подходы к решению различных задач и в целом ходить на работу с удовольствием?

В этой статье я расскажу о способах нефинансовой мотивации, которые я использую в своей команде. Немного похвалюсь. Так сложилось, что мне всегда было интереснее прочитать какой-нибудь мануал, который можно использовать в работе, чем литературу по управлению персоналом. Поэтому все, о чем вы прочитаете далее, - мои собственные лайфхаки и выводы, а также приемы других руководителей, а не прочитанные где-то умные мысли. Они будут полезными всем, кто сейчас хочет сплотить команду и помочь сотрудникам работать эффективнее.

znbiz 27 окт 2022 в 18:24

Как навести порядок в AI-продукте: опыт внедрения методологии Event Modeling

11 мин

2.2K

Блог компании MTS AIIT-компанииУправление проектами*Управление разработкой*

Всем привет, я Алексей Некрасов @letitshine (@znbiz) — Lead направления Python в МТС и старший архитектор в MTS AI. Вместе с коллегой Галиной Прохоровой (@letitshine — product manager в MTS AI — решили поделиться историей внедрения методологии Event Modeling в существующий продукт. Мы расскажем, с какими трудностями наша команда столкнулась и как их преодолела.

maze009 26 сен 2022 в 14:34

Edge AI чипы от Kneron. Собираем оригинальный девайс

12 мин

2.5K

Блог компании MTS AIГолосовые интерфейсы*Искусственный интеллектПрограммирование микроконтроллеров*

Технотекст 2022

Привет, я Антон Маслов, ведущий разработчик в MTS AI.

В предыдущих статьях я рассказывал о том, как работает распознавание изображений на чипе KL520 с помощью нейросети Tiny YOLOv3, а так же о том, как устроена, из чего состоит и как собирается прошивка чипов KL520. И вот теперь, когда мы познакомились с технологией Edge AI в общих чертах, мы можем отправиться в самое увлекательное путешествие и создать на базе KL520 собственный оригинальный девайс!

Читать дальше →

Дайджест новостей: ИИ для обучения роботов и спящие агенты в LLM

LLMClone: как клонировать себя в Telegram

Обзор Llemma: новая математическая open-source модель

Собираем русскоязычный лонгформер шаг за шагом

LLaMa vs GigaChat: может ли опенсорсная модель работать лучше LLM с 13 млрд параметрами?

Пять книг про NLP, с которых можно начать

«За три года я победил в семи международных соревнованиях по ИИ». Лайфхаки и стратегии финалиста конкурсов NASA и Google

Как использовать метод Дэвида-Скина для агрегации разметки. Разбираем по шагам

Переходим на личности: как создать не просто бота, а виртуального персонажа с характером и историей

Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

AI-focused digest: ИИ для удаления шумов с космических фото, генерация изображений на основе фМРТ мозга

Беспилотные автомобили, китайцы и платный доступ: какое будущее ждет нейросети

Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

Ближайшие события

3 лайфхака как пережить первые месяцы тим-лидерства

I never asked for this. Как понять, на что способен аугментатор текстов

Автоматическое исправление ошибок ASR с помощью sequence-to-sequence моделей

Как мотивировать команду нефинансовыми методами, поддержать сотрудников в трудные времена и завоевать их доверие

Как навести порядок в AI-продукте: опыт внедрения методологии Event Modeling

Edge AI чипы от Kneron. Собираем оригинальный девайс

Информация