Как стать автором
Обновить
54.99
Сначала показывать

Как использовать метод Дэвида-Скина для агрегации разметки. Разбираем по шагам

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.5K

Всем привет. Открываю серию статей, посвященную агрегации разметки. Этим вопросом я активно занимался, пока работал в нашем центре компетенций по работе с данными: нам нужен был механизм агрегации разметки из разных задач. По пути накопил материалов и, причесав, делюсь с вами. 

В этой части я расскажу про модель Дэвида-Скина, которая заложила основы для многих методов агрегации разметки и является второй по значимости после голосования большинством. Многие создатели проектов следуют этому методу для повышения качества данных. Изначально он был разработан в 1970-х для вероятностного моделирования медицинских обследований. Именно поэтому разберем этот метод на примере с докторами. 

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Переходим на личности: как создать не просто бота, а виртуального персонажа с характером и историей

Время на прочтение18 мин
Количество просмотров7.3K

Надоели стандартные боты с типовыми запросами? Да, мы вас очень понимаем.

Именно поэтому в этой статье мы решили поделиться своим исследованием по созданию не просто ботов, а виртуальных личностей с проработанным характером.

Эти наработки появились немного раньше, чем к нам пришел заказчик с запросом на виртуального персонажа, так что на наших глазах теория становилась практикой.

Читать далее
Всего голосов 8: ↑6 и ↓2+7
Комментарии3

Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.4K

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократить количество ручной разметки в проекте.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

AI-focused digest: ИИ для удаления шумов с космических фото, генерация изображений на основе фМРТ мозга

Время на прочтение4 мин
Количество просмотров1.1K

Всем привет! 

В апрельском выпуске AI-focused digest мы расскажем, как можно сократить затраты на обучение больших ML-моделей, как японские ученые научили нейросеть генерировать изображения по фМРТ мозга. Также поговорим о новом CV-алгоритме для улучшения астрономических фото. В заключении порекомендуем исследовательскую статью, которая поможет лучше понять, чего ждать от стремительного развития языковых моделей. 

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Беспилотные автомобили, китайцы и платный доступ: какое будущее ждет нейросети

Время на прочтение6 мин
Количество просмотров2.5K

Термин «искусственный интеллект» постепенно перебрался из фантастики в маркетинг, а сейчас все больше входит в лексикон технических специалистов. Сегодня считается, что будущий полноценный ИИ невозможен без машинного обучения. И за последний год мы приблизились к нему благодаря новым версиям моделей-трансформеров — GPT, в том числе линейке ChatGPT.

Меня зовут Сергей Загоруйко, я занимаюсь фундаментальными исследованиями искусственного интеллекта в МТС и руковожу группой, в которой есть направления по обработке естественного языка (NLP) и компьютерному зрению. В этой статье я расскажу о том, как сейчас обстоят дела в мире беспилотных автомобилей и искусственного интеллекта в целом, а в конце вас ждет приглашение на мое выступление на конференции True Tech Day, которая пройдет 31 марта 2023 года.

Читать далее
Всего голосов 10: ↑8 и ↓2+7
Комментарии2

Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.7K

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. Мы не понаслышке знаем, что сбор и разметка данных часто становятся “бутылочным горлышком" в проектах, связанных с машинным обучением. У нас в компании есть постоянная необходимость в разных видах разметки аудио, текста и изображений.

В этой статье я хочу поделиться лайфхаками по подготовке и разметке текстовых датасетов и возможными "граблями", на которые можно наступить, если вы создаете датасет впервые. Многие из этих советов универсальны, но основной фокус сделан на обработке естественного языка, поскольку я опираюсь в первую очередь на собственный опыт: в разное время я работала с юридическими документами, доменными чат-ботами и участвовала в подготовке и проведении соревнования по автоматической детоксификации текстов.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии2

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

Время на прочтение10 мин
Количество просмотров2.2K

Всем привет! На связи Игорь Буянов, разработчик в команде разметки MTS AI. Сегодня я поделюсь с вами своими наработками, появившимися во время изучения метрик оценки генерации данных. Когда я только пришел в команду разметки, эта задача была особо актуальной - нас тогда просили нагенерить данные под тестирование информационного бота по COVID. Дело в том, что тестирование результатов выполнялось вручную, что значительно замедляло работу. Каких-либо автоматических метрик оценки качества генерации тестовых данных не существовало.

В какой-то момент мне надоело это терпеть, и я решил посмотреть, а как качество текстов оценивают разработчики языковых моделей. У них точно есть перплексия, может, есть что-то еще.

Спустя время, проведенное за штудированием статей, я нашел кандидата среди известных метрик для оценки качества генерации, но кроме того, к своему удивлению, у меня появилось несколько теоретических тезисов о качестве данных вообще. В этом посте я делюсь ими с сообществом в надежде на дальнейшее обсуждение. Для лучшего понимания дальнейшего текста рекомендую прочитать эту статью.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии5

3 лайфхака как пережить первые месяцы тим-лидерства

Время на прочтение5 мин
Количество просмотров2K

Всем привет! Меня зовут Лиза Ермакова, настраиваю Discovery процессы и организовываю cx-исследования для продуктов МТС ИИ.

По первому образованию - лингвист. По второму - коуч, практикующий по стандартам ICF.

Тим-лидерствую с 2017 года в разных сферах и командах. 

Первый опыт тим-лида получала в команде менеджеров переводческих проектов, далее в: строила направление разметки данных с 0, где руководила командами разметчиков данных (начинала с 1, затем 10 и 30 человек). В них были не только линейные сотрудники, но и старшие специалисты, менеджеры и ML-инженер. 

Также собирала временные кросс-функциональные команды для реализации проектов по сбору данных, продуктовых исследований. 

В свободное время работаю наставником начинающих тим-лидов, помогаю студентам старших курсов и выпускникам находить первую работу в IT (консультирую по вопросам карьеры) и коучу всех тех, кому сейчас это необходимо. Чаще приходят ребята из IT компаний, кто хочет менять род деятельности, делать разные карьерные переходы в рамках сферы или выходить в новую отрасль.

В этой статье остановлюсь теме тим-лидерства и расскажу новичкам про очевидные и не очень способы справиться с этой ролью в первые месяцы. Все рекомендации собраны из своего опыта и опыта моих подопечных.

Читать далее
Всего голосов 9: ↑4 и ↓5+1
Комментарии1

I never asked for this. Как понять, на что способен аугментатор текстов

Время на прочтение6 мин
Количество просмотров1.5K

Привет, я Буянов Игорь. Разработчик в команде разметки MTS AI. Сегодня я вам расскажу о способе понять, на что способен ваш аугментатор текста и в каких случаях его лучше использовать.



История создания этой методики началась с задачи текстовой генерации, в которой разметчики должны писать тексты под определенный класс. Такой отчаянный способ создания данных, когда их нет совсем. В раздумьях о том, как облегчить труд разметчиков, мне пришла идея:
что если разметчики будут писать не весь объем текстов, а, скажем, только некоторую часть, пусть и большую, а меньшую добивать с помощью аугментаторов. Однако, как убедиться, что тексты, полученные от аугментатора, хотя бы соответствуют тематике класса? Ко всем ли текстам можно применять аугментатор и ожидать, что все будет работать как надо? Другими словами, надо получить характеристику аугментатора, чтобы знать, чего от него можно ожидать.


В этой небольшой заметке я покажу простую и довольно быструю, хоть и ручную, методику оценки текстовых аугментаторов.

Читать дальше →
Рейтинг0
Комментарии2

Автоматическое исправление ошибок ASR с помощью sequence-to-sequence моделей

Время на прочтение11 мин
Количество просмотров3.1K

Всем привет, я Алсу Вахитова — NLP-разработчица в MTS AI. Вместе с коллегами мы создаем различные алгоритмы обработки текста и извлечения информации из него. Большое количество проектов включает в себя взаимодействие с командами из “соседних” доменов, например, automatic speech recognition (ASR). Одна из таких задач - исправление ошибок в результате работы ASR методов (ASR error correction). В этой статье я приведу теоретический обзор некоторых статей, решающих данную проблему.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Как мотивировать команду нефинансовыми методами, поддержать сотрудников в трудные времена и завоевать их доверие

Время на прочтение9 мин
Количество просмотров5.6K

Привет, меня зовут Павел Дубков, я - директор департамента интеграции MTS AI. 

Я достаточно давно руковожу различными подразделениями, но еще лет 15 назад, когда был обычным разработчиком, стал присматриваться к своим руководителям и задаваться вопросом: что заставляет людей работать много, эффективно, искать новые подходы к решению различных задач и в целом ходить на работу с удовольствием?

В этой статье я расскажу о способах нефинансовой мотивации, которые я использую в своей команде. Немного похвалюсь. Так сложилось, что мне всегда было интереснее прочитать какой-нибудь мануал, который можно использовать в работе, чем литературу по управлению персоналом. Поэтому все, о чем вы прочитаете далее, - мои собственные лайфхаки и выводы, а также приемы других руководителей, а не прочитанные где-то умные мысли. Они будут полезными всем, кто сейчас хочет сплотить команду и помочь сотрудникам работать эффективнее.

Читать далее
Всего голосов 19: ↑13 и ↓6+7
Комментарии21

Как навести порядок в AI-продукте: опыт внедрения методологии Event Modeling

Время на прочтение11 мин
Количество просмотров1.9K

Всем привет, я Алексей Некрасов @letitshine (@znbiz) —  Lead направления Python в МТС и старший архитектор в MTS AI. Вместе с коллегой Галиной Прохоровой (@letitshine — product manager в MTS AI — решили поделиться историей внедрения методологии Event Modeling в существующий продукт. Мы расскажем, с какими трудностями наша команда столкнулась и как их преодолела.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии10

Edge AI чипы от Kneron. Собираем оригинальный девайс

Время на прочтение12 мин
Количество просмотров2.4K

Custom Device

Привет, я Антон Маслов, ведущий разработчик в MTS AI.


В предыдущих статьях я рассказывал о том, как работает распознавание изображений на чипе KL520 с помощью нейросети Tiny YOLOv3, а так же о том, как устроена, из чего состоит и как собирается прошивка чипов KL520. И вот теперь, когда мы познакомились с технологией Edge AI в общих чертах, мы можем отправиться в самое увлекательное путешествие и создать на базе KL520 собственный оригинальный девайс!


Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Edge AI чипы от Kneron. Ныряем в прошивку

Время на прочтение17 мин
Количество просмотров1.6K

Dive

Привет, я Антон Маслов, ведущий разработчик в MTS AI.


В предыдущей своей статье я рассказывал в общих чертах о том, что это за чипы такие от Kneron (микроконтроллеры со встроенными нейроускорителями), что такое нейроускоритель, чем так интересна технология периферийного искусственного интеллекта Edge AI, и как вообще с этим работать. А еще о том, как на чипе KL520 запустить систему распознавания изображений с помощью нейросети Tiny YOLOv3.


Теперь я расскажу о самой важной части, о прошивке чипов. О том, из чего она состоит, как собирается, как вообще устроен софт такой навороченной многоядерной системы на кристалле, как KL520. Поделюсь историей и опытом миграции из одного компилятора в другой.


Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Как установить лицензионную защиту кода на Python и обезопасить данные с помощью HASP?

Время на прочтение6 мин
Количество просмотров12K

Всем привет, я Вячеслав Жуйко – Lead команды разработки Audiogram в MTS AI.

При переходе от On-Cloud размещений ПО на On-Premises в большинстве случае перед вами неизбежно встанет задача защиты интеллектуальной собственности – и она особенно критична для рынка AI, где задействуются модели, обладающие высокой ценностью для компании. К тому же, в этой сфере широко используется интерпретируемый язык Python, ПО на котором содержит алгоритмы, являющиеся интеллектуальной собственностью компании, но фактически распространяется в виде исходных кодов. Это не является проблемой для On-Cloud решений, но в случае с On-Premises требует особой защиты как от утечек кода, так и самих данных.

Рассказываю реальную историю решения этой, казалось бы, не самой тривиальной задачи. Итак, обо всем по порядку.

Читать далее
Всего голосов 12: ↑11 и ↓1+14
Комментарии17

Edge AI чипы от Kneron. Что это такое и как оно работает

Время на прочтение10 мин
Количество просмотров7.1K

Kneron

Привет, я Антон Маслов, ведущий разработчик в MTS AI.


Некоторое время назад мне довелось глубоко погрузиться в очень необычные чипы на базе технологии Edge AI. Микроконтроллеры со встроенными нейроускорителями. И позапускать на них самые разные кейсы. Оказалось, что это очень классная штука. И стоит недорого, и работает быстро. А, главное, мелкая. Так что можно встроить в любой девайс.


Я расскажу об опыте погружения в технологию Edge AI, про то, как устроен чип с нейроускорителем, а также про то, с какими трудностями пришлось столкнуться, чтоб заставить все это работать.


Читать дальше →
Всего голосов 21: ↑19 и ↓2+22
Комментарии3

Как мы столкнулись с версионированием и осознали, что вариант «просто проставить цифры» не работает

Время на прочтение7 мин
Количество просмотров14K

Всем привет, я Алексей Некрасов - Lead направления Python в МТС и старший архитектор в MTS AI.

Хочу поделиться своим опытом внедрения версионирования и рассказать, как сделать первый шаг в реализации стратегии blue/green или канареечного развертывания, что для этого нужно и какие есть инструменты.

Если вы используете в docker-образах тег latest, или у вас недоступна система во время деплоя нового релиза, то эта статья — отправная точка для улучшения вашего продукта.

Читать далее
Всего голосов 10: ↑9 и ↓1+10
Комментарии32

Ныряем со Сноркелем в море данных. Туториал по фреймворку для программирования датасетов

Время на прочтение18 мин
Количество просмотров2.4K

Привет. Я Игорь Буянов, старший разработчик группы разметки данных MTS AI. Я люблю датасеты и все методы, которые помогают их делать быстро и качественно. Недавно рассказывал о том, как делать иерархически датасет из Википедии. В этом посте хочу рассказать вам о Сноркеле - фреймворке для программирования данных (data programming). Познакомился я с ним случайно несколько лет назад, и меня поразил этот подход, который заключается в использовании разных эвристик и априорных знаний для автоматической разметки датасетов. Проект стартовал в Стэнфорде как инструмент для помощи в разметке датасетов для задачи information extraction, а сейчас разработчики делают платформу для пользования внешними заказчиками.

Сноркель может существенно сократить время на проверку какой-либо идеи, когда данных мало или их нет совсем, или увеличить эффективность процесса создания качественного датасета, как это потребовалось в проекте медицинского чат-бота, про который почитать можно здесь.

В этом посте я подготовил туториал, который наглядно покажет, как работать со Сноркелем, а также кратко объясню теоретические аспекты его работы.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Как я извлекал иерархию статей Википедии для задач NLP

Время на прочтение8 мин
Количество просмотров2.8K

Привет, я Игорь Буянов, работаю в MTS AI старшим разработчиком в департаменте машинного обучения в команде разметки и сбора данных.

В этом руководстве я покажу, как на основе Википедии можно сделать текстовый датасет, метки которго будут иметь иерархию. Необходимость в таком датасете возникла при тестировании различных подходов к эксплуатации иерархичности меток [3]. Иерархией меток могут представлены интенты, которые распознает чат-бот при запросе пользователя: является ли обращение пользователя заявлением о проблем с медленным интернетом или тем, что он вообще отсутствует. Общим классом здесь будет интернет, а подклассом будет скорость и отсутствие интернета, соответственно. Материалы доступны на нашем гитхабе.

Скажу сразу, что большего датасета не получилось, но сам метод показался мне достаточно интересным, чтобы о нём рассказать. Возможно, кому-то этот метод поможет кому-то начать свои исследования. Это руководство —  третья часть неформальной серии статей о парсинге Википедии (первая часть, вторая часть).

Читать далее
Всего голосов 6: ↑5 и ↓1+5
Комментарии2

Как мы не смогли создать медицинского чат-бота. История проекта, который так и не увидел свет

Время на прочтение19 мин
Количество просмотров9.3K

Привет, 

Это статья нашего бывшего коллеги, Андрея Лукьяненко, который работал над проектом по созданию медицинского чат-бота. Андрей покинул нашу компанию по собственному желанию (и с большим сожалением для нас), но несмотря на это, мы решили опубликовать его материал. Мы уверены, что эта статья будет полезна всем, кто работает над созданием специализированных чат-ботов. 

Итак, передаем слово Андрею Лукьяненко, бывшему техлиду MTS AI.

В последние годы рынок телемедицины (дистанционных медицинских услуг) и в целом медтеха активно растет, и пандемия коронавируса только ускорила его развитие. Такие технологии востребованы, потому что они относительно дешевы, доступны вне зависимости от места проживания пациента и дают возможность самостоятельно выбирать врачей. 

Читать далее
Всего голосов 25: ↑25 и ↓0+25
Комментарии29
2

Информация

Сайт
mts.ai
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия
Представитель
Анна Родина