Pull to refresh
8
0
Ирина Кротова @use_magic

ML Engineer (NLP)

Send message

Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

Level of difficultyMedium
Reading time9 min
Views3.2K

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. В этой статье из цикла про разметку данных я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

В предыдущей статье я рассказывала о том, что такое аннотация данных, как это связано с работой инженера машинного обучения и о способах сократить количество ручной разметки в проекте.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments1

Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

Level of difficultyMedium
Reading time9 min
Views3.5K

Привет! Меня зовут Ирина Кротова, я NLP-исследователь из компании MTS AI. Мы не понаслышке знаем, что сбор и разметка данных часто становятся “бутылочным горлышком" в проектах, связанных с машинным обучением. У нас в компании есть постоянная необходимость в разных видах разметки аудио, текста и изображений.

В этой статье я хочу поделиться лайфхаками по подготовке и разметке текстовых датасетов и возможными "граблями", на которые можно наступить, если вы создаете датасет впервые. Многие из этих советов универсальны, но основной фокус сделан на обработке естественного языка, поскольку я опираюсь в первую очередь на собственный опыт: в разное время я работала с юридическими документами, доменными чат-ботами и участвовала в подготовке и проведении соревнования по автоматической детоксификации текстов.

Читать далее
Total votes 10: ↑10 and ↓0+10
Comments2

Information

Rating
Does not participate
Registered
Activity