Articles / Bookmarks / Profile of Mazepov / Habr

Sergey Mazepov @Mazepov

User

Profile Publications 3Comments 13Bookmarks 10

Shnurre Jan 23 2019 at 16:05

NLP. Основы. Техники. Саморазвитие. Часть 1

12 min

75K

Content AI corporate blogMachine learning*Natural Language Processing*

Содержание

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.

Читать дальше →

+49

NewTechAudit May 24 2022 at 07:13

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

4 min

8.8K

Programming*Natural Language Processing*

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и тд. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я принял решение выбрать несколько самых популярных библиотек, поддерживающих русский язык, и сравнить, какую же из них использовать? Natasha, Stanza и PullEnti привлекли мое внимание. Далее пойдет речь именно об этих библиотеках.

Shnurre May 14 2019 at 15:07

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

19 min

54K

Content AI corporate blogNatural Language Processing*Artificial IntelligenceMachine learning*

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

Читать дальше →

+18

Molechka Mar 2 2021 at 22:48

Регулярные выражения (regexp) — основы

21 min

998K

IT systems testing*Regular expressions*

Регулярные выражения (их еще называют regexp, или regex) — это механизм для поиска и замены текста. В строке, файле, нескольких файлах... Их используют разработчики в коде приложения, тестировщики в автотестах, да просто при работе в командной строке!

Чем это лучше простого поиска? Тем, что позволяет задать шаблон.

Например, на вход приходит дата рождения в формате ДД.ММ.ГГГГГ. Вам надо передать ее дальше, но уже в формате ГГГГ-ММ-ДД. Как это сделать с помощью простого поиска? Вы же не знаете заранее, какая именно дата будет.

+43

wunder_editor Dec 6 2016 at 15:02

Особенности Jupyter Notebook, о которых вы (может быть) не слышали

10 min

364K

Wunder Fund corporate blogPython*Programming*

Translation

Jupyter Notebook – это крайне удобный инструмент для создания красивых аналитических отчетов, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики:

Ниже мы расскажем о некоторых фишках, которые делают Jupyter очень крутым. О них можно прочитать и в других местах, но если специально не задаваться этим вопросом, то никогда и не прочитаешь.

Читать дальше →

+41

egor_labintcev May 12 2017 at 13:59

Метрики в задачах машинного обучения

9 min

671K

Open Data Science corporate blogData Mining*Python*Mathematics*Machine learning*

Привет, Хабр!

В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.

В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.

Читать дальше →

+38

mikhail_mar Mar 29 2021 at 14:52

OCR или как мы учимся читать спам на 5+

12 min

20K

ОК corporate blogMachine learning*Spamming and anti-spamming

Всем привет, меня зовут Михаил Марюфич. Я занимаюсь машинным обучением в команде антиспама в Одноклассниках. И сегодня я расскажу про то, как и зачем мы сделали свою технологию распознавания текстовых символов с изображения OCR (Optical character recognition).

Читать дальше →

+30

t-goria May 25 at 22:43

Как можно увеличить словарный запас и прокачать аудирование по отрывкам фильмов и сериалов

3 min

8.4K

Learning languages

Многие, очень многие люди любят фильмы и сериалы и готовы тратить огромное количество времени на их просмотр. В связи с этим возникает вполне закономерный запрос на фильмы и сериалы на английском языке для тех, кому интересно его изучение. Здесь есть несколько проблем:

dzis_science May 17 2022 at 17:58

Категориальные признаки

8 min

61K

Data Engineering*Data Mining*Python*

From sandbox

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

ushim May 31 2023 at 09:17

25 бесплатных курсов по Python 2023 года

3 min

246K

Self Promo

Эта подборка идеально подходит, чтобы отправить её знакомым, которые не знают с чего начать. Здесь собраны курсы Python разных форматов: просто уроки в записи, онлайн-тренажеры с компиляторами кода, курсы школ программирования с тестированием и сертификатами.

NLP. Основы. Техники. Саморазвитие. Часть 1

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Регулярные выражения (regexp) — основы

Особенности Jupyter Notebook, о которых вы (может быть) не слышали

Метрики в задачах машинного обучения

OCR или как мы учимся читать спам на 5+

Как можно увеличить словарный запас и прокачать аудирование по отрывкам фильмов и сериалов

Категориальные признаки

25 бесплатных курсов по Python 2023 года

Information

Specialization