Pull to refresh
20
0
Sergey Mazepov @Mazepov

User

Send message

NLP. Основы. Техники. Саморазвитие. Часть 1

Reading time12 min
Views75K

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.


Читать дальше →
Total votes 53: ↑51 and ↓2+49
Comments11

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Reading time4 min
Views8.8K

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Для решения этой задачи я обратился к инструментам выявления сущностей в тексте с помощью NLP: NLTK, Spacy, Flair, DeepPavlov, Polyglot, AdaptNLP, Stanza, AllenNLP, HanLP, PullEnti, Natasha и тд. Глаза начали разбегаться. И что же делать? Конечно, выбрать самое лучшее. Я принял решение выбрать несколько самых популярных библиотек, поддерживающих русский язык, и сравнить, какую же из них использовать? Natasha, Stanza и PullEnti привлекли мое внимание. Далее пойдет речь именно об этих библиотеках.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments1

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Reading time19 min
Views54K
Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

image
Читать дальше →
Total votes 22: ↑20 and ↓2+18
Comments3

Регулярные выражения (regexp) — основы

Reading time21 min
Views998K

Регулярные выражения (их еще называют regexp, или regex) — это механизм для поиска и замены текста. В строке, файле, нескольких файлах... Их используют разработчики в коде приложения, тестировщики в автотестах, да просто при работе в командной строке!

Чем это лучше простого поиска? Тем, что позволяет задать шаблон.

Например, на вход приходит дата рождения в формате ДД.ММ.ГГГГГ. Вам надо передать ее дальше, но уже в формате ГГГГ-ММ-ДД. Как это сделать с помощью простого поиска? Вы же не знаете заранее, какая именно дата будет.

Читать далее
Total votes 50: ↑42 and ↓8+43
Comments77

Особенности Jupyter Notebook, о которых вы (может быть) не слышали

Reading time10 min
Views364K
Jupyter Notebook – это крайне удобный инструмент для создания красивых аналитических отчетов, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики:



Ниже мы расскажем о некоторых фишках, которые делают Jupyter очень крутым. О них можно прочитать и в других местах, но если специально не задаваться этим вопросом, то никогда и не прочитаешь.
Читать дальше →
Total votes 49: ↑45 and ↓4+41
Comments14

Метрики в задачах машинного обучения

Reading time9 min
Views671K

Привет, Хабр!



В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.


В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.


Читать дальше →
Total votes 40: ↑39 and ↓1+38
Comments9

OCR или как мы учимся читать спам на 5+

Reading time12 min
Views20K


Всем привет, меня зовут Михаил Марюфич. Я занимаюсь машинным обучением в команде антиспама в Одноклассниках. И сегодня я расскажу про то, как и зачем мы сделали свою технологию распознавания текстовых символов с изображения OCR (Optical character recognition).
Читать дальше →
Total votes 30: ↑30 and ↓0+30
Comments16

Как можно увеличить словарный запас и прокачать аудирование по отрывкам фильмов и сериалов

Reading time3 min
Views8.4K

Многие, очень многие люди любят фильмы и сериалы и готовы тратить огромное количество времени на их просмотр. В связи с этим возникает вполне закономерный запрос на фильмы и сериалы на английском языке для тех, кому интересно его изучение. Здесь есть несколько проблем:

Читать далее
Total votes 9: ↑4 and ↓5+1
Comments12

Категориальные признаки

Reading time8 min
Views61K

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments0

25 бесплатных курсов по Python 2023 года

Reading time3 min
Views246K

Эта подборка идеально подходит, чтобы отправить её знакомым, которые не знают с чего начать. Здесь собраны курсы Python разных форматов: просто уроки в записи, онлайн-тренажеры с компиляторами кода, курсы школ программирования с тестированием и сертификатами.

Читать далее
Total votes 5: ↑4 and ↓1+7
Comments3

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity

Specialization

Specialist
Python
Pandas
NumPy
SQL
Computer vision
R
OpenCV
Keras
Pytorch
Neural networks