Результаты поиска по запросу «[spacy]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

s1m00n 31 мая 2020 в 16:06

Краткий обзор NLP библиотеки SpaСy

5 мин

29K

Python*Машинное обучение*Natural Language Processing*

Обработка естественного языка(Natural Language Processing — NLP) сегодня становится очень востребованной, так как людям несомненно проще общаться с машинами также, как они общаются с людьми.

Поэтому сейчас, вместе с быстрым развитием этой области, всё больше сервисов используют NLP: чат-боты, в которых больше не нужно выбирать готовые ответы, голосовые ассистенты, электронная почта, чтобы автоматически сортировать письма и так далее. В этом посте я хочу рассказать об относительно новой Python библиотеке SpaCy, которая стала, если не индустриальным стандартом, как ~~кричат~~ заявляют сами создатели на сайте библиотеки: https://spacy.io/, то как минимум одним из самых популярных и удобных решений. Приятного чтения!

Читать дальше →

+11

The-Founder-1 15 мар в 18:51

Краткий обзор токенизаторов: что это такое и зачем это надо?

Простой

9 мин

3.2K

Python*

Обзор

Представьте себе, что вы читаете книгу и хотите найти все места, где упоминается слово «кот». Не знаю, зачем вам это, но пока остановимся на том, что вы это хотите. Вот очень надо.

Так как это сделать?

Вы можете просто пролистать книгу и прочитать ее с начала до конца, буквально вручную находя всех котиков, но… Это может занять много времени и усилий. Гораздо проще будет воспользоваться индексом в конце книги, где перечислены все места, где упоминается слово «кот». Проблема в том, что в обычной печатной книге такого нет, а вот если вы читаете электронку — да, вполне. Можно воспользоваться поиском по слову.

Но это вы так можете, а вот компьютеры — нет.

Компьютеры не могут просто прочитать текст и понять, что он означает. Они нуждаются в помощи токенизаторов, которые преобразуют текст в набор токенов, или отдельных единиц информации, которые можно анализировать и обрабатывать.

Токенизация — это первый шаг в обработке текстовых данных. Без токенизации компьютеры не смогли бы понимать текст и находить в нем полезную информацию. Токенизаторы помогают преобразовать текст в данные, которые можно анализировать и использовать для решения различных задач, таких как классификация текстов, распознавание речи, машинный перевод и многие другие.

Токенизаторы, подобно электронным поисковым системам для текста, помогают компьютерам эффективно найти и организовать нужную информацию, так же как электронные индексы в электронных книгах облегчают поиск конкретных фраз. Без них компьютерам было бы гораздо сложнее «понимать» и анализировать текстовые данные.

NewTechAudit 8 дек 2020 в 14:59

Можно всё: решение NLP задач при помощи spacy

9 мин

31K

Python*Машинное обучение*

Обработка естественного языка сейчас используется повсеместно: стремительно развиваются голосовые интерфейсы и чат-боты, разрабатываются модели для обработки больших текстовых данных, продолжает развиваться машинный перевод.

В этой статье мы рассмотрим относительно новую библиотеку SpaCy, которая на данный момент является одним из самых популярных и удобных решений при обработке текста в Python. Её функционал позволяет решать очень широкий спектр задач: от определения частей речи и выделения именованных сущностей до создания собственных моделей для анализа.

Читать дальше →

pestich 20 окт 2023 в 14:41

Классификация текстов в spaCy: пошаговая инструкция

Простой

5 мин

3.4K

Python*Машинное обучение*

Из песочницы

Вы узнаете, как реализовать классификатор текстов при помощи библиотеки spaCy, а также несколько полезных лайфхаков, которые помогут ускорить обработку данных.

badcasedaily1 21 авг 2023 в 16:52

Обработка и анализ естественного языка с помощью Python-библиотеки spaCy

9 мин

9.1K

Блог компании OTUSPython*Natural Language Processing*

Обработка естественного языка (NLP) представляет собой важную область исследований, объединяющую лингвистику, компьютерные науки и искусственный интеллект. Она посвящена разработке методов и инструментов для анализа, понимания и генерации текста человеческими искусственными системами. Важность NLP становится все более явной, поскольку она находит применение в различных сферах, включая автоматический перевод, анализ тональности, извлечение информации, вопросно-ответные системы и многое другое.

В мире обработки естественного языка существует множество инструментов и библиотек, предназначенных для упрощения этой сложной задачи. Однако библиотека spaCy выделяется своей эффективностью и производительностью. Она разработана с акцентом на скорость и точность, что делает ее предпочтительным выбором для многих разработчиков и исследователей в области NLP.

vladimir_lov 26 сен 2023 в 13:33

Что есть NER сервисы и как их применяют в бизнесе от А до Я (практика)

Средний

8 мин

3.9K

Python*Big Data*Natural Language Processing*

Из песочницы

Крайне важный кейс для бизнеса — автоматизация бизнес процессов, где раньше можно было только использовать, например, оператора или клиентского менеджера, а сейчас им на помощь и замену чат-боты, голосовые ассистенты и вот и настало время, когда без машинного обучения и NLP уже никуда. Предлагаю рассмотреть NER сервисы и если обратиться к wikipedia:

Named-entity recognition (NER) (also known as (named) entity identification, entity chunking, and entity extraction) is a subtask of information extraction that seeks to locate and classify named entities mentioned in unstructured text into pre-defined categories such as person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

theioberry 4 фев 2021 в 13:25

Как мы ИИ учили новости понимать

11 мин

Машинное обучение*Natural Language Processing*

Из песочницы

Все мы хотим быть в курсе происходящего поэтому часть своего времени тратим на чтение новостей, и сейчас все чаще новости приходят не из новостных сайтов или газет, а из каки-то телеграм-каналов. В итоге, через какое-то время, оказывается, что ты подписан на десяток(а может и на десятки каналов), которые постоянно что-то пишут – как следствие, тратится либо огромное количество времени на то, чтобы "что-то не пропустить". Но если посмотреть – большинство из них пишут примерно об одном, просто по-разному. Так и пришла идея научить ИИ отбирать новости, которые действительно являются главными. Конечно, есть разные ТОП-ы, вроде Яндекс.Новостей или что-то вроде итогов дня от какого-то уважаемого СМИ, но везде есть нюансики. В этой статье я постараюсь описать эти нюансики и что у нас получилось, а что нет.

+15

Hasselhoff 1 мар 2021 в 15:18

Как улучшить резюме с помощью алгоритмов обработки текстов на естественных языках

11 мин

5.1K

Блог компании SkillfactoryPython*Алгоритмы*Карьера в IT-индустрииNatural Language Processing*

Перевод

Рекрутеры используют всё более сложное ПО и инструменты для анализа и сопоставления присылаемых резюме с размещёнными вакансиями и описанием должностных обязанностей в них. Если в вашем резюме будет представлена только общая информация или если ваши ответы на описание должностных обязанностей будут указаны расплывчато и/или без всякой конкретики, такие инструменты сработают против вас. Ваш отклик на вакансию может быть отвергнут искусственным интеллектом. Да, это действительно так, и бьюсь об заклад, что вы об этом не знали, а если знали, то не верили!

В этой статье я хочу представить ряд техник, которые помогут повысить шансы вашего резюме на рассмотрение. В этом практическом примере мы будем использовать алгоритмы обработки текстов на естественных языках (Natural Language Processing, NLP), Python и ряд визуальных инструментов библиотеки Altair. Итак, готовы нанести ответный удар по кадровикам?

Приятного чтения!

honyaki 14 авг 2021 в 17:48

Как превратить книгу о Гарри Поттере в граф знаний

12 мин

9.9K

Блог компании SkillfactoryPython*Программирование*Визуализация данных*Natural Language Processing*

Туториал

Перевод

Обработка естественного языка — это не только нейронные сети, а данные — это не только строки, числа и перечисления. Область работы с данными простирается намного дальше. К старту флагманского курса по Data Science представляем вашему вниманию перевод из блога разработчиков графовой базы данных neo4j о том, как при помощи SpaCy и Selenium извлечь из книги граф взаимоотношений героев. Подробности и код, как всегда, под катом.

+11

NewTechAudit 9 авг 2021 в 14:39

NER для русского языка в Spacy 3: удобно и легко

8 мин

12K

Python*Программирование*Машинное обучение*Natural Language Processing*

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков в сравнении с германскими или романскими языками.

+14

einhorn 28 авг 2021 в 20:28

Расставляем ударения с помощью Natasha и Spacy

8 мин

16K

Python*Машинное обучение*Изучение языковNatural Language Processing*

Из песочницы

Представьте себя на месте изучающего русский язык иностранца. Ударение станет одним из ваших самых страшных ночных кошмаров.

Однажды я написал приложение для изучения русского, одной из функций которого была расстановка ударений. Я просто проверял каждое слово по словарю. Однако, это часто приводило к ситуации неоднозначности, когда ударение зависит от контекста. Например: "два сло́ва", но "длинные слова́".

Время подключать нейросети.

+18

rfveskin 11 июл 2021 в 19:31

Модели глубоких нейронных сетей sequence-to-sequence на PyTorch (Часть 1)

24 мин

19K

Python*Машинное обучение*

Туториал

Из песочницы

Перевод

Этот туториал содержит материалы полезные для понимания работы глубоких нейронных сетей sequence-to-sequence (seq2seq) и реализации этих моделей с помощью PyTorch 1.8, torchtext 0.9 и spaCy 3.0, под Python 3.8. Материалы расположены в эволюционном порядке: от простой и неточной модели к сложной и обладающей наибольшей точностью.

rfveskin 14 июл 2021 в 01:11

Модели глубоких нейронных сетей sequence-to-sequence на PyTorch (Часть 2)

10 мин

5.9K

Python*Машинное обучение*

Туториал

Перевод

Во втором разделе учебных материалах о моделях sequence-to-sequence с использованием PyTorch и TorchText мы будем реализовывать модель из работы Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. Эта нейронная сеть позволит достичь лучшей точности при использовании только однослойной RNN как в кодере, так и в декодере.