Search
Write a publication
Pull to refresh
@ae560read⁠-⁠only

User

Send message

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

Reading time12 min
Views90K
В 2020 году библиотека Natasha значительно обновилась, на Хабре опубликована статья про актуальную версию. Чтобы использовать инструменты, описанные в этом тексте, установите старую версию библиотеки pip install natasha<1 yargy<0.13.

Раздел про Yargy-парсер актуален и сейчас.


Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:



Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.

Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Python. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.

Год назад Дима Веселов начал проект Natasha. С тех пор код был значительно доработан. Natasha была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.
Natasha — это аналог Томита-парсера для Python (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.
В статье показано, как использовать готовые правила из Natasha и, самое главное, как добавлять свои с помощью Yargy-парсера.
Читать дальше →

Хочу купить чужой домен, как это сделать? Шаги от проверки к покупке

Reading time4 min
Views22K

Вы можете перекупить домен у владельца или зарегистрировать освобождающийся адрес через аукцион доменных имен. На сначала надо проверить домен, чтобы не приобрести «кота в мешке».

Рассказываю, как проверить и как купить.

Проверь свои клеммники

Reading time3 min
Views59K
Эта история началась много лет назад. В блаженной памяти 2012 году я прочитал на Хабре замечательный материал «Прекратите скручивать». Никогда не был фанатом скруток, а прикольные девайсы из поста только утвердили решимость использовать что-то более продвинутое. Поэтому, когда спустя пару лет у меня возникла задача разделить выходящий из электросчетчика провод на две линии (особенность дизайна проводки в квартире), я выбрал самый подходящий вариант — WAGO 222. И каждый месяц, снимая показания счетчика, радовался, глядючи на аккуратные коробочки. И, конечно же, этого поста не было бы, если бы дальше не случилось «однако». Начиная с какого-то времени в коридоре стал чувствоваться слабый запах паленой проводки. Точное место проблемы не находилось, а по времени феномен совпадал с этапом нагрева воды стиральной машинкой. Постепенно запах начал возникать на все более низкой температуре стирки и становился сильнее. А очередной осмотр проводки преподнес неприятный сюрприз: потеки пластика на обоих WAGO 222 и отчетливо обугливающаяся изоляция в них входящих проводов.


Прекратите скручивать (восклицательный знак)

Reading time6 min
Views1.8M
Ну действительно, прекратите. Есть куча прикольных штук для соединения самых разнообразных проводов, а все равно технология «откусить зубами изоляцию, скрутить, замотать изолентой» жива до сих пор.

Дальше много текста, фотографий, разборок. Ну все как обычно

Telogreika v1.0 — носимое устройство персонального обогрева на Arduino

Reading time8 min
Views31K
image

На картинке скрин из нашумевшей игры про не очень далёкое будущее. Заметили странный воротник у типа? Думаете что это такое? Признаюсь честно, я совсем не пытался выяснить назначение этого устройства по сюжету, но мне сразу подумалось, что художник пытался изобразить ИНФРАКРАСНЫЙ ОБОГРЕВАТЕЛЬ! По-моему, логично. Сколько бы вы не протезировали органов и сколько бы дырок в черепе под нейролинк не насверлил вам Илон Машк, остатки вашей биологической плоти будут предательски старомодно мёрзнуть, создавая всем хорошо знакомое угнетающее ощущение «божечки, я сейчас точно кони двину от холода, если этот автобус не приедет в ближайшую минуту!»

Заходи под кат, чтобы узнать мои мысли по поводу существующих систем персонального обогрева и почему электрические греющие куртки это тупик. Всех с первой зимней пятницей!)

Windows 95 исполнилось 25 лет

Reading time3 min
Views26K

Да, %username%, именно четверть века назад мир увидела новая операционная система от Microsoft с кодовым именем Chicago. Это была многозадачная ОС, которая стала прорывом по сравнению с предыдущими версиями Windows.

24 августа 1995 года ОС поступила в продажу в США, а вот в России она появилась позже — 10 ноября 1995 года. Windows 95 сочетала в себе как возможности MS-DOS, так и возможности предыдущих версий Windows. Да, конечно, пользователи находили поводы для нареканий, например, та же технология «plug and play» была в шутку названа «plug and pray». Но все же Windows 95 была отличной ОС для своего времени.

Windows 95 на двух флоппиках

Reading time3 min
Views16K
В этом году мы отпраздновали четверть века с Windows 95. Её минимальная установка занимала 30 МБ; народные умельцы ужимали её до 5 МБ после удаления всех «лишних» файлов и сжатия UPX-ом оставшихся. А как насчёт двух флоппиков по 1.44 МБ, вместе с загрузчиком?



Общий подход я уже описывал в комментариях: создаётся RAMDRIVE, и на него разворачивается двухтомный SFX-архив. Но есть много тонкостей:

  1. Как видно на видео выше, распакованная папка Windows у меня занимает 6.2 МБ. Я взял за основу список файлов Micro95, и дополнительно удалил файлы, оказавшиеся необязательными — например, шрифты и драйвер dosnet.vxd. Кроме того, vmm32.vxd я распаковал, и удалил бывшие внутри него необязательные драйвера.
Читать дальше →

Как HTTPS обеспечивает безопасность соединения: что должен знать каждый Web-разработчик

Reading time9 min
Views375K


Как же все-таки работает HTTPS? Это вопрос, над которым я бился несколько дней в своем рабочем проекте.

Будучи Web-разработчиком, я понимал, что использование HTTPS для защиты пользовательских данных – это очень и очень хорошая идея, но у меня никогда не было кристального понимания, как HTTPS на самом деле устроен.

Как данные защищаются? Как клиент и сервер могут установить безопасное соединение, если кто-то уже прослушивает их канал? Что такое сертификат безопасности и почему я должен кому-то платить, чтобы получить его?
Читать дальше →

Динамика квадро-, гекса- и октокоптеров. Моделирование системы управления

Reading time14 min
Views9.8K
Продолжение статьи "Введение в моделирование динамики квадро-, гекса- и октокоптеров".

В этой части автор Александр Щекатуров, рассказывает основные принципы создания системы управления и ее моделирования в структурном виде. Всем кто одолел первые части лекций по теории управления в технических система, все будет ясно и понятно (ну почти). Лекции на хабре лежат по ссылкам:

  1. Введение в теорию автоматического управления.
  2. Математическое описание систем автоматического управления 2.1 — 2.3, 2.3 — 2.8, 2.9 — 2.13

В данной статье мы попробуем применить эти данные на практике. Используя модель, мы разберемся как воздействовать на коптер, что бы он летел в нужную нам сторону.



Читать дальше →

Электронная почта и работа с ней в Java-приложениях

Reading time14 min
Views50K

Disclaimer
Статья написана для новичков и тех, кому хочется шаг за шагом понять как устроена работа с электронной почтой из Java-приложений. Желающие быстро понять как отправлять электронные письма из Spring-приложений могут сразу переходить к 3 части.


Эту статью я решил написать, потому что не нашел русскоязычных источников про работу c электронной почтой из Java, описывающих имеющиеся библиотеки достаточно полно. На хабре существует статья, посвященная очень узкой задаче по чтению писем (и выводу их содержимого в консоль) и статья с how-to по отправлению
письма с вложениями при помощи Spring Email. Также существует несколько статей (например) на тематических ресурсах, которые приводят порядок действий при работе
с электронной почтой. В этих источниках мне не хватало объяснения основ, на которых стоит
электронная почта и взгляда с высоты на существующие библиотеки для работы с почтой в Java.


Для таких же лапкообразных, как я, написана эта статья. Она дает общие представления о работе электронной почты, разъясняет основные сущности библиотеки Jakarta Mail и дает советы о том, как работать с электронной почтой в Spring-приложениях.

Читать дальше →

Я станцевал бы для тебя Menuet

Reading time8 min
Views21K

История удивительной операционной системы MenuetOS




Идея разработки миниатюрной ОС с оконным графическим интерфейсом, построенной по принципу «вся система на одной дискете», появилась, наверное, одновременно с этими самыми дискетами. Попытки запихнуть компактную операционнку c GUI на съемные носители предпринимались и в девяностые, и в двухтысячные. Одной из таких попыток, со временем превратившихся в серьезный проект, который дожил до наших дней, стала созданная фактически на голом энтузиазме MenuetOS. Эта система отличается от других подобных «стартапов» и замыслом, и используемыми технологиями, и архитектурой.
Читать дальше →

Кейс: как мы на яхте бортовой компьютер заменили

Reading time5 min
Views25K
Расскажу об одном интересном кейсе, как мы меняли и модернизировали бортовые системы на частной яхте, заменили полностью бортовой компьютер, освежили интерфейс пользователя и добавили новые функции.

Читать дальше →

Играем в Doom в среде VMware ESXi на Raspberry Pi

Reading time2 min
Views7.7K

Недавно мы опубликовали статью о VMware ESXi на Raspberry Pi. В начале октября разработчики анонсировали техническое превью гипервизора VMware ESXi на архитектуре aarch64 под названием ESXi-Arm-Fling.

Повторять суть той статьи не будем, вспомним лучше основной вывод — гипервизор на Raspberry Pi нужен для того, чтобы «обкатать» технологию работы ESXi на ARM-процессорах. Но еще можно развлечься. Если у вас есть свободное время, попробуйте тряхнуть стариной, поиграв в Doom в среде VMware ESXi на Raspberry Pi. Под катом — подробности, как это сделать.
Читать дальше →

Интернет вещей по-русски. Baseband-отель LoRaWAN для владельцев RTL-SDR

Reading time4 min
Views9.4K

Концепция переноса обработки сигналов в облако не нова. Во-первых, VRAN (virtual radio access network) это основной способ построения сети операторов сотовой связи. Во-вторых, IoT-сеть компании SigFox строится по тому же принципу, это видно из ее патентов. Проще говоря, это все нереальная круть! Так что же можем сделать мы с вами, чтобы не сидеть на обочине прогресса, а приобщиться к теме?

Читать дальше →

Интернет вещей по-русски. Майнинг радио-эфира, подход Helium

Reading time3 min
Views21K

После прочтения моей последней статьи, где была фраза про майнинг радио-эфира, народ забросал меня вопросами. Причем тут майнинг? И где тут деньги? Намекали, что меня надо в дурдом. Это может быть и так, но вот есть парни — helium.com, над которыми мало кто осмелится смеяться.

Читать дальше →

Интернет вещей по-русски. Минимализм и открытость OpenUNB

Reading time6 min
Views5.6K

Я уже давно влюблен в низкоскоростные системы передачи по радио. Настолько давно и так неудачно, что эта любовь стала казаться мне безнадежной. И вот недавно мне повезло, мне ответили взаимностью.

Читать дальше →

Как 30 строк кода разорвали 27-тонный генератор

Reading time7 min
Views60K

Секретный американский эксперимент 2007 года доказал, что хакеры могут сломать оборудование энергосети так, что его уже невозможно будет починить. И для этого потребуется файл размером с типичный gif



Комната управления в здании национальных лабораторий Айдахо
Комната управления в здании национальных лабораторий Айдахо

В конце октября министерство юстиции США рассекретило обвинительный документ, касающихся группы хакеров, известной как Sandworm [песчаный червь]. В документе США обвинили шестерых хакеров, работающих на ГРУ, в компьютерных преступлениях, проходивших в последние пять лет по всему миру – от саботажа зимней олимпиады 2018 года в Южной Корее до запуска самой деструктивной из вредоносных программ на Украине. Среди этих обвинений упоминается беспрецедентная атака на украинскую энергосеть в 2016-м году, которая была разработана с тем, чтобы не только отключить подачу энергии, но и повредить оборудование энергосети. Когда один из исследователей кибербезопасности, Майк Ассанте, углубился в подробности этой атаки, он обнаружил, что идею взлома энергосетей придумали не русские хакеры, а правительство США – придумало, и испытало её ещё десять лет назад [никаких доказательств в обвинении традиционно не приводится; энтузиасты при помощи нейросети провели поиски людей по фотографиям, приведённым в документах, и один из них оказался очень похож на тромбониста из Барнаула / прим. перев.].
Читать дальше →

Новый конкурс игр для ZX Spectrum — Твоя игра 6

Reading time4 min
Views7.1K

Завсегдатаи Хабра могут вспомнить несколько конкурсов игр для ZX Spectrum (8-битный компьютер, основанный на CPU Z80), которые здесь освещались:



На днях объявлен новый конкурс игр для ZX Spectrum — "Твоя игра 6". Главное отличие “Твоей игры” от “Retro Games Battle” — то, что разрешены работы под отечественное спектрумовское “железо” (которое до сих пор производится энтузиастами).


Что это значит?


Читать дальше →

Information

Rating
Does not participate
Registered
Activity