Как стать автором
Обновить

Комментарии 22

Зачем в Экселе, если медленно и неудобно? Может, стоит использовать один из доступных электронных словарей, которые поддерживают морфологию и лемматизацию?

https://nlpub.ru/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C
ответ в статье :)
Присоединяюсь к вопросу. Почему выбрана автоматизация на эксель? Это же медленно, ресурсозатратно. Вместо того, чтобы создавать в экселе самостоятельно с нуля лингвистические инструменты — лучше подключать готовые библиотеки. В своё время очень понравилась статья про pymorphy2 — как в ней оптимизировалась память, быстродействие. А тут читаю «формула в эекселе на 3125 символов» и внутренее содрогаюсь.
возможно, я слабо осветил проблему библиотек-морфологизаторов, работающих по правилам «слово заканчивается на то-то, значит оно наверное, то-то, и давай к нему прибавим тогда то-то и то-то».
мой словарь прост по сути — не нашел слово — вернул само слово.
нашел слово — вернул лемму.
так транслиты большинства иностранных слов, брендов, и прочего не превращаются в непойми что.
как-то так.
по поводу скоростей — все на самом деле очень даже быстренько.
сделайте с той же логикой и быстрее :)
Данный словарь содержит порядка 100 000 смысловых парадигм. В сумме весь словарь составляет чуть более 2,5 млн. слов.

Словарь Зализняка — старое издание (1977 год) и среди словоформ нет некоторых самых простых и привычных для 2015 года слов, например, «компьютерный». Именно поэтому его дорабатывает Яндекс, дорабатываю я и при необходимости может доработать любой.

В словаре opencorpor'ы пять миллионов словоформ, открытый, постоянно пополняется. Есть новые словоформы (гугл, компьютерный, мегабит и т.п.), есть географические объекты (Geox), имена и фамилии и т.п.
спасибо, в скором времени добавлю :)
и не думал что эта тема так хорошо проработана.
А еще есть лемматизатор АОТ. Тоже довольно неплохая штука.
именно из-за его логики я и решил создавать статическую БД в excel. слишком много глюков
какого рода глюков? использую его в различных проектах уже много-много лет, глюков не замечал
prntscr.com/88pk4w
вот такие глюки.
Нуу, это разве ж глюки. Таких слов в русском языке просто НЕТ. И подобного рода ерунды можно придумать массу. Вспомним албанский и прочие разновидности. Транслит — это не русский язык. Так что и ожидать от словаря тут нечего. Между прочим, если посмотреть даже онлайн-демо АОТа там есть прекрасное поле Found. И в нём, в зависимости от того, найдено слово или нет, стоит плюс или минус. Достаточно проверять его, чтобы отсеивать подобные догадки лемматизатора. Вот.
Словарь opencorpor'ы успешно интегрирован, на поверку из 5 млн пригодны только 2 (частотность остальных слов менее 20 в месяц по wordstat.yandex.ru)
Также у него другая морфология, адаптировал под зализняка по возможности.
yadi.sk/d/mElByZe4jg7Qb ссылка на новую версию.
https://yadi.sk/d/ayYqQjxpxVq5q
Последняя
Добрый день.
Было бы неплохо добавить лист с краткой инструкцией, объясняющей функции полей и кнопок.
спасибо, хорошо, добавим
Проект заброшен или доведен до какого-то логического конца?
Ваш «робот-распознаватель» пощщщупать не удалось, файл удален с Я.Диска.
Не заброшен, работа ведется
Последняя версия — 6
На нее написали неплохой видеообзор: https://youtu.be/SxBnP-5buP0
Чуть позже ожидается еще одно важное обновление, ускоряющее и расширяющее некоторые возможности, статья на эту тему, и обучающее видео.
Ссылка на последнюю версию:
https://yadi.sk/d/ayYqQjxpxVq5q
Спасибо за напоминание.
Чуть позже ожидается еще одно важное обновление, ускоряющее и расширяющее некоторые возможности, статья на эту тему, и обучающее видео.


А где «ожидается»?
обычно выкладываю анонсы на своих страницах в FB и VK.
https://habrahabr.ru/post/313476/
Пост о бинарном поиске в excel и ссылка на последнюю (6.0) версию файла тут
Зарегистрируйтесь на Хабре, чтобы оставить комментарий