eocron Feb 29 2016 at 18:31

ORegex: От символов к объектам

4 min

8.6K

Open source*.NET*C#*

+10

Comments 18

VersusVoid Feb 29 2016 at 19:07

Есть прекрасная библиотека от Стэнфорда. Правда на джаве, но с биндингами для .NET. Для лентяев поясните вкратце, пожалуйста, чем она вас не устроила и какие у вашей преимущества?

eocron Feb 29 2016 at 19:17

Честно скажу, она не успела произвести на меня впечатления, так как я узнал о ней недавно :)
Я изначально делал упор на общедоступность и скорость. К сожалению, использовать явовские библиотеки стенфорда свободно нельзя (лицензия) и интероп — тоже не сахар. Кстати, за неимением функциональности явовский аналог медленнее. Бенчмарк я постараюсь выложить на гитхабе, как будет минутка.

VersusVoid Feb 29 2016 at 19:30

Спасибо, именно это я и хотел бы увидеть. Один хороший бенчмарк стоит тысячи слов.

QtRoS Mar 1 2016 at 10:40

Я изначально делал упор на общедоступность и скорость

Без сравнительных тестов это маркетинг. Присоединяюсь к VersusVoid

eocron Mar 1 2016 at 11:22

А вы знаете, что такое маркетинг? Просто слово модное и, часто, не все понимают его значение )

QtRoS Mar 1 2016 at 15:02

Смысл же все равно уловили наверняка?
Так что насчет бенчмарков?

eocron Mar 1 2016 at 16:18

Нет, не уловил.
На выходных.

Holms Mar 1 2016 at 07:41

Я уж начал почесывать руки и сразу начал думать как бы я это использовал для моего проекта, но не тут то было, оказывается без разбивки текста (предложения) на токены ничего не будет работать.
Есть идеи как все это автоматизировать для больших текстов?

eocron Mar 1 2016 at 08:13

Как правило все проблемы в лингвистике решаются двумя путями: эвристики в которых безбожно пишутся регулярки и словарные методы и машинное обучение. В данном случае лучше машинным обучением на разделителях. Почитайте на мейл ру, а так же в интернете. Есть много литературы на эту тему и качество у моделей часто высокое и достаточное для бизнес процессов.

Nashev Mar 1 2016 at 10:21

Сейчас поверх дерева разбора, которое создает Компрено, у ABBYY продается работающий Data Extractor, который вместо ваших регулярок использует свой язык описания паттернов извлечения нужных данных (они сделанный для отдельной задачи комплект называют онтологией). Возможно, язык регулярок им тоже бы приглянулся, или Вам может быть при сравнении что-нибудь про его недостатки стало бы понятно

eocron Mar 1 2016 at 10:59

Я бы сказал, что некорректно сравнивать многофункциональную документо-дробилку и прикладной фреймворк для .NET на шаблонных коллекциях. Это же вообще разные задачи. Да даже если и можно их использовать (через обертку) так же удобно как в этой статье, то я не думаю, что это хорошая идея таскать за собой танкер вместо поплавка. Да и денежный вопрос как-то напрягает, не у всех есть возможность составить договор с ABBYY на круглую сумму.

Nashev Mar 1 2016 at 11:05

Неэтично, хотели сказать? Типа, это сравнение априори понятно по каждому аспекту, в чью пользу? Потому как параллели провести вполне полезно, ведь одну и ту же задачу решаете, только в разном масштабе заморочек и сложностей. Это как лопата и экскаватор — вещи разные, но общее назначение есть.

eocron Mar 1 2016 at 11:18

За тем исключением, что экскаватором цветы не сажают =) На самом деле это только кажущееся общее назначение. Параллели были проведены заранее с уже существующими инструментами: чтобы не придумывать свой язык, я выбрал уже устоявшийся в обществе язык регулярных выражений, его даже лингвист без проблем выучит и просто следовал Майкрософтовскому Дзен в видении регулярок. Их используют везде и знает практически каждый. Чего я бы не сказал об ABBYY.

Nashev Mar 1 2016 at 11:35

Зануда mode on
Я ж не спорю с тем, что отличия есть. Но вы зачем-то спорите с тем, что параллели тоже есть...

Я говорил о том, что опора на язык регулярок возможно пригодилась бы и им. Но так же и о том, что у него могут найтись недостатки.

eocron Mar 1 2016 at 12:12

А, ну, они и сами не дураки, думаю, догадаются. Недостатки и плюсы регулярок описаны на википедии. А недостатки моей реализации исправляю, пока что, я сам.

potan Mar 3 2016 at 14:22

Есть методика построения парсеров — комбинаторные или монадические парсеры. По ней анализ последовательности с использованием дополнительных рукописных предикатов реашется очень легко и элегантно.

eocron Mar 3 2016 at 15:59

А при чем здесь парсинг? Парсинг в RE появился как полезный нарост с течением времени. Безусловно, грамматиками можно сделать все, но кому это надо? У них логика сложнее и часто вообще не практично их использовать. Ни в плане разработки, ни в плане конечного результата.

starius Jul 9 2016 at 02:55

Мне эта разработка напомнила lpeg.

Там тоже можно вешать произвольную функцию-обработчик на кусочек сматченного текста и делать вложенные штуки. Можно, к примеру, сделать парсер JSON или другого формата с произвольной вложенностью. Вот я сделал парсер формата деревьев Newick, просто переписывая его грамматику из википедийной статьи.

Show the best of all time