Комментарии / Профиль nzhiltsov / Хабр

Никита Жильцов@nzhiltsov

Пользователь

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 7 мая 2015 в 09:29

Есть хорошие академические проекты типа проекта наших коллег из ИСП РАН — Texterra. Участники нашего хакатона использовали Texterra API бесплатно. Но насколько они открыты в каждом отдельном случае лучше связаться и уточнить у авторов.

Вообще, рекомендую ресурс NLPub наших коллег из Екатеринбурга. Там много разной информации по теме.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 6 мая 2015 в 19:09

Вот тогда у вас будет полезный и интересный продукт, на который будут подписываться. Но пока это никому не подсилу. Так что вам еще раз успехов )

Жирик

Извините, напомнило:D Если серьезно, мы классический стартап: у нас нет цели в создании swiss army knife с самого начала. В целях экономного расходования средств новые функции приоритезируются на основе спроса платящих клиентов. Кроме того, у нас есть форум, где можно предлагать и голосовать за новые функции. В любом случае мы прислушиваемся к вашему мнению.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 6 мая 2015 в 09:42

Спасибо за мнение. Наши соображения:

речь идет об индексации не всех документов компании (конечно, не стоит рисковать закрытой налоговой отчетностью или чем-то подобным)
компании уже много что хранят в облаке: возьмите примеры клиентов Box, DropBox, Google Docs
мы не храним исходные тексты, а, по сути, только поисковый индекс + дополнительные метаданные
при востребованности мы добавим возможности передачи данных по HTTPS, шифрованному хранению метаданных
наконец, если вашу компанию совсем не устраивает SaaS, мы предлагаем on-premise решение — копию сервиса, разворачиваемую на инфраструктуре клиента.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 13:20

Спасибо за мнение!

1) В отличие от модели Mashape (хотя мы есть и там) у нас ограничение по объему отправленных данных, а не по обращениям. Сейчас это 100 Мб/мес. (после чего счетчик пользователя обнуляется). Правда, стоит иметь в виду, что есть ограничение на параллельную загрузку. В бесплатном варианте — это только одно соединение. То есть при попытке с одним и тем же токеном авторизации заливать данные в несколько запросов одновременно, сервис вернет сообщение об ошибке.

2) Мы планируем оставить бесплатный вариант навсегда (возможно, будут уточняться какие-то ограничения). Как люди из академии, мы видим в этом возможность для студентов и людей из исследовательской среды использовать наш сервис как baseline, тестировать свои подходы и двигать науку!

Сейчас бета-тестирование проходит при поддержке компании Селектел (наш стартап — лауреат программы «Легкий старт»), за что мы им очень благодарны.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 12:49

Если выделить самые интересные проекты, то это извлечение бизнес-событий (т.н. триггеров) и извлечение проблем для компании HP.

В целом, Textocat решает проблему высоких затрат на разработку и сопровождение программного обеспечения для анализа неструктурированных текстовых данных. Мы видим ценность нашего сервиса в следующих аспектах:

Нашим клиентам не надо:

искать высокооплачиваемых специалистов (data scientists) для реализации аналогичных функций — нашу технологию внедрит средний программист с з/п в 2-3 раза меньше
покупать дорогостоящее ПО и собственные серверы
платить за дорогие лицензии на аналогичное ПО и убеждаться потом, что их проект «не полетел».

Таким образом,

Textocat снижает издержки на разработку ПО для анализа текстов
Textocat снижает издержки на инфраструктуру (оплата серверов)
Textocat предлагает гибкую тарификацию в зависимости от объема обработанных данных: прототипируйте, проверяйте свои идеи и пусть ваши затраты растут с ростом вашего бизнеса.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 12:38

Спасибо! Мы будем улучшать, и, конечно, видим как. В остальном, будем рады сотрудничать и в коммерческом аспекте, и в смысле развития open source стека.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 12:34

И добавить нечего:) Примеры таких сервисов: YouScan, Крибрум, SemanticForce и т.д.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 12:33

Первый кейс, который легко объясним, — это поиск по документам. Абсолютно классический. Далее, возможность искать сущности в документах, а не просто ключевые слова. Применения этих возможностей можно найти хоть в Веб поиске, хоть в поиске по документам организации.

Более нетривиальные примеры мы обязательно приведем в ближайшей публикации. В основном, будем ориентироваться на примеры из американского рынка. В качестве «затравочки» позвольте привести ссылку на замечательный пост наших друзей из Orb Intelligence, который несколько приоткрывает интересные бизнес возможности.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 12:27

Сейчас 100% гарантии не дадим:) но в принципе это возможно: зависит от контекста и корпуса, на котором обучается система.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 12:25

TextoKit обязательно опубликуем и надеемся на помощь community в его развитии! Также планируем в будущих публикациях описать Apache UIMA и примеры того, как писать аннотаторы для этой технологии.

Извлечение упоминаний сущностей и поиск в Textocat API

nzhiltsov 5 мая 2015 в 12:24

привет, мы рады, что наш проект находит такой отклик! Выходные данные научных публикаций, уже вышедших в печать, можно найти у нас в профилях на LinkedIn (см. раздел «Команда» на сайте textocat.com), ну а дальше Google Scholar в помощь:)