Обновить
9
0
Никита Жильцов@nzhiltsov

Пользователь

Отправить сообщение
Есть хорошие академические проекты типа проекта наших коллег из ИСП РАН — Texterra. Участники нашего хакатона использовали Texterra API бесплатно. Но насколько они открыты в каждом отдельном случае лучше связаться и уточнить у авторов.

Вообще, рекомендую ресурс NLPub наших коллег из Екатеринбурга. Там много разной информации по теме.
Вот тогда у вас будет полезный и интересный продукт, на который будут подписываться. Но пока это никому не подсилу. Так что вам еще раз успехов )


Жирик



Извините, напомнило:D Если серьезно, мы классический стартап: у нас нет цели в создании swiss army knife с самого начала. В целях экономного расходования средств новые функции приоритезируются на основе спроса платящих клиентов. Кроме того, у нас есть форум, где можно предлагать и голосовать за новые функции. В любом случае мы прислушиваемся к вашему мнению.
Спасибо за мнение. Наши соображения:
  • речь идет об индексации не всех документов компании (конечно, не стоит рисковать закрытой налоговой отчетностью или чем-то подобным)
  • компании уже много что хранят в облаке: возьмите примеры клиентов Box, DropBox, Google Docs
  • мы не храним исходные тексты, а, по сути, только поисковый индекс + дополнительные метаданные
  • при востребованности мы добавим возможности передачи данных по HTTPS, шифрованному хранению метаданных
  • наконец, если вашу компанию совсем не устраивает SaaS, мы предлагаем on-premise решение — копию сервиса, разворачиваемую на инфраструктуре клиента.
Спасибо за мнение!

1) В отличие от модели Mashape (хотя мы есть и там) у нас ограничение по объему отправленных данных, а не по обращениям. Сейчас это 100 Мб/мес. (после чего счетчик пользователя обнуляется). Правда, стоит иметь в виду, что есть ограничение на параллельную загрузку. В бесплатном варианте — это только одно соединение. То есть при попытке с одним и тем же токеном авторизации заливать данные в несколько запросов одновременно, сервис вернет сообщение об ошибке.

2) Мы планируем оставить бесплатный вариант навсегда (возможно, будут уточняться какие-то ограничения). Как люди из академии, мы видим в этом возможность для студентов и людей из исследовательской среды использовать наш сервис как baseline, тестировать свои подходы и двигать науку!

Сейчас бета-тестирование проходит при поддержке компании Селектел (наш стартап — лауреат программы «Легкий старт»), за что мы им очень благодарны.
Если выделить самые интересные проекты, то это извлечение бизнес-событий (т.н. триггеров) и извлечение проблем для компании HP.

В целом, Textocat решает проблему высоких затрат на разработку и сопровождение программного обеспечения для анализа неструктурированных текстовых данных. Мы видим ценность нашего сервиса в следующих аспектах:

Нашим клиентам не надо:
  • искать высокооплачиваемых специалистов (data scientists) для реализации аналогичных функций — нашу технологию внедрит средний программист с з/п в 2-3 раза меньше
  • покупать дорогостоящее ПО и собственные серверы
  • платить за дорогие лицензии на аналогичное ПО и убеждаться потом, что их проект «не полетел».


Таким образом,
  • Textocat снижает издержки на разработку ПО для анализа текстов
  • Textocat снижает издержки на инфраструктуру (оплата серверов)
  • Textocat предлагает гибкую тарификацию в зависимости от объема обработанных данных: прототипируйте, проверяйте свои идеи и пусть ваши затраты растут с ростом вашего бизнеса.

Спасибо! Мы будем улучшать, и, конечно, видим как. В остальном, будем рады сотрудничать и в коммерческом аспекте, и в смысле развития open source стека.
И добавить нечего:) Примеры таких сервисов: YouScan, Крибрум, SemanticForce и т.д.
Первый кейс, который легко объясним, — это поиск по документам. Абсолютно классический. Далее, возможность искать сущности в документах, а не просто ключевые слова. Применения этих возможностей можно найти хоть в Веб поиске, хоть в поиске по документам организации.

Более нетривиальные примеры мы обязательно приведем в ближайшей публикации. В основном, будем ориентироваться на примеры из американского рынка. В качестве «затравочки» позвольте привести ссылку на замечательный пост наших друзей из Orb Intelligence, который несколько приоткрывает интересные бизнес возможности.
Сейчас 100% гарантии не дадим:) но в принципе это возможно: зависит от контекста и корпуса, на котором обучается система.
TextoKit обязательно опубликуем и надеемся на помощь community в его развитии! Также планируем в будущих публикациях описать Apache UIMA и примеры того, как писать аннотаторы для этой технологии.
привет, мы рады, что наш проект находит такой отклик! Выходные данные научных публикаций, уже вышедших в печать, можно найти у нас в профилях на LinkedIn (см. раздел «Команда» на сайте textocat.com), ну а дальше Google Scholar в помощь:)
2

Информация

В рейтинге
Не участвует
Откуда
Казань, Татарстан, Россия
Зарегистрирован
Активность