Comments / Profile of elingur / Habr

How to become an author

User

Profile Publications 3Comments 166Bookmarks 101

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

elingur Jun 2 2016 at 17:04

А не могли бы уточнить, что значит базовый набор признаков CRF? Базовый — это один или тысяча признаков? Причем поскольку CRF граф, то вершины можно соединять как вздумается, т.е. этот «базовый набор» можно чередовать в произвольной последовательности и получать абсолютно разные результаты.
Сколько у вас типов (классов) сущностей? — От этого так же сильно зависит точность.
Дело в том, что на том же CRF я получал от 85 до 92 % точности на пяти типах сущностей. При этом скорость порядка 400-500кБ/с — но это уже от движка зависит.

0

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

elingur May 30 2016 at 10:13

ИМХО сверточные сети не лучший выбор для NLP. Для распознавания изображений — да, а вот для текста их применение не оправдывает себя: статистические методы неплохо справляются со многими задачами обработки текста, при этом и в обучении, и в настройке проще. Я бы смотрел в сторону Марковских сетей, графических моделей.

0

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

elingur May 27 2016 at 10:21

Помниться, на одном из семинаров по кластеризации соц.медиа, докладчик убедительно демонстрировал, что больше всего в интернете «говорят» о кулинарии. Однако, это не так. Дело в том, что тема «кулинария» отлично кластеризуется (всегда образует четкий кластер), как, кстати, и «авто». Поэтому появление этих тем в топе как раз не удивительно. Вот все остальное кластеризовать труднее, приходится придумывать всякие «костыли».
Я бы рекомендовал запихать в bag of words би- и триграммы (не все, а верх частотного распределения), потому что при вашей нормализации, например, «грант» может быть очень далеко от «лады», если есть новости по, скажем, президентским грантам.
А вообще вопрос, долго ли строиться матрица tfidf на получасовом потоке? Ведь ее размер сотни тысяч на сотни тысяч, причем сильно разряженных данных. Обычно это занимает значительное время.

0

Четыре слова, которые нельзя (часть 2)

elingur May 25 2016 at 11:42

Первое — это скорее поведенческая функция, лексика тут может быть ни при чем. А вторая — это идеоматическая: заменил, потому что забыл, или потому что так «интереснее».

+1

Insider API: поиск трендов и быстрая навигация в текстах соц. и традиционных медиа

elingur May 19 2016 at 09:22

Дмитрий, выкладывайте алгоритмы. Мы в вас верим. Все остальное от лукавого.

+1

Как смерть известных людей влияет на работу Википедии

elingur Apr 25 2016 at 10:04

Так ведь понятно почему: многие просто не знают (или слышали краем уха): кто это такой тут помер, что о нем аж в новостях пишут? Вот будут на работе обсуждать, а у меня даже мнения своего нет. А где узнать, как не в вики?

+1

Байесовская нейронная сеть — теперь апельсиновая (часть 2)

elingur Apr 5 2016 at 23:50

Ну да, непорядок: самолеты летают, а крыльями не машут…

Не могу сдержаться спросить:

принцип неопределенности Гезенберга в информационном смысле для нейросети

это — неопределенность одного микробита в одном количестве информации? Ну правда, как можно оперировать макро объектами (нейронами) в микромире?

+1

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

elingur Mar 30 2016 at 15:46

Интересно вот что: если представить соц.медиа как некий живой организм, то а можно как-то прогнозировать (диагностировать) его поведение (отклонения) на какие-либо события, и наоборот, по его поведению предсказывать возможные события (например, в экономике)?

+1

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

elingur Mar 29 2016 at 17:21

Ну наконец-то! Теперь понятно, что делать.

+4

Ученые создали нейросеть, распознающую «пьяные» сообщения в Twitter

elingur Mar 27 2016 at 15:35

Хорошо у вас в Белгороде. Вот наши цены в Питере: газпромовские бассейны (из недорогих) — 450 рэ. (сейчас это 6 евро), 50-метровые бассейны — от 600 рэ (около 8 евро). — это за 45 мин. воды. Сколько стоит водка — наверно сами знаете, от 200 рэ. В Хельсинки 4,5 — 5 евро без ограничения времени + сауна и прорубь. Водка стоит от 15 евро. Да, кстати, у нас средняя стоимость маршрутки по городу — 40 рэ = бутылка 0.5 пива. Так что все относительно.

0

Ученые создали нейросеть, распознающую «пьяные» сообщения в Twitter

elingur Mar 27 2016 at 11:34

Согласен. Помню в Норвегии километров 150 пришлось проехать в поисках ближайшего алко магазина. Да и то за нами закрыл двери в три часа дня в субботу — закрываемся. Но не думаю, что сильно помогает в борьбе с алкоголизмом, самогон никто не запрещал. Например, финам не столько "сухой закон" помог, сколько замена пьянства спортом. Алкоголики остались, но их стало меньше, ибо в стране культивировался активный, здоровый образ жизни. А в когда в России поход в бассейн стоит как две, а то и три бутылки водки (а не наоборот, как, например, в большинстве стран Европы), то не удивителен выбор молодежи.

+1

Ученые создали нейросеть, распознающую «пьяные» сообщения в Twitter

elingur Mar 26 2016 at 09:49

Ну как понятно. Не понятно зачем? Как это

позволит наметить обоснованные пути решения

Открывать бары подальше от дома?

0

Как Big Data используют для анализа фондового рынка

elingur Mar 24 2016 at 10:32

Пионерские работы из этой области появились лет 5-7 назад, но воз и ныне там. Пока это на уровне примитивного предсказания погоды: с 80% точностью можно сказать, что завтра будет примерно такая же погода, как и сегодня. Корреляцию при желании можно найти чего угодно и с чем угодно. SVM и Баес можно конечно использовать, но современные методы уже ушли далеко вперед (например, мультимодальный сентимент анализ, нейросети). Согласен, что между поведением соц.медиа и маркетом связь должна быть. Например, в кризис наблюдается падение эмоциональности и языковой сложности (перплексии). Но пока ничего конкретного не получается вынуть.

0

Word2Vec: классификация текстовых документов

elingur Feb 20 2016 at 11:00

Интересный метод. Я правильно понимаю, что эту технологию получения весов можно использовать взамен разных TFiDF, дабы не мучиться с разряженными матрицами и большими объемами? В том смысле, что для получения семантического вектора, представляющего кластер, разумнее использовать что-то типа TFiDF, но при больших объемах этот метод загибается.
Классификация скорее всего будет хорошо работать. А вот кластеризация — не уверен: при таком подходе привязка к начальному разбиению на кластеры (точнее выбору количества кластеров) сильно будет влиять на результат. Хотя это болезнь практически всех методов кластеризации.

0

«Ловушки сознания»: Как исследователи обманывают себя

elingur Feb 19 2016 at 11:05

Квантовую физику давно изучают при помощи «голой» математики,

Квантовая механика основана на экспериментах, более того, в свое время она очень сильно повлияла на развитие некоторых областей математики, т.е. сначала была физика, а потом под нее "доразвили" математику.
Математика для физики — я согласен — только инструмент. Но сама по себе она является одним из способов познания мира. И на нынешнем этапе развития человечества наиболее удобным и успешным методом, но не единственным.

0

«Ловушки сознания»: Как исследователи обманывают себя

elingur Feb 19 2016 at 10:47

математика не наука?

+1

Кварцевый носитель, способный хранить большие массивы данных миллиарды лет, идет в массы

elingur Feb 18 2016 at 10:42

Ну наконец-то! Если я не ошибаюсь, примерно четверть века назад это называли квантовыми стеклами (тогда только начинали эти исследования).

0

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

elingur Feb 17 2016 at 14:29

Идея семантического поиска не нова, но я ни разу не видел хорошей полноценной реализации. Семантический поиск в Comperno так же завязан на онтологиях и жестко заданном списке отношений (их там более шестисот, кажется), поэтому хорошо работает на хороших текстах, т.е. эту технологию легко заточить под коропоративный поиск, внедрить в документооборот, но говорить о семантическом поисковом движке не приходится (несмотря на заявленный ими Findo): скорость индексации около предложения в секунду. А в целом согласен с комментарием Сергея — омонимия не даст жить спокойно, даже при успешно реализованной кореференции и анафоре. Мое мнение — онтологиями и списком связей (фреймов) эту задачу не решить, нужны другие алгоритмы, автоматически определяющие семантическую близость структур.

+1

Отношение «часть – целое» в темпоральной/событийной онтологии

elingur Feb 11 2016 at 10:50

Интересно еще вот что: подобные онтологии относительно неплохо работают в генеративных системах (на например, модели «смысл-текст» Мельчука), а вот в системах анализа и понимания не работают. Видимо как раз из-за поставленной Вами проблемы: в генеративных системах сама система задает уровни иерархии (отношений), а в системе понимания это сделать сложно или вообще невозможно, т.к. нужен мультимодальный анализ уровня семиотического описания ситуации/действительности, чего пока технически не осуществимо.

0

Как уменьшить количество измерений и извлечь из этого пользу

elingur Feb 5 2016 at 11:02

Поясните, пожалуйста:

при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).

0

4