Pull to refresh
12
0
Send message
А не могли бы уточнить, что значит базовый набор признаков CRF? Базовый — это один или тысяча признаков? Причем поскольку CRF граф, то вершины можно соединять как вздумается, т.е. этот «базовый набор» можно чередовать в произвольной последовательности и получать абсолютно разные результаты.
Сколько у вас типов (классов) сущностей? — От этого так же сильно зависит точность.
Дело в том, что на том же CRF я получал от 85 до 92 % точности на пяти типах сущностей. При этом скорость порядка 400-500кБ/с — но это уже от движка зависит.
ИМХО сверточные сети не лучший выбор для NLP. Для распознавания изображений — да, а вот для текста их применение не оправдывает себя: статистические методы неплохо справляются со многими задачами обработки текста, при этом и в обучении, и в настройке проще. Я бы смотрел в сторону Марковских сетей, графических моделей.
Помниться, на одном из семинаров по кластеризации соц.медиа, докладчик убедительно демонстрировал, что больше всего в интернете «говорят» о кулинарии. Однако, это не так. Дело в том, что тема «кулинария» отлично кластеризуется (всегда образует четкий кластер), как, кстати, и «авто». Поэтому появление этих тем в топе как раз не удивительно. Вот все остальное кластеризовать труднее, приходится придумывать всякие «костыли».
Я бы рекомендовал запихать в bag of words би- и триграммы (не все, а верх частотного распределения), потому что при вашей нормализации, например, «грант» может быть очень далеко от «лады», если есть новости по, скажем, президентским грантам.
А вообще вопрос, долго ли строиться матрица tfidf на получасовом потоке? Ведь ее размер сотни тысяч на сотни тысяч, причем сильно разряженных данных. Обычно это занимает значительное время.
Первое — это скорее поведенческая функция, лексика тут может быть ни при чем. А вторая — это идеоматическая: заменил, потому что забыл, или потому что так «интереснее».
Дмитрий, выкладывайте алгоритмы. Мы в вас верим. Все остальное от лукавого.
Так ведь понятно почему: многие просто не знают (или слышали краем уха): кто это такой тут помер, что о нем аж в новостях пишут? Вот будут на работе обсуждать, а у меня даже мнения своего нет. А где узнать, как не в вики?
Ну да, непорядок: самолеты летают, а крыльями не машут…

Не могу сдержаться спросить:
принцип неопределенности Гезенберга в информационном смысле для нейросети

это — неопределенность одного микробита в одном количестве информации? Ну правда, как можно оперировать макро объектами (нейронами) в микромире?
Интересно вот что: если представить соц.медиа как некий живой организм, то а можно как-то прогнозировать (диагностировать) его поведение (отклонения) на какие-либо события, и наоборот, по его поведению предсказывать возможные события (например, в экономике)?
Хорошо у вас в Белгороде. Вот наши цены в Питере: газпромовские бассейны (из недорогих) — 450 рэ. (сейчас это 6 евро), 50-метровые бассейны — от 600 рэ (около 8 евро). — это за 45 мин. воды. Сколько стоит водка — наверно сами знаете, от 200 рэ. В Хельсинки 4,5 — 5 евро без ограничения времени + сауна и прорубь. Водка стоит от 15 евро. Да, кстати, у нас средняя стоимость маршрутки по городу — 40 рэ = бутылка 0.5 пива. Так что все относительно.
Согласен. Помню в Норвегии километров 150 пришлось проехать в поисках ближайшего алко магазина. Да и то за нами закрыл двери в три часа дня в субботу — закрываемся. Но не думаю, что сильно помогает в борьбе с алкоголизмом, самогон никто не запрещал. Например, финам не столько "сухой закон" помог, сколько замена пьянства спортом. Алкоголики остались, но их стало меньше, ибо в стране культивировался активный, здоровый образ жизни. А в когда в России поход в бассейн стоит как две, а то и три бутылки водки (а не наоборот, как, например, в большинстве стран Европы), то не удивителен выбор молодежи.
Ну как понятно. Не понятно зачем? Как это
позволит наметить обоснованные пути решения
Открывать бары подальше от дома?
Пионерские работы из этой области появились лет 5-7 назад, но воз и ныне там. Пока это на уровне примитивного предсказания погоды: с 80% точностью можно сказать, что завтра будет примерно такая же погода, как и сегодня. Корреляцию при желании можно найти чего угодно и с чем угодно. SVM и Баес можно конечно использовать, но современные методы уже ушли далеко вперед (например, мультимодальный сентимент анализ, нейросети). Согласен, что между поведением соц.медиа и маркетом связь должна быть. Например, в кризис наблюдается падение эмоциональности и языковой сложности (перплексии). Но пока ничего конкретного не получается вынуть.
Интересный метод. Я правильно понимаю, что эту технологию получения весов можно использовать взамен разных TFiDF, дабы не мучиться с разряженными матрицами и большими объемами? В том смысле, что для получения семантического вектора, представляющего кластер, разумнее использовать что-то типа TFiDF, но при больших объемах этот метод загибается.
Классификация скорее всего будет хорошо работать. А вот кластеризация — не уверен: при таком подходе привязка к начальному разбиению на кластеры (точнее выбору количества кластеров) сильно будет влиять на результат. Хотя это болезнь практически всех методов кластеризации.
Квантовую физику давно изучают при помощи «голой» математики,

Квантовая механика основана на экспериментах, более того, в свое время она очень сильно повлияла на развитие некоторых областей математики, т.е. сначала была физика, а потом под нее "доразвили" математику.
Математика для физики — я согласен — только инструмент. Но сама по себе она является одним из способов познания мира. И на нынешнем этапе развития человечества наиболее удобным и успешным методом, но не единственным.
Ну наконец-то! Если я не ошибаюсь, примерно четверть века назад это называли квантовыми стеклами (тогда только начинали эти исследования).
Идея семантического поиска не нова, но я ни разу не видел хорошей полноценной реализации. Семантический поиск в Comperno так же завязан на онтологиях и жестко заданном списке отношений (их там более шестисот, кажется), поэтому хорошо работает на хороших текстах, т.е. эту технологию легко заточить под коропоративный поиск, внедрить в документооборот, но говорить о семантическом поисковом движке не приходится (несмотря на заявленный ими Findo): скорость индексации около предложения в секунду. А в целом согласен с комментарием Сергея — омонимия не даст жить спокойно, даже при успешно реализованной кореференции и анафоре. Мое мнение — онтологиями и списком связей (фреймов) эту задачу не решить, нужны другие алгоритмы, автоматически определяющие семантическую близость структур.
Интересно еще вот что: подобные онтологии относительно неплохо работают в генеративных системах (на например, модели «смысл-текст» Мельчука), а вот в системах анализа и понимания не работают. Видимо как раз из-за поставленной Вами проблемы: в генеративных системах сама система задает уровни иерархии (отношений), а в системе понимания это сделать сложно или вообще невозможно, т.к. нужен мультимодальный анализ уровня семиотического описания ситуации/действительности, чего пока технически не осуществимо.
Поясните, пожалуйста:
при выборе количества компонент при SVD (как и при PCA, между прочим) ориентируются именно на сумму дисперсий, которую дают учитываемые компоненты.

Это значит считают дисперсию всех сингулярных значений и выбирают те, которые в сумме дают больше 90%? Тогда почему именно дисперсию? Можно и какое-нибудь среднее отклонение посчитать.
По моему опыту зависимость числа выбранных сингулярных значений иногда сильно нелинейно влияет на результат (пробовал на текстах).

Information

Rating
Does not participate
Registered
Activity