Comments / Profile of elingur / Habr

@elingur

User

Profile Publications 3Comments 166Bookmarks 101

Синтаксический анализ текстов с помощью SyntaxNet

elingur Dec 15 2016 at 09:35

Спасибо, интересная вещь. А что со скоростью, можно ли на поток ставить?

Look

Искусственный интеллект, вызовы и риски – глазами инженера

elingur Nov 18 2016 at 17:51

Вы хотите, чтобы микроволновка могла на вас обидеться и отказаться работать?

Если мы говорим о полноценном ИИ, то да. А если как о частичной замене человека — то зачем эмитировать мышление? Большинство машинных задач, причем даже и семантических, не имеют к мышлению никакого отношения.
P.S. Я говорил не о эмуляции эмоций, а порождении языка «на эмоциях» (в ключе генеративной грамматики и пр., только еще глубже :). Это немножко сложнее, чем Байес.

Look

Искусственный интеллект, вызовы и риски – глазами инженера

elingur Nov 18 2016 at 12:59

Тогда какой смысл в неросетках, если я те же результаты получаю стандартными стат. методами, обучаясь на небольших датасетах?
Не уверен, что человеческое мышление можно повторить, поскольку оно не логично, а скорее мифо-логично. Да и зависит от состояния паралимбической области мозга в данный момент времени, т.е. определяется эмоциональным состоянием, а логикой обучения.

По поводу больших датасетов: ИМХО внедрение новейших технологий гуглом ухудшило поиск — теперь сложно получить ответ на специфический запрос, выходящий за пределы парадигмы. Поэтому дело не только в данных, но и «гибкости» решения.

Look

Искусственный интеллект, вызовы и риски – глазами инженера

elingur Nov 18 2016 at 12:07

Согласен, что нейросетки достигли определенного прогресса в распознавание образов и речи (те же образы, только спектральные). Но в лингвистике увы и ах (за исключением простых задач, типа классификации текста). Ибо главная задача нейросети — минимизировать ошибку распознавания образа. Но в лингвистике образ семантический, который можно передать тысячами способами словесных цепочек. Технологии, позволяющие вынимать смысловой образ из текста, пока в зачаточной стадии развития (я не беру в рассмотрение тяжелые и туманные LSA или LDA). Поэтому я не спешу быть в тренде и переводить целиком систему на нейросети. Скорее использовать локально, для оптимизации промежуточных результатов.

Look

Решение проблемы понимания контекста искусственным интеллектом. Часть 1

elingur Nov 16 2016 at 09:47

путем прямого копирования структур и процессов психики человека

Интересно, как вы собираетесь копировать эмоции человека (без чего не может быть и речи о полноценном ИИ)?
С точки зрения обработки текста я не вижу ничего нового, скорее наоборот — все это прошлый век. Сейчас появились разве что новые технологии. Но тем не менее, дабы не быть голословным: можно ли посмотреть демо?

Look

Искусственный интеллект в поиске. Как Яндекс научился применять нейронные сети, чтобы искать по смыслу, а не по словам

elingur Nov 3 2016 at 15:44

Скорость Compreno ~ одно предложение в секунду, ежедневный только русскоязычный поток порядка тысячи предложений в секунду. Поэтому Compreno живет на небольших статических коллекциях документов.

Look

elingur Nov 3 2016 at 12:07

вычислить дистанцию до центра кластеров

w2v не выдает веса по кластерам. Значит, центры кластеров можно получить, как я понимаю, только один путем: по порядковому номеру слова в кластере. Не очень понятно, что это дает — центры будут у всех где-то в центре словаря. Идея же в другом: понизить ранг низко информационных кластеров (типа частотных слов) и поднять у семантически наполненных.
Хотя ваша идея сравнивать «семантическую» сигнатуру документов очень правильная.

Look

Как меняется мораль со сменой языка

elingur Sep 29 2016 at 09:57

… моральные суждения на чужом языке не так связаны с эмоциональным реакциями, которые появляются при использовании языка, который мы учили в детстве.

Тут еще глубже: язык образуется на эмоциях. Не то, что говорит человек, а как. Без эмоций человек бы просто передавал информацию, как компьютер. В этом смысле информационная функция языка вторична.
А результат с моралью на другом языке объясним. Если это не билингв, то при овладении вторым языком сильно участвует правое полушарие (иногда называемое логическим). Эмоции, которые мешают нам принимать рациональное решение, в первую очередь идут из паралимбической области в зону Брока (и Вернике) при языковой (речевой) коммуникации. Поэтому и «моральные» решения должны отличаться.

Look

Графические модели на основе гауссовых копул

elingur Sep 7 2016 at 14:26

Тут вопрос не в этом. Не сама обработка данных (опросов), а применение графических моделей для обработки лингвистических данных. Да, активно применяются. В частности Conditional Random Fields. Как правило их используют в сложных задачах, там где много параметров (поиск именованных сущностей, сентимент анализ). Причем результаты достаточно впечатляющие.

Look

Обзор задач компьютерного зрения в медицине

elingur Sep 5 2016 at 11:40

добавлю сюда ссылочку на небезызвестного в data mining Воронцова К.В. Применение машинного обучения и вычислительной лингвистики для диагностики заболеваний по электрокардиограмме

Look

Как «моделируют будущее» в Университете ИТМО: от предсказания поведения толпы до анализа мнений в соцсетях

elingur Aug 30 2016 at 09:59

Да нет, не из бумажек. Уже давно на эту тему были исследования по соц.медиа. Например, на хабре, ну и, ес-но, google flu

Look

Анализ Корана при помощи AI

elingur Aug 19 2016 at 09:54

А вы попробуйте запихать в Ватсона кулинарную книгу или инструкцию мед.препарата. Полагаю, что так же удивитесь.
Вряд ли Ватсона обучали на Коране, поэтому его реакция на него может быть абсолютно непредсказуемой. Было бы интереснее посмотреть, почему именно негатив или позитив, в чем? Думаю, ошибок так будет не мало.

Look

Кого агрегирует Meduza?

elingur Aug 16 2016 at 11:44

Спасибо. Практически в рукопашную с последующей классификацией по шаблонам.

Look

Кого агрегирует Meduza?

elingur Aug 12 2016 at 11:14

как они агрегируют?

Вопросы по поводу как: для агрегации используется классификация или кластеризация? На основе источников или по тексту? Можно ли что-то почитать по методам кластеризации/классификации на медузе?

Look

Deep Learning — что же делать, кого бить

elingur Aug 4 2016 at 13:08

Можно и без SVD, можно и pLSA. А последовательность можно хранить, применив n-gramm, или что-то типа PMI. С предложениями тяжело, конечно, будет. Но их и не нужно. Важны только ключевые термы. То есть, нейросети в чистом виде не очень интересны для языка. Другое дело гибридные, когда какую-нить Байесовскую сеть можно запихнуть для оптимизации результатов CRF. Или CNN для уменьшения размерности параметрического пространства. Мне кажется это перспективнее.

Look

Deep Learning — что же делать, кого бить

elingur Aug 4 2016 at 12:56

ну не совсем простые, на каждое слово вектор, т.е. матрицы сравниваются, типа термы-документы, но уже не разряженые.

Look

Deep Learning — что же делать, кого бить

elingur Aug 4 2016 at 12:47

Это понятно. Но тут как бы и нейросети и не нужны. Простые векторные модели это неплохо делают. А графические еще лучше. Т.е. получив «близкие слова», дальше уже масса вариантов их использования. Но вот получить их получается только «под задачу» — зависит от корпуса. А хочется «как в жизни»…

Look

Deep Learning — что же делать, кого бить

elingur Aug 4 2016 at 12:10

все верно, с языком сети не будут хорошо работать. Ибо нужно сравнивать не «образы слов» (лексики и ее всевозможных грамматических атрибутов), а семантических образов. А для этого пока есть только одно решение — онтологии. Но и оно пока неподъемно в общем случае. Поэтому если и пытаться запихивать язык в нейросети, то не лоб, а каким-то особым извращенным способом (типа через LDA/LSA и подобное).

Look

Вторые ряды ассоциаций, или как заставить робота читать «между строк»

elingur Jun 29 2016 at 22:36

созданию полноценного программного сознания

Сознание — это не совокупность ассоциаций разного порядка. Это раз. А во вторых, существует много методов автоматического поиска разного рода ассоциативной лексики. Посмотрите классику: LDA,LSA, pLSA.

Look

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

elingur Jun 6 2016 at 09:58

F1, объем обучающей — около 80 т. предложений.
Использую графематические признаки (их штук 10-15) и н-граммы слов (так же до трех).
POS-tags не дает прироста, нормализация слов (со снятием омонимии) дает прирост чуть более процента, но тормозит процесс в 3-4 раза. То есть модуль работает на потоке с плоским текстом, но быстро.

Look

1 2

4 5 ...

8 9