Information
- Rating
- Does not participate
- Location
- Санкт-Петербург, Санкт-Петербург и область, Россия
- Date of birth
- Registered
- Activity
Specialization
Chief Product Officer (CPO), ИИ агенты
Lead
From 500,000 ₽
Project management
People management
Development management
Это да, тут нужен массовый корпус для статистики. Например, на ответы@мейл ру как то обработать. Но там «слишком много букоф», надо выделять тогда что то простое и однотипное из вопросов и ответов.
«Всё выливается в сравнения больших сортированных массивов» — в этом и вся суть подхода, ну и в данных. Мы не использем, например, гиперонимы из вики, только N-граммы из текстов. Вытащить точно связи из такого сильно связного массива очень непросто имхо. Тут как раз дело в тонкостях.Мне кажется Вы уже столкнулись с ними.
П.С. адрес почты в презентациях действующий, если что туда можно писать (не все готов тут обсуждать).
По поводу нейронных ансамблей, совершенно верно, с одним уточнением — есть распространенные слова, а есть специфические. Первые хороши для распространения активации, а вот вторые более ценны для выбора конкретного ответа. Для этого надо выравнивать их веса, чтобы распространенные, которые одинаково связаны со всем и вся, не «зашумляли» селективное действие специфических лемм. Кроме того, бОльшую роль должны имхо играть число связей, а не вес отдельных N-грамм. Вы уже играли с этим насколько я понял? И если не секрет, на какой базе можно все эти «распространения активации» учитывать и оперативно подсчитывать? Даже не представляю при нескольких миллионах слов и… много связей.
«По крайней мере понятно, в каком направлении копать для поддержки диалога в виде общей картины мира» — теперь и я понял, когда дочитал про «народную онтологию». Это именно то, что и я пытаюсь сделать, так что будем рулить в одном направлении в этом аспекте. Но я не в аспекте диалога. Поэтому про формат ответа мало что могу подсказать. Но учитывая опыт ботов, пару десятков синтаксических шаблонов должны решить проблему. Ответы не обязаны быть настолько же многообразны по формам как и вопросы. Можно включить для разнообразия рефлексию оборотов, примененных в вопросе (а-ля, как ты думаешь — я думаю, что).
А так, насколько мне известно, такая омонимия неплохо разрешается статистическим таггером (Russian statistical taggers and parsers by Serge Sharoff).
Я спрашивал про другое — когда одно слово является определением группы слов, то есть имеет связь, но не с одним из них (например, с вершиной именной группы), а со всей группой как с совокупностью. Как в определениях, ну например, «лужайка — небольшое поле с травой». Тут не только связь лужайка — поле. Этого как раз мало, если только такие связи устанавливать, получается каша (все со всем связано).
П.С.2 Поддержка диалога — это вы сразу за слишком сложную задачу взялись имхо. Для простых реплик может быть и ничего, но в диалоге много прагматики и знаний по умолчанию (люди в диалоге опираются на общую картину мира, которая не эксплициролована в диалоге). Может локализовать для отработки на более узких задачах, как вы же предлагали судя по slideshare для колл-центов и для уточнения поисковых запросов.
П.С.2 очень странное поведение организаторов Диалога. У вас самая оригинальная разработка имхо из всех, и никакого места не дали. Остальные привезли давно опробованные технологии, которые как то типа доработали. Я вам отдаю второе место уверенно )) Ну только потому что Компренто переплюнуть трудно одному ))
очкариккрутой. Такое «снять-надеть» надоест даже стойкому гику. В очках просто не удобно. Они нужны именно Иногда. А вот ту и выясняется, что иногда удобнее применять часы, а не носить для «иногда» постоянно очки.Дополненная реальность? Во-первых, в очках от Гугла ее пока не много, да и то что есть трудно назвать таковой в полном смысле. Распознание объектов есть только по месту (типа эта та самая достопримечательность). Объекты — только по логотипу или штрих коду реально. См. Google Googes. Приделать к часам камеру (тот же Gear) и будет ровно та же дополненная реальность, но на часах — направил, сфоткал, получил доп инфо.
Но в остальном пожалуй автор лукавит — штампованное китайское будет стоить гораздо дешевле, чем принтер + пластик + время на разбирательство со всем этим.