artemev 28 дек 2011 в 11:56

Интеллектуальные диалоговые системы с интерфейсом на естественном языке

5 мин

16K

Искусственный интеллект

Из песочницы

+20

Комментарии 76

RaJa 28 дек 2011 в 12:00

Как насчет адаптировать эту систему для организации человекообразного интерфейса с ПК? подача команд, самообучение ИИ, исследование мира роботом, описание найденных объектов.

artemev 28 дек 2011 в 12:43

Самое главное создать эту систему. Сделать ее максимально гибкой и самообучаемой. Если в итоге система окажется эффективной, то потенциал ее применения станет поистине безграничен.

И кстати, эта статья (вернее цикл статей, т.к. будет еще несколько) это не просто теоретический треп об искусственном интеллекте и диалоговых системах. Я действительно пишу такую систему.

Тема искусственного интеллекта интересна мне с того самого момента как я узнал о программировании. Мною было предпринято несколько попыток создания ИДС. Но все они по разным причинам терпели неудачу (не то чтобы вообще ничего не получилось, но конечный результат не устраивал). Видимо сказывался недостаток опыта и незнание теории.

Теперь же есть и то и другое, поэтому шансы на успех достаточно велики. Плюс надеюсь, что хабражители укажут на мои ошибки, поделятся своим опытом и идеями.

RaJa 28 дек 2011 в 13:40

мне тоже интересна эта тема довольно давно, я как-то начинал писать базу под нее, но одному достаточно сложно уделять этому время и охватить то, что я хочу, а единромышленников особо не нашлось.

DjPhoeniX 28 дек 2011 в 16:26

Вы планируете заниматься проектом в одиночку, или в команде? Если второе, то я с радостью вольюсь в проект. Напишите мне в ICQ (указана в профиле), если интересуетесь совместной разработкой. :)

artemev 28 дек 2011 в 18:10

В одиночку пока не будет создано абстрактное ядро и действующий прототип. А потом уже можно будет собирать команду. Чтобы каждый член решал узкую задачу.

AgentSmith 29 дек 2011 в 07:53

Учитесь писать грамотно, в т.ч. подружитесь со знаками препинания. Вы же всё-таки пишете систему, которая будет понимать русский язык. Иначе проект обречён на провал.
Казнить нельзя помиловать.

AgentSmith 29 дек 2011 в 09:26

Я когда-то тоже занимался подобной темой и даже обзавёлся учебниками русского языка для школьников. Рекомендую.

artemev 30 дек 2011 в 00:43

Система которую я стремлюсь создать поняла бы даже такую писанину как у меня! А вообще мы все тут не на экзамене. Я выражаю свои мысли. Это творческий процесс. Если где-то буква пропущена, лишняя запятая стоит или что-то в этом роде, то ничего особо страшного в этом я не вижу. А учебника я и так читаю, правда более мудреные. Но все равно спасибо.

VolCh 31 дек 2011 в 05:59

Система, к которой вы стремитесь, по идее должна была исправить вашу «писанину» на «нормальную форму». Как это сделать, её не зная, я не знаю :)

x0rHamster 28 дек 2011 в 12:15

Насчет исправления ошибок нужно думать дальше. Например, если система знает, что есть такой мальчик, которого зовут Тиба, то ошибку в вопросе «сколько тибе лет?» просто так не исправить. Придется переспрашивать, о каком «тибе» идет речь — о системе или о мальчике Тибе? И чем дальше, тем сложнее ситуации. Наверное, стоит этот аспект выделить в отдельную систему по исправлению ошибок письменной речи (как орфографических, так и смысловых — заодно избавим систему от измышлений на тему «о лет моя тебе система сколько?»), связав ее с базой знаний основной системы (потому что без нее так никто и не узнает о бедном Тибе). Заодно и всяким Word'ам пинка даст в плане исправления ошибок (^_^)

RaJa 28 дек 2011 в 13:42

Здесь все просто, мы же имитируем человеческое мышление, а когда человеку непонятно, он переспрашивает, называя тот смысл, который понял «Сколько мне лет?» или если система решила, что Тиба — это имя «Сколько Тибе лет?» и тогда получив уточняющий ответ человека ориентируется дальше. Не нужна безошибочная система, нужно самообучающаяся, способная к диалогу с человеком.

x0rHamster 28 дек 2011 в 14:24

ИМХО, почти наверняка все подобные системы рано или поздно сведутся к схеме создания какой-то заготовки и ее последующему обучению, ибо не так-то просто осознанно воссоздать все ассоциации, которые непременно возникнут при поступлении опыта в больших количествах, и запрограммировать их — проще научить систему самостоятельно искать ассоциации и скормить ей очень-очень-очень большой объем данных, периодически помогая в сложных местах. Проблема только в том, что подобный подход упирается в лимиты хранилищ и скорости обработки информации. Зато он очень похож на развитие homo sapiens, чего мы, собссно, и добиваемся.

RaJa 28 дек 2011 в 14:35

Так об этом и речь. Нужно создавать алгоритм обучения и анализа информации. Не нужно задавать все изначально. Только логику работы и правила языка, в процессе обучения остальное будет дано. Только обучать должны не хомячки, которым по-приколу обучить всякой фигне, а начальное обучение нужно делать тем, кто хорошо сознает как и чему учит, тогда система дальше уже будет учиться эффетивнее с верным базовым набором знаний

artemev 28 дек 2011 в 14:34

RaJa полностью с Вами согласен по поводу безошибочности системы. Безошибочную систему создать в принципе невозможно. На любом этапе развития найдется тема в которой интеллект (искусственный или естественный без разницы) будет не компетентен.

RaJa 28 дек 2011 в 14:43

поэтому при проектировании это должно четко осознаваться и решать задачу в условиях возможной ошибки и действия в условиях недостаточности данных и умений. Тогда и скайнета нечего бояться, если в нем не заложено принципа непрогрешимости, то он и не сможет никогда считать себя богом :)

artemev 28 дек 2011 в 14:49

Опять согласен, и более того, полностью это осознаю. Что касается «решать задачу в условиях возможной ошибки и действия в условиях недостаточности данных и умений», то в этом и прелесть интеллекта (любого). Принимать решения в условиях недостатка информации — одна из фундаментальных особенностей, которой должен обладать ИИ и интеллектуальные диалоговые системы в частности.

Кстати, огромное Вам спасибо за инвайт

RaJa 28 дек 2011 в 15:24

Пожалуйста. Главное, чтобы идеи удалось реализовать.

artemev 28 дек 2011 в 13:48

Алгоритм мыслится примерно таким:
1. получить базовую форму для каждого слова в реплике, тем более что это в любом случае нужно будет сделать (колбасы->колбаса, тест->тест || тесто)

2. если для какого-либо слова базовую форму определить не удалось, то вероятно в слове ошибка

3. попытаться автоматически исправить ошибку

4. если ошибку можно исправить несколькими способами, то нужно получить все варианты реплики (с учетом разных исправлений)

5. получить на каждую реплику статистику и дать ответ на ту реплику, которая наиболее вероятна

Очевидно что вопрос о возрасте системы будет более вероятен, чем вопрос о том сколько лет мальчику Тибе или кому-то еще. В конце концов подобная система не обязана знать такие вещи. А если она их знает, то уточняющие вопросы (от системы) неизбежны. Ведь мальчиков с таким именем может быть не один десяток.

Кстати у меня давно возникла вот какая идея. Помимо ответа система должна (опционально, по желанию пользователя) предоставлять информацию о процессе осмысления фразы. В частности что-то типа:

вероятно исходная фраза «сколько тибе лет?» содержит ошибку
автоисправление «тибе»->«тебе»
исправленная фраза «сколько тебе лет»
и так далее

x0rHamster 28 дек 2011 в 14:20

С логом осмысления интересно, но, КМК, это не более чем отладочная информация — разработчик ее и так будет видеть (необязательно в такой красивой форме), а рядовому пользователю взглянуть один раз ради интереса и забыть про эту фичу — смысл всей этой системы в упрощении диалога, а подобный лог только увеличивает количество информации сомнительной полезности, которую нужно будет обработать пользователю (читай — пользователю будет лень думать, что это за буковки, ему быстрее объясниться с системой на русском (возможно, матерном)).

artemev 28 дек 2011 в 14:38

В принципе согласен. Но все же подобная функциональность будет не лишней. Рассчитывать же нужно не только на тех кому лень. Найдутся люди которым информация об осмыслении фразы будет более интересна нежели сам ответ.

Caroline 29 дек 2011 в 22:26

Теоретически проблема с мальчиком Тибой решается с помощью контекстного анализа комманды или вопроса. То есть, если уже система знает о наличии мальчика с таким именем, то стоит добавить модуль, который сверяет возможное значение слова не только со стандартным словарем, привязанным к программе, но и с базой данных возможных значений. Такая база данных может быть как локальной (история запросов к программе, контакты пользователя), так и глобальной — достаточное количество текстов на конкретном языке, которые прогнали по статистическому алгоритму (Hidden Markov Model).

Советую также посмотреть: Grammatical Framework

Fedcomp 28 дек 2011 в 12:23

а можно ли привести какие нибудь чат-боты, хотя бы отдаленно похожие, допустим на cleverbot?
и стоит ли таких ботов сажать в саппорт?

artemev 28 дек 2011 в 14:42

Да много их, но большинство более менее умных, к сожалению общаются только на английском.
А стоит ли сажать в саппорт или нет это уж дело Ваше. Тут и специфику проекта нужно учитывать и степень развитости системы. Если он грубо говоря тупая, то смысла нет. Это будет только раздражать. А вот если Вы ее научите решать проблемы пользователей, то почему бы и не попробовать.

Fedcomp 28 дек 2011 в 16:29

я просто теоретически думал что будет если посадить бота допустим в базовую тех. поддержку хостинга, он сможет ответить на типичные вопросы к примеру. А если что переправить на сотрудника тех. поддержки.

artemev 28 дек 2011 в 16:33

Думаю что для таких задач бота использовать вполне возможно. Просто нужно побольше времени уделить обучению.

Fedcomp 28 дек 2011 в 17:03

а не подскажете с чего начать? мне интересна тема искуственного интеллекта но я ни бум бум. Понятия не имею как они функционируют, пробовал разобраться с нейронными сетями но нигде литературы доступной не нашел для понимания. Везде пишут профессорским языком.

artemev 28 дек 2011 в 18:13

Ну если Вам нужно чисто для саппорта. То тут можно обойтись системой «фраза пользователя или ее значимая часть»->один или несколько заранее забитых в базу ответов на эту фразу. Те же инфы от Наносимантики как раз для этого и созданы.

lightcaster 28 дек 2011 в 13:10

Можете пояснить, зачем нужны такие системы? Правда, есть ли реальное применение? Я не имею ввиду развлечение на пять минут. Что-то более существенное.

На счет спел-чекера я полностью согласен. Исправление опечаток тут очень нужно. Но все же, не понятно что вы собираетесь делать.

>> То есть запрос пользователя подвергается предварительной обработке (например, упомянутые ранее исправление ошибок/опечаток, морфология, синтаксис, семантика и прочее).

Это, конечно, сильно. Но давайте разберем, что вы предлагаете. Ладна, морфология — не такая уж проблема. Синтаксис — будет тяжело. Сложность задачи повышает то, что редкий пользователь пишет синтаксически верные предложения. Но да ладно, таки или иначе это можно решить. Но что касается семантики — это что? Как вы собираетесь хранить знания? Что это за внутренний язык, который вы упомянули. Поясните, плз.

artemev 28 дек 2011 в 15:13

По поводу того зачем нужны такие системы я писал в посте. Но давайте немного пофантазируем.

Например, естественно-языковый интерфейс с ПК (при условии наличия качественного механизма синтеза и распознавания речи).

Читаете Вы Хабр, а Ваш персональный ИИ сообщает, что пришло письмо с такого-то адреса.
Вы ему: «Прочитай». Он читает…
Вы ему: «Удали». Он удаляет…
Вы ему: «Я иду по делам, пока меня не будет дома собери информацию по такой то теме». Вы пришли, а для Вас в удобном виде вся инфа уже найдена и рассортирована.
и так далее.

Еще один вариант применения. Скорая психологическая помощь. Человек рассказывает о своей проблеме, а ИИ дает советы, рассказывает о том как эту проблему решали другие, предоставляет книги или ссылки на сайты по теме и прочее.

Можно найти массу применений. Ограничений нет — только Ваша фантазия.

По поводу внутреннего языка и хранения знаний будет отдельная статья. Тема эта очень обширная, в комментарии ее не осветить.

-1

lightcaster 28 дек 2011 в 15:37

Понятно, спасибо. Что касается ЕЯ командного интерфейса — тут можно обойтись простыми механизмами. Все что вам нужно — мапить команду пользователя на команду системы. Решается какой-нить вероятностной моделью.

Что же касается психологической помощи — тут да, нужно что-то похитрей. Ладна. Мой вопрос был связан с тем, что почти все чат-боты пишутся без задачи в голове. Т.е. единственная цель этих «программ» — ответить так, чтобы было по-человечески и прикольно. На мой взляд написание таких поделок — тупейшая трата времени и сил. Не наступите на эти грабли.

Что же касается реализации. Ну хотя-бы направление можете обозначить? Судя по тому, что вы написали, я предполагаю вы хотите работать в «классическом» стиле обработки языка — морфология, синтаксис, семантические правила + некая логика для связки. Теоретически это делается так — строится ситактико-семантическая грамматика, где на входе идет строка — на выходе некое семантическое дерево, либо запись языке логики первого порядка.

Но проблема в том, что очень сложно описать эти правила. Язык слишком гибок. И я не видел ни одну успешную реализацию такого подхода. Почти все более-менее успешные современные системы (перевод, разпознавание речи) работают на статистиках, и не затрагивают даже простые лингвистические техники.

Соответственно вопрос — как? :)

ploop 28 дек 2011 в 15:45

Говорил мне молодому один дядя: «I'll be back», и, видимо, не врал… :)

На самом деле тема очень интересная, но мне кажется настолько сложной, что вникать страшно. Я имею ввиду самообучающийся алгоритм, а не тупую выборку из баз, как вы описали.

dobriykot 28 дек 2011 в 16:14

Представил себе openspace на 100 человек в офисе, где у компьютеров языковой интерфейс. :)

VolCh 28 дек 2011 в 16:21

Языковой != голосовой. Да и по телефону часто много говорят.

Fedcomp 28 дек 2011 в 13:17

Тоже интересно послушать реализацию внутреннего языка.

unconnected 28 дек 2011 в 15:59

По моему, с таким подходом идея обречена на провал. Т.к. предполагается, что система имеет некий изначальный объем данных (например, «получить базовую форму для каждого слова в реплике»). Что, имхо, является неверным посылом.
Посмотрите на живую природу: те кто обладает большим набором врожденных инстинктов (изначальный набор знаний), как-то не блещут интеллектом и не очень склонны к обучению.
Собственно, ключевой вопрос — как строить систему обучения и познания. Если решить его, то один раз систему можно и с нуля научить, пусть за те же 21 год как и человека :)

artemev 28 дек 2011 в 16:18

Искусственный интеллект одними размышлениями не напишешь. Слова нужно переносить в код. Я пытаюсь предложить на суд публике конкретные алгоритмы и решения. Никто не говорит, что мой подход верен.

Сегодня я решил «получить базовую форму для каждого слова в реплике». Этот алгоритм поработал несколько дней, недель, месяцев. Накопилась статистика. Посмотрел, проанализировал. Ага, подход не самый лучший. Проблема? Нет. Сделаю иначе, всего-то делов.

Но суть в том, что все нужно пробовать. Иначе как узнать работает это или нет?

unconnected 28 дек 2011 в 16:45

Я чуть о другом говорил: система должна уметь пополнять свою базу знаний самостоятельно с самого начала.
Приведу пример задачи которую решал: на входе несколько сотен тысяч имен, фамилий, отчеств. Их нужно было склонять и формировать множественное число. Были закодированы правила русского языка, а для оптимизации все склоненные фамилии хранились в БД.
Собственно, когда система не находила в БД фамилии, она начинала думать, и еще просила оператора проверить, правильно ли она подумала. Если подумала неправильно, звали программиста (меня т.е.) и я допиливал алгоритмы склонений.
Имхо, такой, алгоритм более жизнеспособен, чем наполнение БД в рукопашную и попытками реализовать алгоритмы анализа натуральной речи, подходящие для всех случаев жизни. В общем, хоть задача и узкая, но на тех объемах данных (которые, кстати, постоянно пополнялись) спасла много нервных клеток и времени.

unconnected 28 дек 2011 в 17:13

Вот кстати что меня особенно покоробило: «Ага, подход не самый лучший. Проблема? Нет. Сделаю иначе, всего-то делов.»
Стратегические ошибки невозможно исправить оперативными действиями. Т.е. на этапе прототипирования — вполне себе подход, но если у вас уже тонны кода и годы работы… Черт его знает, может стоит поразмышлять предварительно.

artemev 28 дек 2011 в 17:50

Не знаю почему Вас это покоробило. Система однозначно должна быть модульная. Ядро системы — абстрактное. Изменение логики модуля не должно влиять на остальные модули.

К примеру я написал модуль автоисправления ошибок. Он поработал и выяснилось, что в нем есть ошибки. Я могу исправить ошибки в этом модуле (в одном месте) и это никак не отразится на работе других модуле. В конце концов я могу вообще отказаться от автоисправления ошибок и отключить соответствующий модуль. Это опять таки никак не должно влиять на работу других модулей. Это скажется только на самой системе — вероятно она перестанет понимать фразы с ошибками/опечатками.

Стратегические ошибки невозможно исправить оперативными действиями. Т.е. на этапе прототипирования — вполне себе подход, но если у вас уже тонны кода и годы работы… Черт его знает, может стоит поразмышлять предварительно.

поразмышлять безусловно стоит, но все предусмотреть не возможно. И поэтому уже на этапе прототипирования нужно делать гибкую модульную систему. Которую можно легко менять, улучшать, конфигурировать и так далее.

igor_suhorukov 2 фев 2012 в 14:31

>> «получить базовую форму для каждого слова в реплике»
пожалуй лучшее opensource по теме что я видел/использовал aot.ru
или враппер AOT для java code.google.com/p/russianmorphology

artemev 28 дек 2011 в 16:28

Забыл про изначальный объем данных. Я считаю что он просто обязан быть и чем он больше, тем лучше?

Во-первых, кто станет общаться с системой, которая «полный ноль». А не будут общаться — система не будет развиваться. А если она будет общаться только со мной, то процесс обучения займет всю мою жизнь. И времени совершенствовать систему (на уровне устройства, а не знаний) у меня не будет.

Во-вторых, не согласен вот с этим:

те кто обладает большим набором врожденных инстинктов (изначальный набор знаний), как-то не блещут интеллектом и не очень склонны к обучению.

Любой человек обладает огромнейшим набором врожденных инстинктов и это не мешает ему самообучаться и иметь интеллект.

unconnected 28 дек 2011 в 16:48

Человек имеет огромное кол-во инстинктов? Посмотрите на муравьев, перелетных птиц, морских котиков. Человек год ходить учится — это огромное кол-во инстинктов? Это с точки зрения природы — кандидат на дарвиновский отсев :)

Кстати, есть теория, что интеллект есть всего лишь не сформировавшийся инстинкт.

artemev 28 дек 2011 в 16:09

Т.е. единственная цель этих «программ» — ответить так, чтобы было по-человечески и прикольно. На мой взляд написание таких поделок — тупейшая трата времени и сил. Не наступите на эти грабли.

— полностью согласен. Беда таких программ в том, что практически не предпринимается попыток именно научить систему понимать смысл фразы. А подход = найти фразу в базе и дать заранее прописанный ответ — является тупиковым и ни к чему не ведет.

По поводу внутреннего языка это вопрос открытый, в том числе и для меня. Поэтому могу лишь изложить свои мысли по этому поводу.

Например, можно использовать такой подход:
каждому слову (или словосочетанию) сопоставляется некая (возможно числовая и возможно не одна) константа описывающая принадлежность данного слова к какому-либо классу.

Исходная фраза «Море большое»

Море->существительное->физический объект->1103 (1103 эта та самая константа, 1103 просто для примера, могло быть и 128 и 42)

большое->прилагательное->описывает размер->47

Вопросительного слова и знака вопроса нет, значит считаем фразу утверждением. Получается на внутреннем языке фраза будет выглядеть так: 1103 47

Что это дает? Мы можем проверить есть ли во фразе смысл. Проверка сводится к тому, что нам нужно узнать может ли физический объект (в данном случае — море) иметь свойство размер (в данном случае — большое).

Проверка нам дала результат: да физ. объект может иметь такую характеристику. Система отвечает: «Да, море вполне может быть большим»

Fedcomp 28 дек 2011 в 18:14

а теже цифры можно записывать как биты. Вот вам и базовая база знаний АИ.

VolCh 28 дек 2011 в 16:20

>Первая реплика: числительное «сколько» однозначно идентифицирует реплику как вопрос.
>Существительное «лет» принадлежит к категории «единицы измерения времени -> возраст»

Сколько лет, сколько зим!

>местоименное прилагательное «какой» однозначно идентифицирует реплику как вопрос

Какие твои годы!

>Местоименное прилагательное «твой» однозначно идентифицирует этот вопрос как личный вопрос системе.

Когда тебе ничего не остаётся, то ты…

В общем, по-моему, думать об исправлении ошибок и мальчиках Тибе несколько преждевременно, пока не решена задача распознавания смысла грамматически корректно сформулированных фраз. Что, имхо, «на современной элементной базе невозможно» ©

unconnected 28 дек 2011 в 16:52

Идиоматические выражения всегда описывались в отдельных словарях. При обучении любому иностранному языку их нужно запоминать «потому, что понат эта нэ возможна»

artemev 28 дек 2011 в 17:37

Да, возможно я зря написал «однозначно идентифицирует», нужно было что-то вроде «наиболее вероятно».
Ну а вообще, это решаемо. Допустим при наличии вопросительного слова изначально считаем что это вопрос. Последующие аналитические инструменты могут выявить что это не так (не вопрос, а например, утверждение).

Согласен с unconnected, что идиоматические выражения всегда описывались в отдельных словарях. И их выявление это отдельная тема.

А вот с Вашим высказыванием

В общем, по-моему, думать об исправлении ошибок и мальчиках Тибе несколько преждевременно, пока не решена задача распознавания смысла грамматически корректно сформулированных фраз.

согласиться не могу. Если начать с распознавания смысла, то при наличии ошибок/очепяток смысл Вы распознать не сможете. Поэтому начать, наверно, нужно именно с исправления ошибок. А потом уже анализировать, то что получилось. А если не получилось, то возможно это не была ошибка. Возможно это было какое-либо слово или понятие неизвестное системе.

VolCh 28 дек 2011 в 21:57

Просто не люблю категоричность в утверждениях, если её слышу, то пытаюсь найти исключения не попадающие в утверждение :)

В процессе исправления ошибок у вас может получиться, что орфографически и грамматически безупречно верная фраза абсолютно бессмысленна семантически. Гляньте, например, на какой-нибудь «бредогенератор» качественный. Имхо, первым делом нужно попытаться найти смысл во введенной фразе, а вот если не получится однозначно (или с большой долей вероятности) его найти, то тогда только подключать модуль коррекции возможных ошибок «брутфорся» различные варианты и оценивая каждый вариант на наличие смысла какой-то весовой функцией. То есть модуль оценки смысла нужен и до работы модуля проверки на ошибки и для его работы.

artemev 28 дек 2011 в 23:22

Возможно Вы и правы. Но я в любом случае буду пробовать разные подходы.

1x1 28 дек 2011 в 17:02

В базе должен храниться полный вариант реплики пользователя, а не просто ее значимая часть.

Одна и та же реплика может требовать десятки ответов в зависимости от контекста. Вот что самое главное, но упомянуто у Вас это вскользь. Парсинг, выбор ответа, те же эмоции — всё должно зависеть от контекста.

Первая реплика: числительное «сколько» однозначно идентифицирует реплику как вопрос. Местоимение-существительное «тебе» однозначно идентифицирует этот вопрос как личный вопрос системе.
Существительное «лет» принадлежит к категории «единицы измерения времени -> возраст». Получаем: системе задали личный вопрос о ее возрасте.

Сколько лет, сколько зим. Не всё так однозначно, и это гораздо большая проблема, чем исправление очепяток.

41terMann 28 дек 2011 в 17:52

Это замечательно, что подобные системы разрабатываются, и взор направлен именно на подобное поведение подобных систем. Признаться, мечтал о такой штукенции ещё в детстве (да, думаю, и не я один).
Но непонятно мне, почему автор собираясь написать целый цикл статей, не приводит самого наглядного, что характеризует систему наилучшим образом — сам код? Ведь тема социального кодинга проста и вполне работает. В одиночку разрабатывать такую полезную систему, безусловно, очень похвально, и это вопрос времени… Но, думаю, многие хотели бы помочь автору в написании сего…
Хотя, конечно, в начале должен быть прототип системы, чтобы потом его можно было перепиливать и дорабатывать всем скопом социальных кодеров. А недоработанный до первого рабочего варианта код, может послужить причиной бесконечному холивару…

artemev 28 дек 2011 в 18:25

Приводить код смысла не вижу. Во-первых, это не инструкция на тему «ИИ своими руками». Я пишу потому, что это безусловно заинтересует многих и эти многие могут подсказать мне идеи или указать на ошибки. Во-вторых, я пишу на PHP. Безусловно его знают многие, но ведь не все. В-третьих, как Вы это себе представляете? Это же не пара строк кода. Это классы, интерфейсы, библиотеки и прочее прочее прочее.

Fedcomp 28 дек 2011 в 18:30

во первых php чуть ли не самый распространенный язык, у него очень низкий порог вхождения поэтому на нем кодит очень большое количество народу. Вот если бы вы сказали питон/руби, тут да, тут горааздо меньше.

В-третьих, как Вы это себе представляете? Это же не пара строк кода. Это классы, интерфейсы, библиотеки и прочее прочее прочее.

Вы возможно не слышали про Github

artemev 28 дек 2011 в 18:47

Я пытаюсь разобраться с общими алгоритмами, а конкретная реализация это отдельная тема.

Кроме того в чем смысл публиковать то, что возможно будет сто раз изменено. А так и будет, ибо я не питаю надежд на то, что с ходу все напишу так как оно должно быть.

Про GitHub я конечно же слышал. Но опять таки не вижу в этом смысла. Если бы это была реально действующая, доказавшая свою эффективность система и у людей возник вопрос: «А как все это работает?» То да, без кода не обойтись. Но пока до этого далеко…

VolCh 28 дек 2011 в 22:24

Мой вам совет — для разбирания с алгоритмами используйте какой-нибудь другой язык, тот же Python или Ruby, а может и в сторону чисто функциональных/декларативных языков посмотреть, но там мышление надо менять резко. Сложная алгоритмическая обработка сложных структур данных не самая сильная сторона PHP. Да, все основные конструкции присутствуют и даже более-менее приличная поддержка функций высшего порядка появилась, но синтаксис как-то бросается в глаза резко, отвлекая от алгоритма. Даже если не использовать «экзотический» сахар Python или Ruby, то код выглядит намного опрятнее, концентрируя внимание на алгоритме, не отвлекая его на $this-> и прочий «мусор».

Не верьте мне на слово, хотя на PHP я пишу уже с десяток лет и его недостатки, как минимум, синтаксические, хорошо знаю, просто уделите как-нибудь выходной или пару вечеров каждому из этих языков. Ведь библиотеки/фреймворки вам сейчас не нужны, достаточно консольного или файлового ввода-вывода. Готов держать пари, что вам понравится :)

Да и вообще, использование PHP может оттолкнуть потенциальных участников проекта, хотя бы из-за его репутации «языка быдлокодеров».

artemev 28 дек 2011 в 23:26

Спасибо, но не вижу смысла в изучении нового языка. Прежде всего это займет время. Что само по себе немаловажно. Кроме того я считаю, что не важно на чем ты программируешь, важно как ты программируешь. При желании и на Бейсике можно много чего сделать. А быдлокодить можно на любом языке, ведь это в первую очередь зависит от программиста.

VolCh 29 дек 2011 в 01:38

Речь не о быдлокоде, а о синтаксической избыточности PHP, которая мешает восприятию алгоритма.

Fedcomp 29 дек 2011 в 07:55

репутация «языка быдлокодеров» взялась только потому что у него низкий порог вхождения. Он простой.
А this он и в питонских классах точно такой же this.
Скажите, мне правда интересно, какая конкретная часть php вас отвлекает от алгоритма?

VolCh 29 дек 2011 в 08:42

Неважно откуда она взялась, но она есть и может отпугнуть от серьёзного проекта, имхо.

Запись self.var явно короче и «чище» записи $this->var, не говоря о том, что self лишь соглашение, а не синтаксис.

Да многие, навскидку: $, ->, array(), круглые скобки после if, while и т. п., фигурные скобки для выделения блоков, точка с запятой, new… Когда долго крутишься в мире Си-образных языков, то на это внимания не обращаешь, воспринимаешь как должное. Но когда немного попишешь на языках, где это отсутствует, то возвращаться на PHP сложно чисто психологически — понимаешь, что вводишь лишние символы — блоки и так выделяешь отступами, точка с запятой стоит всегда в конце строки, функции с именем класса или переменной нет, после if следует выражение и зачем его дополнительно скобками выделять не понятно, мы же не пишем $c = ($a), но почему то пишем if ($a). Вроде всё мелочи, но количество переходит в качество и мысль, что любимый язык далеко не идеален, что заставляет делать работу, которую мог бы делать транслятор, настроение портит и от основной задачи отвлекает.

Fedcomp 31 дек 2011 в 05:28

не знаю, кодил на питоне некоторые парсерсы, без проблем могу кодить хоть на php хоть на python. А вот отступы в питоне мне на самом деле очень не нравятся.
ИМХО такие мелочи не сильно сказываются на читабельности кода, проблема надуманна.
Могу согласиться что в питоне синтаксического сахара больше, те же разрезы.

VolCh 31 дек 2011 в 06:01

Не сильно, но сказываются.

VolCh 28 дек 2011 в 22:09

Ну, заинтересовавшемуся PHP-программисту освоить Python, Ruby, C# или Java на уровне синтаксиса и простейших (типа stdlib :) ) библиотек довольно легко, по себе сужу. Гораздо сложнее разобраться с инфраструктурой или, как сейчас модно говорить, экосистемой. Но чисто алгоритмические задачи (а сабж, несомненно, таковой является, по крайней мере пока не дошло дело до нагрузочного тестирования и оптимизации) можно начинать решать буквально после нескольких часов или даже десятков минут изучения языка. Пускай код будет не «канонический», какой-то сахар языка использоваться не будут, но код будет рабочим.

Fedcomp 31 дек 2011 в 05:32

я думаю вы имели «идеологию кодинга на языке», т.е грубо говоря не писать php код синтаксисом python.

VolCh 31 дек 2011 в 05:57

Я имел в виду, что даже при наборе кода в php-стиле на python он получится лаконичнее — меньше «синтаксического мусора».

Error_403_Forbidden 28 дек 2011 в 22:19

Сначала надо определиться с алгоритмом, ибо неясно ещё, как всё это сделать. А код — дело последнее.

41terMann 28 дек 2011 в 18:37

Так как раз, если это не инструкция, то предложить конкретную реализацию можно только взглянув на уже имеющийся код, и предложив новый, как вариант решения одной из внутренних задач.
А представляю это себе так: например, можно выложить код на github, приложив к нему UML диаграммы классов, интерфейсов и вызовов. Если кто-то не знает PHP (хотя таких думаю мало), то этот кто-то и не будет смотреть код… С другой стороны этот кто-то может знать UML и тогда ему будет всё понятно по диаграммам.
Хотя судя по имеющемуся опыту, редко кто выкладывает диаграммы (может быть они вообще не нужны создателям?).

artemev 28 дек 2011 в 18:51

Поймите, у меня нет проблем с тем как что-то реализовать в коде. Когда они возникнут я попрошу о помощи хоть на ГитХабе, хоть на Хабре, хоть еще где-то. Проблемы есть в идейном плане, а именно, как реализовать самообучение, хранение знаний и так далее.

yeti 28 дек 2011 в 19:37

можно хранить знания в продукциях(CLIPS)

artemev 28 дек 2011 в 21:42

Ну да это классика. Что-то подобное вполне вероятно придется использовать.

Perpetrator 28 дек 2011 в 20:07

Если взять несколько копий такой самообучающейся системы, и дать им «поработать» с разными группами пользователей или с данными, то каждая копия приобретет свой особенный опыт. Предполагается ли использовать одну общую базу данных, которая периодически пополняется опытом каждой копии системы?

artemev 28 дек 2011 в 21:58

Ну особого смысла в копировании системы на ранних этапах я не вижу. Каждая такая копия будет неполноценна, т.к. она будет общаться только с определенной группой пользователей (или данных), т.е. автоматически это не все люди или данные, а только какая-то часть. В итоге сумма знаний всех таких систем будет меньше чем у системы, общающейся с абсолютно разными людьми. Ведь у нее будет опыт самый разнообразный.

А вот на некотором определенном этапе эволюции подобные системы можно тиражировать. И, возможно, ограничивать тип данных с которыми она будет работать. Т.е. решать узкоспециальные задачи. Например, при общении с человеком она должна оценивать его с точки зрения психологии. Эдакий психологический тест «Все в одном». Просто пообщавшись с Вами система на основе Ваших ответов даст полный анализ личности (общаться видимо придется долго, хотя как знать). У меня есть много подобных идей. А как Вы считаете где конкретно можно применять подобные самообучаемые системы?

Perpetrator 29 дек 2011 в 00:45

Например, в говорящих игрушках, в персональном электронном тренере или переводчике. В этом случае круг пользователей почти всегда будет ограничен одним человеком. Или же для общения с базами знаний вроде Wolfram | Alpha — тогда это уже для всех.

alexchin 28 дек 2011 в 23:34

Уровни ИДС:
1. Фонетический анализ — это способность воспринимать язык на слух. На входе аналоговый сигнал, на выходе — фонемы. После ряда преобразований получаем текст — слова с разделителями.
2. Морфологический и синтаксический анализ — анализ каждого слова. Выполняется необходимые коррекции/исправления. Определяется тип каждой словоформы и строится полная структура предложения. Если структура неполная — принимаются допущения. На выходе полная классификация предложения (Подлежащее, сказуемое), тип предложения (факт, вопрос), классификация слов (прилагательное, существительное, ...).
3. Семантический анализ — построение образов в виде отношений между предметами в контексте разговора. Предметы, свойства, действия обладают свойством символизма. На этом этапе, как вы правильно отметили, уже не важно как звучит или пишется слово — ему может быть поставлена эквивалентная константа.
4. Машина вывода, База знаний — на этом уровне из собственной базы знаний (о мире, контексте, себе) и поступивших фактов строится динамическая модель знаний. Тут уже можно делать выводы, получать ответы на вопросы.

Для построения ИДС 1, 2 уровни технологические, довольно проработанные. 3 служит для понижения шума значений слов. 4. ядро системы. В принципе очень самостоятельные уровни и можно работать над реализацией отдельно.

На практике чтобы ощутить 2 и 3 можно изучив язык lojban . Он создан, чтобы максимально упростить морфологию и синтаксис. И разговаривать на уровне символов и отношений между ними.

поиграться с 4 уровнем можно создавая модели в системе разработки интерактивных сценариев на базе естественного языка Inform. Статья на Хабре.

Все уровни довольно сложны, фундаментальны. Но заниматься можно ими совершенно раздельно. Например, довольно перспективна задача создания базы знаний в виде правил и фактов (CLIPS) (4 уровень). Например, для описания прожитого опыта.

artemev 28 дек 2011 в 23:44

+1 Спасибо, очень интересно. Приму к сведению. А вообще почитав комментарии понял, что не зря потратил время на написание статьи. Тема волнует многих, появляются не только вопросы, но и дельные предложения и критика. Это очень хорошо!

alexchin 29 дек 2011 в 00:12

И не пропустите Prolog(одна из удачных реализаций). Можно получить ощущение, как машина думает. Для 2 уровня есть DCG.

igor_suhorukov 2 фев 2012 в 14:37

может стоит воспользоваться тем, что уже существует, дополнить и усовершенствовать !?

«осмысление» и выдача ответа — задача любой экспертной системы. Каждая из существующих ЭС со своим уровнем гибкости, «самообучения». Как представляются знания в системе это отдельный вопрос, один из распространенных способов хранения — фреймы.

Есть множество диссертаций и докторских русских лингвистов. Чем не база для успешной работы? Не натыкаться на те же подводные камни проблемы, что там рассмотрены

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Интеллектуальные диалоговые системы с интерфейсом на естественном языке

Комментарии 76

Публикации

Истории