ConceptNet 5 — настоящий ИИ не за горами

ConceptNet

ConceptNet — семантическая нейро-сеть, содержащая много вещей, которые компьютеры должны знать о мире, особенно при понимании текста написанного людьми.
Сеть построена из узлов, представляющих определенные слои и концепции, в виде слов или коротких фраз естественного языка и знаков отношений между ними. Это могут быть любые вещи, которые компьютерам нужно знать, чтобы искать информацию лучше, отвечать на вопросы и понимать цели людей. Если вы хотите построить свой собственный Watson вместе с ConceptNet, то это должно быть отличной целью для начала!

Документация и API


Новый выпуск ConceptNet(ConceptNet 5.1), описан на официальном вики.
Документация включает в себя информацию об использовании REST API, который позволяет:
  • Получение данных для отдельных узлов;
  • Запросы данных с заданными параметрами;
  • Запросы на измерение семантического расстояния между узлами;

ConceptNet 5 — открытый и бесплатный


ConceptNet 5 развивается благодаря тяжелой работы сотен тысяч энтузиастов, которые посвятили свое время и знания бесплатно. ConceptNet является бесплатным, поэтому выпускается на выбор под двумя лицензиями Creative Commons.
Вы можете получить полноценный ConceptNet 5 с данными знаний под лицензиею Creative Commons Attribution-ShareAlike 3.0.
Еще есть урезанный вариант, называемый «ConceptNet 5 Основной», лицензия — Creative Commons Attribution 3.0. Эта версия является бесплатной для любой цели. Тем не менее, в этой версии обязательно отсутствует большое количество знаний из Википедии, Викисловаря, и DBpedia, которые являются Attribution-ShareAlike ресурсами.

Исходные коды или как помочь развитию проекта?


Предыдущие версии ConceptNet имели слабую базу знаний, но был проведен сбор фактов и прочей информации от людей, которые заинтересовались в развитии проекта. Сейчас в сети данных намного больше, чем в ранних версиях ConceptNet. Информация поступает из различных источников, поэтому вы можете поспособствовать улучшению не только состояния вычислительных знаний, но и человеческих знаний в общем.
Начнем с того, что ConceptNet 5 содержит почти все данные из ConceptNet 4, также созданный вклад в Open Mind Common Sense.
Большая часть знаний происходит от английской Википедии и ее сотрудников и с помощью DBpedia извлекает знания из информационных блоков, которые появляются на статьях. Также анализируется большое количество контента из английского Викисловаря, включая синонимы и антонимы, перевод понятий на сотни языков, а также несколько меченых слов для понимания общего смысла. Огромные знания приходят из WordNet.

ConceptNet является графом


Чтобы быть точным, это гиперграф с узлами. Каждый оператор в ConceptNet указывает на них, объясняя, откуда приходит и уходит информация. В предыдущей версии ConceptNet было распространено использование в качестве своеобразных структур баз данных, а также некоторых программ для взаимодействия с ними. ConceptNet 5 не является частью программного обеспечения или баз данных, это сеть образующая гиперграф. То есть набор вершин и ребер, которые представляются в нескольких форматах, включая JSON. Вы, наверное, знаете лучше, какое программное обеспечение вы хотите использовать для взаимодействия с сетью! Тем не менее, вы можете использовать своеобразный индекс Solr, но это не ConceptNet, а просто система для быстрого поиска знаний и вещей в ConceptNet.
Некоторые другие интересные свойства:
  • График ConceptNet не имеет произвольных идентификаторов. Каждый узел и утверждение содержит всю информацию, необходимую для его идентификации, то есть в его URI, сеть не полагается на произвольно присваиваемые ID. Преимуществом этого является то, что если несколько ветвей ConceptNet разрабатываются в нескольких местах, вы можем объединить их позже, просто принимая объединение узлов и ребер.
  • ConceptNet поддерживает связывание данных: вы можете скачать список ссылок на Semantic Web, через DBpedia и через RDF / OWL WordNet. Например, концепция кошка связана с узлом на DBpedia.

Загрузка данных ConceptNet 5


Если вы хотите, чтобы все данные ConceptNet принадлежали вашему приложению, вы можете скачать их! Данные в трех форматах:
  • Flat JSON: файлы, в которых каждая строка узла ConceptNet в формате JSON;
  • Solr JSON: специальный формат JSON файлов, которые могут быть загружены в индексе Apache Solr для быстрого поиска;
  • CSV: простые табличные данные, очень удобно для командной строки поиска;

Дальнейшие развитие проекта


Официальный сайт проекта http://conceptnet5.media.mit.edu/
ConceptNet 5 является открытым исходным кодом, разработанный под лицензиею GPLv3, код размещен на GitHub. ConceptNet — часть Commonsense Computing Initiative, а также сотрудничество между MIT Media Lab и другими лабораториями, компаниями по всему миру.
Авторы сего чуда: Роберт Спеер, по совету Екатерины Хаваси. Группа Google: http://groups.google.com/group/conceptnet-users E-mail для поддержки: digitalintuition/soba4ka/media.mit.edu
P.S А вы, уважаемые хабрачитатели, что думаете насчет тенденций развития проекта?
UPD. Спасибо, newdya, за ошибки замеченные в посте. Уже исправил.
Поделиться публикацией

Похожие публикации

AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 46

    –19
    Я не знаю как кого, а лично меня серьёзно пугают перспективы развития ИИ. Может конечно фильмов пересмотрел.
      +1
      Если использовать ИИ в умелых руках, то можно добиться многих достижений в науке, а также решать ряд задач нелинейной оптимизации.
      В эпохе на данный момент, большую угрозу предоставляют ядерное оружие, био-оружие, причем в будущем ИИ может дополнить этот список.
        +1
        Сколько раз «ядерные технологии, био-технологии, ИИ технологии и т д» использовалось человечеством только в МИРНЫХ целях? Как обычно все испоганят ради власти… Ох уже это человечество :(
          +2
          Так со времен тов. Трумэна ядерные технологии применялись только в мирных целях.
        +9
        Фильмы освещают проблему слишком уж однобоко. Вовсю пишут о минусах, но ни разу даже не заикаются о преимуществах и плюсах ИИ.
        Например, разве не здорово было бы заменить всех политиков машинами? ИИ, в отличие от всяких там депутатов, хотя бы гарантированно обладает интеллектом (на то он и ИИ), это уже плюс… Люди, ИМХО, не могут и не должны править человечеством.
        Кроме того, ИИ вряд ли будет универсальным и всеобъемлющим. В конце концов, естественный интеллект любого отдельно взятого индивида тоже показывает выдающиеся результаты отнюдь не в 100% предметных областей. Если человек — гениальный физик, то далеко не факт, что он будет столь же выдающимся художником, литератором, архитектором.
        То же и с ИИ: как минимум первые образцы будут заточены под довольно узкие предметные области, т.е. будут высокоспециализированными.
          +1
          Ок. Возможно, ИИ станет интегрированным с каждым человеком и получится коллективный разум, что модно нынче называть — ноосферой.
          Тогда предметные области объединятся в одно целое по принципу суперпозиции и вот она решена задача нелинейной оптимизации!
            +1
            Человек и так коллективное существо. Нам только кажется, что наш разум индивидуален, на самом деле личность строится исходя от взаимодействия в общесте. Об этом легко убедится, посмотрев на людей, которые выросли вне общества(бывали случаи аля маугли) — такой человек не обладает привычным нам разумом, а больше похож на животное.

            По поводу ИИ контролирующего весь порядок. Человек — существо иррациональное, любая ИИ власть по существу — будет авторитарной-диктатурой, потому что всегда нужно следовать по букве детерминированного закона. Не знаю, как вы, но меня подобные вещи пугают. Все же мне хотелось бы верить, что у человека есть свобода воли. Эта проблема кстати подымалась в различных кибер-панк работах.
            0
            Про правительство меня терзают смутные сомнения что это вообще возможно на нашем шарике. Чтобы большая группа людей доверила принятие решений железке — не думаю что такое может случится в ближайшие столетия во всяком случае. Кредита доверия к технике нет, она должна для этого обрасти большим слоем личности, быть индивидуумом без плоти и крови. Мыслить рационально — правильно по меркам машины, но не всегда правильно по меркам человека. Мы часто иррациональны, даже намеренно, и это составляющая человеческой личности.

            Чтобы ИИ был не просто вычислительным интеллектом, а и личностью в том числе, он должен иметь возможность чувствовать и местами принимать индивидуальные иррациональные решения. А среди чувств есть боль, панический страх, состояние аффекта, прострация, фанатическая увлеченность, и ещё много-много всего что может вести к трагическим последствиям если это не привести в полный баланс.

            Получаем некий парадокс — если ИИ не имеет внутреннего богатого мира который имеет человек — он остаётся не более чем крутым компьютером. А если имеет — это очень, очень опасная игрушка, потому что сбалансировать внутренний мир даже человека — большая проблема психиатрии. Есть такая болезнь — психопатия (Диссоциальное расстройство личности) — грубо говоря это неспособность мозга человека испытывать определенный набор чувств или какое-то конкретное чувство, это как правило ведет к игнорированию социальных норм, агресиии, неспособности испытывать любовь и привязанность. Когда это у редких людей — это одно, а когда это у по экспоненте развивающейся за доли секунды машины (или многих машин) — совсем другое.

            Оговорюсь, это размышлизмы человека сильно далекого от темы, может это всё глупые домыслы.
              +5
              Как раз «богатый внутренний мир» категорически противопоказан при принятии политических решений.
              Их надо принимать только и исключительно разумом, иначе получим то, что собственно и получается в политике на сегодняшний день (и будет получаться на протяжении вечности — пока в строй не войдёт ИИ).
              Да, «кредита доверия» к технике пока нет. Зато к текущим живым управленцам есть громаднейший кредит недоверия. Для всех уже очевидно, что любые власти, во всех странах и на всех уровнях, в лучшем случае работают на самих себя (а народ если что-то и получает, то лишь в качестве побочного эффекта, образующегося в результате борьбы различных влиятельных группировок).
              В этом случае ИИ станет настоящим подарком для революционеров: идея «сменить одних мерзавцев у власти на других, точно таких же» практикуется тысячелетиями, её неэффективность проверена и доказана временем. Идея же отдать власть ИИ хотя бы отдаёт новизной, тем самым давая надежду на лучшее.
                0
                =>Matrixcracker Возможно Вы и правы, но здесь идет речь об интеграции ИИ с человеком=> пусть ИИ решает свои задачи супер вычислений для определенных целей высказывая свою позицию, а человек со своим богатым опытом и эмоциями свою задачу, а решение будет приниматься по числу решений и приведения фактов, типа консорциум. Но это лишь моя точка зрения и не надо решать у кого-какие ! размышлизмы, согласно ОТО мы с Вами равноправные наблюдатели, но эффект наблюдений разный.
                0
                > как минимум первые образцы будут заточены под довольно узкие предметные области, т.е. будут высокоспециализированными.

                Так уже есть такое, см. экспертные системы или СППР — тот же Watson например.
                  +1
                  Ну, ИИ как управленец действительно был бы очень хорош, так как не имеет собственных интересов.
                  Еще стоит заменить судей.
                    0
                    Это кстати идеальное решение по борьбе с коррупцией и вообще людскими недостатками. Такая машина должна работать на прозрачном ПО (open source), чтобы каждый разбирающийся человек мог убедиться в отсутствии закладок. И допустим, раз в определненный период, любой, пользующийся уважением людей, человек мог проверить чистоту кода.
                    Другое дело что те, кто стоит у кормушки никогда на это не пойдут, даже если будет существовать реальная технология.
                    0
                    «Например, разве не здорово было бы заменить всех политиков машинами?»

                    Нет. www.lib.ru/FOUNDATION/election.txt
                    +2
                    Меня пугает, что топоры можно очень легко купить и они дешево стоят, в фильмах столько раз показывали как ими отрубают руки и ноги.
                    +3
                    Пока что не очень понятно как это использовать.
                    Вот, скажем, меня интересует автоматическая категоризация, как использовать эту штуку для этого?
                      0
                      На данный момент, система достаточно сухая. Она умеет лишь объединять концепции с набора слов по смысловым соотношениям из бд знаний.
                      Автоматическая категоризация возможна лишь в Вашем приложении с помощью их api.
                      0
                      Поясните пожалуйста: Она умеет лишь объединять концепции с набора слов по смысловым соотношениям из бд знаний.
                      У меня есть текст (набор слов, да) я его скармливаю системе и что получаю на выходе?
                        0
                        ConcepNet можно применять, например, для поисковой системы. Думаю эта технология лежит в основе Google поиска, еще было замечено похожий подход в API Facebook, то есть социальный граф. Только сфера применения там, например, определение возможных друзей. Как-то так)
                        0
                        В общем контексте Вы пополняете бд знаний новыми концепциями.
                        На выходе Вы можете получить, то что Вам нужно от гиперграфа через апи. Например, синонимы слова Саксофон( это в простейшем варианте).
                        Вики проекта с описанием апи здесь https://github.com/commonsense/conceptnet5/wiki/
                          –5
                          Skynet Begin
                            –1
                            Да придёт спаситель))
                            +13
                            ConceptNet — семантическая нейро-сеть

                            Хм, наверное я что-то пропустил?

                            Обычная онтология, поверх WodNet, по объему насколько я понимаю сильно поменьше CYC (которому 30 лет скоро как). При том что CYC почти с самого начала понимал нормальный английский язык и решал задачки посложнее Watson'овских. И попрактичнее — сейчас он например ведет онтологию по террористам для соответствующих служб.

                            Хотя конечно ConceptNet неплоха, да, сейчас в одном проекте начинаем ее пользовать, хотя что-то мне подсказывает что откажемся.
                            Но вот какое это имеет отношение к нейронным сетям?

                            И да, что я думаю о любых проектах в нарративе Semantic Web, я озвучивать не буду — по причине абсолютной нецензурности мыслей.
                            :-)
                            Так просрать все полимеры — надо было уметь.
                            Единственное объяснение здесь — количество грантов, выделенных на тему.
                            Хотя я наверное изменю свое мнение если кто-то мне покажет реально работающую полную онтологию (Lite OWL не предлагать), хе-хе.
                              –1
                              Нейронная сеть — это алгоритм, который позволяет обрабатывать данные в виде функции. Функции строятся из отдельных нейронов, выполняющих операции дизъюнкции, конъюнкции и отрицания. Структура нейронной сети определяет порядок применения базовых операций этой алгебры к входным данным. Настолько я понял, именно «сеть нейронов» применяют на обработку к входным данным для определения семантических связей на основе существующей базы знаний для придания смысловых соотношений.
                              по объему насколько я понимаю сильно поменьше CYC

                              Кажется нет, если брать этот источник http://web.media.mit.edu/~hugo/conceptnet/
                              The ConceptNet knowledgebase is a semantic network presently available in two versions: concise (200,000 assertions) and full (1.6 million assertions). Commonsense knowledge in ConceptNet encompasses the spatial, physical, social, temporal, and psychological aspects of everyday life. Whereas similar large-scale semantic knowledgebases like Cyc and WordNet are carefully handcrafted, ConceptNet is generated automatically from the 700,000 sentences of the Open Mind Common Sense Project – a World Wide Web based collaboration with over 14,000 authors.

                              При том что CYC почти с самого начала понимал нормальный английский язык и решал задачки посложнее Watson'овских. И по практичнее — сейчас он например ведет онтологию по террористам для соответствующих служб.

                              Я думаю с английским проблем в ConceptNet нет проблем, база у сети практически равноценна из-за источников этих же данных.
                                +1
                                А как это полная онтология? И как это — работающая онтология?
                                  0
                                  Грубо говоря из вики (хотя не совсем про онтологии, а про язык их описания)
                                  OWL Lite предназначен для пользователей, которые нуждаются, прежде всего, в классификационной иерархии и простых ограничениях. Например, при том, что он поддерживает ограничения кардинальности (количества элементов), допускаются значения кардинальности только 0 или 1. Для разработчиков должно быть проще в своих продуктах обеспечить поддержку OWL Lite, чем более выразительных вариантов OWL. В частности, OWL Lite позволяет быстро перенести существующие тезаурусы и другие таксономии. OWL Lite также имеет более низкую формальную сложность, чем OWL DL.
                                  OWL DL предназначен для пользователей, которым нужна максимальная выразительность при сохранении полноты вычислений (все логические заключения, подразумеваемые той или иной онтологией, будут гарантированно вычислимыми) и разрешаемости (все вычисления завершатся за определенное время). OWL DL включает все языковые конструкции OWL, но они могут использоваться только согласно определенным ограничениям (например, класс может быть подклассом многих классов, но не может сам быть представителем другого класса). OWL DL так назван из-за его соответствия дескрипционной логике — дисциплине, в которой разработаны логики, составляющие формальную основу OWL.
                                  OWL Full предназначен для пользователей, которым нужна максимальная выразительность и синтаксическая свобода RDF без гарантий вычисления. Например, в OWL Full класс может рассматриваться одновременно как собрание индивидов и как один индивид в своём собственном значении. OWL Full позволяет строить такие онтологии, которые расширяют состав предопределённого (RDF или OWL) словаря. Маловероятно, что какое-либо программное обеспечение будет в состоянии осуществлять полную поддержку каждой особенности OWL Full.


                                  Большинство реальных работающих онтологий (т.е. тех, кторые я встречал используемыми в рабочих проектах) = это именно лайт версии, т.е. просто таксономии и тезаурусы.

                                    +2
                                    Ну, это вы старьё мне под нос суёте. Каюсь, не обновил статью в Википедии, обещаю поправить.
                                    OWL Lite был признан провалом. Просто потому что представлял собой OWL DL из которого наугад выкинули несколько элементов. Как позже выяснилось, все алгоритмы отрабатывают на Lite за то же время, что и на DL-онтологиях.
                                    Поэтому в OWL 2 сделали профили: EL, RL и QL. Их создавали уже вместе с логиками, которые рассчитали всё так, чтобы основные основные алгоритмы, которые предполагается запускать на этих онтологиях, отрабатывали достаточно быстро (например в EL проверка непротиворечивости (consistency) отрабатывает за полиномиальное время).

                                    За примерами приложений, использующих логический вывод на онтологиях, вам лучше обратиться в медицину и биоинформатику. Например, известная онтология SNOMED-CT отлично применяется уже много лет.

                                    Другой вопрос, что никто пока не понимает, что делать с мощным логическим выводом в реальной жизни. Юзкейсы из видения Тима Бернерса-Ли пока не клеятся — вот и применяем просто для того чтобы из кучи грязных данных получить еще большую кучу грязных данных, обогащенную математически правильно выведенными, но не всегда корректными по смыслу новыми данными.
                                      +2
                                      Я думаю наши точки зрения в этом отношении полностью совпадают.
                                      :-)

                                      Логический вывод в чистом виде работает на маленьких объемах и игрушечных примерах, столь любиимых апологетами Prolog.
                                      На больших объемах сразу вылезает противоречивость, неоднозначность, неполнота и все прочие радости человеческого восприятия мира — на котором ведь и наполняется база.
                                      Т.е. одно дело если мы работаем в изначально формальных системах.
                                      А другое дело — реальная жизнь, которая после обрезания формальной системой перестает быть жизнью.

                                      Ленат вот выкрутился микротеориями, это был красивый путь для того времени.
                                      Имхо современным решением здесь могли бы быть статистические техники, типа блэкбоксов, используемых в машинном обучении — если их доработать напильником.
                                      Плюс в логическом подходе, применяемом в таких системах использовался только один тип логического вывода — дедуктивный.
                                      Ни индуктивного, ни абдуктивного вывода я ни разу не встречал — следовательно новых фактов система открыть не может по определению.
                                      Кроме того затрудняет работу предположение о замкнутости мира, вбитое в большинство машин вывода
                                      Плюс неопределенность данных, отсутствие работы с «не знаю».
                                      Плюс боязнь разработчиков Тьюринговской полноты — а вдруг запрос будет выполняться вечно, ага.

                                      Экспертные системы ушли в прошлое, они умерли и завонялись.
                                      Пример экспертной системы (хотя и на байесовской основе) — Майкрософтовское устранение неполадок в винде.
                                      Хоть кто-то здесь может вспомнить хоть один случай, когда этот симпатичный визард хоть кому-то помог? :-)
                                      А онтологии в сегодняшнем виде — это та самая реинкарнация экспертных систем — давайте забьем базу миллионами записей и она станет умной.
                                      Ага.
                                      С чего быть умной базе в отсутствие индуктивного вывода?
                                      А где в онтологиях бывает индуктивный вывод?

                                      По след. комментарию:

                                      Single domain онтологии работают и вполне неплохо, там где требуется описательная часть, причем преимущественно факты и простые правила.
                                      И в медицине и в биоинформатике.
                                      Но опять же на уровне «чуть больше чем тезаурус».
                                      В корпоратке бывает, но там они имеют совсем другой смысл — есть категория людей, которым нравится составлять бюрократические формы для заполнения и стандартизировать творческий процесс по образцу дресс-кода.
                                      :-)

                                      Есть одно исключение, где онтология является одновременно и общей и single domain — это лингвистические системы.
                                      Ну тут примеров достаточно, особенно если учесть модность термина, онтологиями называют все что можно, от WordNet и выше, включая ConceptNet.

                                      PS
                                      Если в проект приходил я, то из проекта уходили онтологии, семантические сети и экспертные системы. А приходили статистические блэкбоксы и майнеры — и вполне справлялись с задачей, без десятков человеко лет, силами 5-10 человекомесяцев максимум.
                                      Поэтому по своим собственным проектам ничего о работающих онтологиях сказать не могу, кроме того, что их там нету.
                                      :-)
                                      У соседей видел, но опять же только таксономии, только хардкор. Дальше KINDOF/PARTOF отношений не видел никого.

                                      Да собственно для текущего проекта мне всерьез предлагали рассмотреть www.epimorphics.com/public/vocabulary/org.html или тоже самое от мэтров www.w3.org/TR/2013/CR-vocab-org-20130625/
                                      И нафига мне имплементить этот примитив, выделять в отдельный уровень, делая под них базу, парсер OWL, SPARQL и прочее, если у меня чистый BigData и я тоже самое уже имею в тривиальном noSQL — с несравнимым временем запроса на чтение в 700 наносекунд? Заменить 20 серверов на 20 тысяч?
                                      Нафига мне это делать если у меня уже есть поверх noSQL extensible schema, инкрементально меняющаяся под текущий момент под влиянием данных?
                                      Т.е. это вообще лишний уровень, он никак не приносит пользы, а сам тяжелее чем вся остальная система.

                                      Но я могу себе представить менеджера, который скажет «вау, кул, работаем, надо вчера» на это предложение. «Онтология» — хороший бренд, продаваемый.
                                      :-)
                                        +1
                                        хотел выступать как защитник онтологий, но почти ничего возразить не могу — пока что мне Semantic Web кажется разбитым на три совершенно несвязанные части.
                                        1. RDF-базы с большим количеством данных, с госданными и корпоративным применением (Linked Data) — этакий странный прото-noSQL, который вдобавок, не очень быстрый. Но — общий унифицированный формат, молодцы.
                                        2. Какие-то непонятные медицинские, биоинформатические и генные штуковины, в которых тебе и Datalog, и OWL, и всё что хочешь. Порог вхождения в предметную область — годик-два, с другими областями пересекается слабо
                                        3. Еще менее понятный мир консультантов, которые «делают модели на онтологиях». Пришел ко мне — и расписал все бизнес-процессы и структуру организации не в IDEF0, UML и диаграммах с безглазыми человечками, а зачем-то в OWL.

                                        А, ну да, есть еще разные мафиозные структуры типа Posc Caesar, которые имеют выход на ISO и делают какой-то сказочный пипец под названием ISO 15926 и продают этот ужас нефтяным бизнесам, которые слово ISO знают, а словj W3C — нет.
                                          0
                                          ППКС
                                          Именно так.
                                          Заслуги в унификации описания здесь несомненны, тут и спорить не о чем. Но как бы больше плюсов я не вижу.

                                          Иногда думается, что было бы, если бы сэр Тим Бернерс-Ли изучал не SGML а LISP…
                                          :-)
                                          Насколько бы по другому выглядел Интернет с самого начала?

                                          Когда смотришь на EURISCO конца 70-х и современный Watson (который бы даже не запустился на том железе), то возникает вопрос — куда пропали десятилетия труда действительно увлеченных энтузиастов, которые могли сдвинуть горы?
                                          Все-же Jeopardy и Traveller TCS — разные вещи, и решение, которое нашла EURISCO было совершенно неожиданным для человека, настоящим, реальным новым знанием. В отличие от игры на эрудицию.

                                          PS

                                          Имхо у онтологий может появиться своя ниша — как human-friendly экспорт тех самых майнеров. Ну насколько это можно назвать human-friendly. :-)
                                          Но там тоже свои грабли, причем достаточно концептуальные.

                                          И кстати мы не затронули проблему ontology matching — вот там веселуха…
                                          А ведь это ключ к взрывному росту.
                                            0
                                            «ontology matching» — а где там взрывной рост?
                                              0
                                              >> это ключ к взрывному росту.
                                                0
                                                ну вот у меня онтология предметов в моей квартире, а у вас тоже самое, но для вашей.
                                                нам может быть выгодно их сверить и слить.

                                                Как было с HTML — повесил ссылку на соседний сайт и все, связность увеличилась а затрат никаких.
                                                Но с онтологиями ссылку не повесить, в моей онтологии «коты» обозначен как KINDOF «вездессущие блохастые», а в соседней — как «кисоньки-лапочки».
                                                Надо искать соответствия.

                                                PS
                                                я котов люблю если что, не минусуйте
                                                :-)
                                                  0
                                                  Сначала прочитал — «вездесущие». :D

                                                  Так а рост то в чем?
                                                  Ну повысили связность предметов, что к слову
                                                  мб когда-нибудь решится, через дешевые RFID-метки на продуктах — а дальше-то что?
                                                    +1
                                                    Ну, если мы считаем некоторую абстрактную полезность как функцию объема онтологии (они же все объемами меряются), то при малых затратах на слияние онтологий, ценность должна расти быстрее чем затраты.
                                                    Что и обеспечит экспоненциальный рост (и объема и ценности) — все будут пользоваться этим и сливать в экстазе свои знания.

                                                    Другой вопрос что ценность эта сильно уж абстрактна.
                                                    Действительно, ну вот опишем мы все предметы на Земле — дальше что?
                                                    Ну будут у нас все метки на всех продуктах и я смогу посмотреть кем он произведен — так ли много это даст людям, покупающим китайские товары noName?

                                                    Онтологии — экстенсивный путь развития, и уже поэтому у него есть пределы роста.
                                                    Что мы в реальности и наблюдаем.
                                                    Нужен интенсивный путь.
                                        +2
                                        Расскажите про онтологии, используемые в рабочих проектах, интересно. Особенно если проекты не академические
                                    +7
                                    Функции строятся из отдельных нейронов, выполняющих операции дизъюнкции, конъюнкции и отрицания

                                    Это очень новое для меня определение нейронной сети.
                                    Подозреваю что не только для меня.
                                    С какими только вариантами я не работал, включая даже такую экзотику как PNN, но вот определения через логические функции еще не слышал.

                                    Кажется нет, если брать этот источник web.media.mit.edu/~hugo/conceptnet/

                                    В ConceptNet только 8 миллионов фактов забранных из dbpedia.
                                    Только что проверил на своей локальной копии.

                                    Это очень помогает в реальных системах — знать факты из дибипедии, да.
                                    :-)

                                    Интересно есть например факты в дибипедии о том, что елка не состоит и металла, а ежики не летают?
                                    В CYC есть и были с самого начала.

                                    Я думаю с английским проблем в ConceptNet нет проблем, база у сети практически равноценна из-за источников этих же данных.

                                    Там система сразу общалась с человеком на естественном языке, еще в 80-х. Понятно что это был тот еще язык, но все же это несколько отличается от «нет проблем». Хотя прикрутить конечно можно, тем же NLTK. Учитывая, что современная точность Semantic Role Labeling ненамного превышает 70% — это будет очень поучительный опыт для прикручивающего.

                                    Самый главный недостаток CYC — то что он закрытый.
                                    А openCYC конечно хуже.
                                    Есть researchCYC — он полнее.

                                    Но вот что там было с самого начала и чего нет в lite онтологиях — так это машины логического вывода, inference engine.
                                    Хотя конечно пролог или Coq можно прикрутить.
                                    Но что-то мне подсказывает практическую ценность оного прикручивания, хе-хе, грабли там весьма недетские…

                                    Ну и опять же — в CYC было классное нововведение, которое я нигде больше не встречал — микротеории.
                                    Человеческое знание противоречиво и кусочно-непрерывно.
                                    И поэтому логическую систему на нем не сделать.
                                    А вот разбить на замкнутые непротиворечивые кусочки, «островки» знаний, которые могут друг другу противоречить — это была идея.

                                    ConceptNet — это просто массив фактов и отношений.
                                    Полезный где-то.
                                    Но как-то попроще даже такого предшественника Cyc как en.wikipedia.org/wiki/Eurisko

                                    Lenat and Eurisko gained notoriety by submitting the winning fleet (a large number of stationary, highly weaponed, defenseless ships)[3] to the United States Traveller TCS national championship in 1981, forcing extensive changes to the game's rules. However, Eurisko won again in 1982 when the program discovered that the rules permitted the program to destroy its own ships, permitting it to continue to use much the same strategy.[3] Tournament officials announced that if Eurisko won another championship the competition would be abolished; Lenat retired Eurisko from the game.[4] The Traveller TCS wins brought Lenat to the attention of DARPA,[5] which has funded much of his subsequent work.

                                    (с) вики

                                    И я хочу посмотреть как ConceptNet может справиться хотя бы с решением крестиков-ноликов.
                                    Это просто хранилище фактов — большое и интересное и очень полезное.
                                    Но всего лишь хранилище, там самая — тупая семантическая сеть, большая база данных.
                                    Исскуственный интеллект — это как бы не только база данных. Это еще и движок который способен ее наполнять из внешних источников. Выводить правила, обощать, заниматься дедукцией, индукцией и абдукцией.

                                    PS
                                    The latest release of Cyc includes:
                                    60,000+ 500,000+ concepts, forming an ontology in the domain of human consensus reality.
                                    Nearly 5,000,000 assertions (facts and rules), using 26,000+ relations, that interrelate, constrain, and, in effect, (partially) define the concepts.
                                    A compiled version of the Cyc Inference Engine and the Cyc Knowledge Base Browser.
                                    Natural language parsers and CycL-to-English generation functions.
                                    A natural language query tool, enabling users to specify powerful, flexible queries without the need to understand formal logic or complex knowledge representations.
                                    An Ontology Exporter that makes it simple to export specified portions of the knowledge base to OWL files.
                                    Documentation and self-paced learning materials to help users achieve a basic- to intermediate-level understanding of the issues of knowledge representation and application development using Cyc.
                                    A specification of CycL, the language in which Cyc (and hence ResearchCyc) is written. There are CycL-to-Lisp, CycL-to-C, etc. translators.
                                    A specification of the Cyc API, by calling which a programmer can build an ResearchCyc application.

                                    © www.cyc.com/platform/researchcyc

                                    Как говориться сравнивайте сами.
                                    Я не ругаю ConceptNet, но когда говорят о семантических сетях как искусственном интеллекте, у меня всегда возникает вопрос — а понимают люди о чем они говорят?
                                      –3
                                      Я не ругаю ConceptNet, но когда говорят о семантических сетях как искусственном интеллекте, у меня всегда возникает вопрос — а понимают люди о чем они говорят?

                                      Я не говорил и не писал, что ConceptNet — это полноценный ИИ, даже, то что он «слабый ИИ». Если имеете в виду заголовок поста, то он отражает суть того, что настоящий ИИ скоро появится, что в этом направлении проводятся работы, участвуют энтузиасты, заинтересованы лаборатории…
                                        +5
                                        Там комментами выше уже дискуссия по скайнетам пошла, вполне ожидаемая.
                                        :-)

                                        ConceptNet замечательный проект разумеется.
                                        Но до практического применения там все же далековато.

                                        И опять же, интеллектуальные системы обычно состоят из двух основных частей, экстенсиональной базы данных (которой вполне может являться ConceptNet) и интенсиональной — хранилища правил (не отношений!), в том числе и правил вывода новых правил, т.е. пополнения обоих частей. И вот вся огромная энергия направления SemanticWeb — он была канализована в экстенсиональные базы, форматы и описания, стандарты о том как должен отмечаться пол человека или его дата рождения в очередном языке разметки. А интенсиональная часть, наиболее интересная и важная — она почему-то оставалась за кадром, как слепое пятно у грантодателей.
                                        Для меня лично такие онтологии как WordNet, ConceptNet, FrameNet, и аналоги — это с одной стороны огромный труд людей (безусловно нужный), а с другой стороны — абсолютное фиаско, символ поражения.
                                        Т.к. люди руками набивали туда факты, которые мог бы вытащить хороший текст-майнер, если бы эти люди вместо набивки фактов этот майнер написали.

                                        Как-то так.
                                          0
                                          А не получилось бы, что факты майнер бы добыл, но так неявно, что ими нельзя пользоваться.

                                          Грубая аналогия.
                                          Архиваторы составляют модель языка. То есть, что перед словом «яблоко» на 10% можно встретить «зелёное», но 0% «синее». Это неявное знание, что синих яблок не бывает. Но также перед «яблоком» встречались «свежее», «спелое» и «надкусанное».
                                          Теперь задаём вопрос: «какого цвета яблоко?». Скорее всего, в вероятностной модели так же неявно будет, что «зелёное» — это цвет, а «надкусанное» — нет. Но это так всё перемешано, что никаким алгоритмом не распутаешь. Получается чёрный ящик, пригодный для архивации, но непригодный для ответа на вопрос.
                                            +3
                                            Ну тут как написать.
                                            И если пользоваться например LSI то там как раз «накусанное» в цвет попасть может спокойно.

                                            Хорошая модель должна давать генерализацию, иначе это именно что тупой архиватор.
                                            Это как отличаются алгоритмы sequitur и ADIOS — первый создает модель, но это именно что форма архивации, а второй проводит индукцию, создавая правила разбора текста, который ранее не встречался.

                                            А насколько модель должна давать ответы на вопросы — тут отдельная тема, какие именно вопросы интересуют.
                                            Блэкбокс вполне может дать ответ на вопрос «какая вероятность того, что я блоко будет зеленым и ненадкусанным».
                                            И даже ответить «бывает ли черный лебедь».

                                            Любой модели можно задать вопрос, на который она не ответит.

                                            «может ли Всемогущий создать камень, который сам не сможет поднять?»
                                            «в деревне есть цирюльник, который бреет всех, кто не бреется сам, кто бреет цирюльника?»
                                            и т.п.

                                            А можно задать вопрос, на который она ответит, но лучше бы она этого не делала.
                                            Например если ответ занимает сто лет непрерывного произнесения слов, его составляющих — кто его поймет?
                                            Есть принципиальный предел сложности «прозрачных» моделей, которые легко понимать и разбивать на компоненты.
                                            За ним уже мы может только задавать вопросы, надеясь что они не будут выглядеть слишком уж глупо с точки зрения модели.

                                            Но мы же не просматриваем машинный код если у нас глючит python-скрипт?
                                            И здесь так же, будут уровни абстракции и аналоги дебаггеров.
                                              0
                                              А в чём принципиальное отличие майнера от архиватора?
                                                0
                                                Архиватор строит упакованное представление одного данного экземпляра. И по этому представлению можно восстановить только этот конкретный экземпляр.
                                                А модель — это представление всей предметной области, восстановленное по некоторому количеству экземпляров.
                                                Майнер же — просто некоторая система, которая вытаскивает рассеянную информацию.

                                                Можно сархивировать «Войну и Мир» — но из архива ничего кроме оригинального файла не получить.
                                                А можно проанализировав вероятности и связи между словами построить модель, которая будет выдавать вполне правдоподобные абзацы, ни разу не встречающиеся в полном собрании сочинений Льва Толстого.
                                                Вот и вся разница.
                                        0
                                        И главное: я не пиарю ConceptNet, а лишь пишу о его возможностях и не сравниваю с другими сетями. © Это факт.
                                          +6
                                          Хотел все то же самое написать, но не успел )
                                          Хранилище фактов это конечно лучше, чем ничего, но без системы для их процессинга (т.е. движка ИИ) это просто набор байт.
                                            0
                                            Интересно есть например факты в дибипедии о том, что елка не состоит из металла, а ежики не летают?
                                            В CYC есть и были с самого начала.

                                            Механизмы отрицания фактов типа ежики не летают существуют в Conceptnet. Реализация на предикатах и отрицательных значениях весов, а пример в вики основан на свиньях.
                                            As in previous versions of ConceptNet, an assertion that receives a negative weight is not an assertion whose negation is true. It may in fact be a nonsensical or irrelevant assertion. To represent a true negative statement, such as «Pigs cannot fly», ConceptNet 5 uses negated relations such as /r/NotCapableOf.


                                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                          Самое читаемое