Комментарии / Профиль dbratus / Хабр

Дмитрий Братусь@dbratus

Пользователь

Подписчики

Понимание компьютером текста: действительно ли всё так плохо?

dbratus 25 авг 2011 в 18:39

Потрясающе наивная статья о распознавании юмора [4]. Эти люди думают, что все шутки можно распознать по аллитерациям, антиномиям и словам ниже пояса (adult slang). Есть только одна проблема, как определить, что шутка смешная. А еще они думают, что любая фраза на сайте с тэгом humor является юмором. Святая простота!

Понимание компьютером текста: действительно ли всё так плохо?

dbratus 25 авг 2011 в 18:04

Теорема Геделя — это первое, что вспоминает математик, не верящий в ИИ, когда хочет указать на принципиальную невозможность моделирования сознания алгоритмически. Среди таких математиков есть величайшие умы, такие как тот же Р. Пенроуз. В общем, этот аргумент не я придумал.

Понимание компьютером текста: действительно ли всё так плохо?

dbratus 25 авг 2011 в 16:46

Я как раз и хочу, чтобы прежде чем что-либо стало называться «интеллект», этому было дано четкое определение. Я-то не уверен, что это возможно (см. теорема Геделя).

Вообще, меня всегда забавляло, почему некоторые алгоритмы называются «интеллектуальными»? То есть почему A* — это «интеллектуальный» алгоритм, а сортировка пузырьком — нет. Я не первый год занимаюсь так называемыми «интеллектуальными» алгоритмами и пришел к вот какому определению: «Интеллектуальной может называться любая система, о которой никто не знает, как она работает».

Искусственный интеллект — это НРО (Неизвестно как Работающий Объект).

Понимание компьютером текста: действительно ли всё так плохо?

dbratus 25 авг 2011 в 15:01

Это все правда. Действительно существует множество относительно эффективных решений частных случаев интеллектуальных задач, но не существует даже близко универсальной модели мышления. В этом суть проблемы искусственного интеллекта — в том, что это не интеллект во все. Просто текст (или речь) — это самый тесно связанный с мышлением продукт человеческой жизнедеятельности, так сказать протокол взаимодействия человеков, поэтому проблема ИИ применительно к нему стоит наиболее остро.

В своей статье я имел в виду именно понимание «как человек», ни лучше, ни хуже. То есть, если ИИ ошибается, он должен ошибаться «как человек». Для чего это нужно? Ну, машинный перевод это само собой, но есть еще одна задача. Представьте, издатель получает текст, читает его и понимает, что что-то в нем есть, но вот беда — не формат. То есть понять, как какому жанру он принадлежит, совершенно невозможно, а значит непонятно, как раскручивать нового автора. Так бывает достаточно часто, и в этом случае текст обычно банят. В то же время текст может быть бомбой, но его экономический эффект непредсказуем, потому что нет возможности собрать фокус-группу и провести исследование на разных целевых аудиториях.

Задумайтесь еще вот о чем (я не упоминал об этом в статье, потому что это не совсем по теме): существует такая теорема Геделя о непоноте. Считая естественный язык формальной системой, можно утверждать, что в нем существует утверждение невыводимое и неопровержимое в рамках естественного языка. Получается, что для формального описания естественного языка нужен язык более мощный, чем естественный, — то есть язык не сводимый к естественному. Существует ли такой? Сможет ли человек его понять?

О понимании компьютерами текста

dbratus 22 авг 2011 в 10:56

Искусственный интеллект — это современный философский камень. Сейчас превратить свинец в золото в принципе возможно, но это нецелесообразно. Так, мне кажется, будет и с искусственным интеллектом. Когда его создание станет возможным, во-первых, тут же пропадет ареол таинственности, и многие просто потеряют к этой теме интерес; во-вторых, почти наверняка это будет настолько сложно, что в этом не будет никакого практического смысла. И уж точно это не будет компьютер, это будет принципиально иная технология.

О понимании компьютерами текста

dbratus 21 авг 2011 в 16:35

По поводу квантовых эффектов в мозге,

Их существование возможно, и главный кандидат — тубулин. Он состоит из молекул-димеров, которые могут находиться в спутанном состоянии двух пространственных укладок. Об этом можно почитать в книге Quantum Aspects of Life. Правда она еще не переведена на русский.

Программа проверки грамматики

dbratus 19 авг 2011 в 15:26

Но ведь фразу в примере можно исправить двумя способами: «Эта компьютерная программа распознает простой текст» и «Это компьютерная программа, распознающая простой текст», а еще может быть так «Этой компьютерной программе распознавать простой текст» (ну, судьба у нее такая).

Вообще, что касается запятых, если бы из произвольной последовательности слов (пусть даже в нужных формах) можно было бы вывести однозначно расстановку запятых, тогда, согласитесь, запятые были бы не нужны. Расставляя запятые, вы обозначаете семантику высказывания. Хрестоматийный пример: «казнить нельзя помиловать». Компьютер не может читать ваши мысли, поэтому не может расставить за вас запятые. Так, например, деепричастные обороты в русском выделяются запятыми именно из-за неоднозначностей; в английском аналогичные по функции continuous формы запятыми не выделяются, потому что там неоднозначность разрешает порядок слов.

Я раньше пользовался Орфо и думаю, что лучше вряд ли что-то можно изобрести, но даже он фатально ошибается, поэтому я от него отказался. В какой-то момент я понял, что единственный способ писать грамотно — выучить грамматику.

Tchart — самый объективный чарт

dbratus 14 авг 2011 в 07:46

С количеством закачек такое бывает, иногда она сбрасывается в 0 на трекере.

Читаете ли вы книги, не касающиеся программирования?

dbratus 13 авг 2011 в 19:05

Я точно помню, когда я перестал читать книги по программированию — когда, прочитав первые пару предложений главы, я уже знал о чем вся глава. Тогда я понял, что сам могу написать такую книгу.

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:52

Заголовок группы — это пересечение множеств тегов, извлеченных из торрентов. Поэтому, если в сгрупированных заголовках есть «Супер 8» и «Супер», то будет «супер». Алгоритм группировки исключает числа, правда, думаю, отдельные цифры стоит различать, поскольку могут означать номер части.

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:47

Есть идея заменить его на специальные номинации: самый качаемый исполнитель, актер, режисер, писатель и т.д.

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:42

В некоторых категориях фильмы и сериалы действительно лежат в кучу на самом трекере, что есть что алгоритмически отличить невозможно.

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:39

Тестировались разные алгоритмы группировки и был выбран тот, который выдает наиболее адекватные результаты. Идеального алгоритма здесь не может существовать в принципе, потому что группируются заголовки и, в общем случае, пользователи пишут туда все, что им угодно, и только человек может отделить, где название, а где ботва.

Главный принцип алгоритма — лучше недогруппировать, чем перегруппировать. Если контент популярный, он попадет в рейтинг даже отдельными торрентами (как правило, среди торрентов одного контента, один на порядок популярней остальных). С другой стороны, если алгоритм будет группировать что попало, так «за ручку» в топ будет попадать всякая хрень.

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:19

Я всяких Киркоровых имел в виду — тех, кого по телевизору показывают. :) Вообще, интересно, что присутствие исполнителя в телевизоре и присутствие его на трекере, похоже, имеют обратную зависимость.

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:14

Про ссылки на торренты, если их добавить, сайт автоматически превращается как бы в трекер со всеми возможными юридическими и не только последствиями — отборами доменных имен и прочими наездами. А так, это просто исследовательский проект.

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:06

Ну, над дизайном я еще буду работать отдельно, а с навигацией-то что не так?

Tchart — самый объективный чарт

dbratus 13 авг 2011 в 17:05

Есть проблема с попаданием торрентов не в ту категорию. Причины может быть две: либо запрос к индексу нужно испраить (за этим я слежу и скоро все поправлю), либо модераторы трекера проглядели, и контент действительно попал не в ту категорию. Во втором случае я ничего не могу сделать.

Для чего нужен hash-set

dbratus 12 авг 2011 в 14:35

У многих есть такая особенность. Это можно сказать и про многих ораклистов, и про джавистов, не говоря уже о тех, кто программирует под 1С.

Для чего нужен hash-set

dbratus 12 авг 2011 в 14:29

Не совсем. В C++, например, обычный set — это set на базе дерева. Шаблон hash_set есть только в SGI STL и в Visual C++ STL. Так что там с этим тоже сложности.

Для чего нужен hash-set

dbratus 12 авг 2011 в 14:09

Небольшая поправка. Выяснилось, что в Ruby есть hash-set, только не в core library, а в одной из стандартных библиотек 'set'. Ни в одном учебнике по Ruby это не упоминается. Только гуру это знают.