Потрясающе наивная статья о распознавании юмора [4]. Эти люди думают, что все шутки можно распознать по аллитерациям, антиномиям и словам ниже пояса (adult slang). Есть только одна проблема, как определить, что шутка смешная. А еще они думают, что любая фраза на сайте с тэгом humor является юмором. Святая простота!
Теорема Геделя — это первое, что вспоминает математик, не верящий в ИИ, когда хочет указать на принципиальную невозможность моделирования сознания алгоритмически. Среди таких математиков есть величайшие умы, такие как тот же Р. Пенроуз. В общем, этот аргумент не я придумал.
Я как раз и хочу, чтобы прежде чем что-либо стало называться «интеллект», этому было дано четкое определение. Я-то не уверен, что это возможно (см. теорема Геделя).
Вообще, меня всегда забавляло, почему некоторые алгоритмы называются «интеллектуальными»? То есть почему A* — это «интеллектуальный» алгоритм, а сортировка пузырьком — нет. Я не первый год занимаюсь так называемыми «интеллектуальными» алгоритмами и пришел к вот какому определению: «Интеллектуальной может называться любая система, о которой никто не знает, как она работает».
Искусственный интеллект — это НРО (Неизвестно как Работающий Объект).
Это все правда. Действительно существует множество относительно эффективных решений частных случаев интеллектуальных задач, но не существует даже близко универсальной модели мышления. В этом суть проблемы искусственного интеллекта — в том, что это не интеллект во все. Просто текст (или речь) — это самый тесно связанный с мышлением продукт человеческой жизнедеятельности, так сказать протокол взаимодействия человеков, поэтому проблема ИИ применительно к нему стоит наиболее остро.
В своей статье я имел в виду именно понимание «как человек», ни лучше, ни хуже. То есть, если ИИ ошибается, он должен ошибаться «как человек». Для чего это нужно? Ну, машинный перевод это само собой, но есть еще одна задача. Представьте, издатель получает текст, читает его и понимает, что что-то в нем есть, но вот беда — не формат. То есть понять, как какому жанру он принадлежит, совершенно невозможно, а значит непонятно, как раскручивать нового автора. Так бывает достаточно часто, и в этом случае текст обычно банят. В то же время текст может быть бомбой, но его экономический эффект непредсказуем, потому что нет возможности собрать фокус-группу и провести исследование на разных целевых аудиториях.
Задумайтесь еще вот о чем (я не упоминал об этом в статье, потому что это не совсем по теме): существует такая теорема Геделя о непоноте. Считая естественный язык формальной системой, можно утверждать, что в нем существует утверждение невыводимое и неопровержимое в рамках естественного языка. Получается, что для формального описания естественного языка нужен язык более мощный, чем естественный, — то есть язык не сводимый к естественному. Существует ли такой? Сможет ли человек его понять?
Искусственный интеллект — это современный философский камень. Сейчас превратить свинец в золото в принципе возможно, но это нецелесообразно. Так, мне кажется, будет и с искусственным интеллектом. Когда его создание станет возможным, во-первых, тут же пропадет ареол таинственности, и многие просто потеряют к этой теме интерес; во-вторых, почти наверняка это будет настолько сложно, что в этом не будет никакого практического смысла. И уж точно это не будет компьютер, это будет принципиально иная технология.
Их существование возможно, и главный кандидат — тубулин. Он состоит из молекул-димеров, которые могут находиться в спутанном состоянии двух пространственных укладок. Об этом можно почитать в книге Quantum Aspects of Life. Правда она еще не переведена на русский.
Но ведь фразу в примере можно исправить двумя способами: «Эта компьютерная программа распознает простой текст» и «Это компьютерная программа, распознающая простой текст», а еще может быть так «Этой компьютерной программе распознавать простой текст» (ну, судьба у нее такая).
Вообще, что касается запятых, если бы из произвольной последовательности слов (пусть даже в нужных формах) можно было бы вывести однозначно расстановку запятых, тогда, согласитесь, запятые были бы не нужны. Расставляя запятые, вы обозначаете семантику высказывания. Хрестоматийный пример: «казнить нельзя помиловать». Компьютер не может читать ваши мысли, поэтому не может расставить за вас запятые. Так, например, деепричастные обороты в русском выделяются запятыми именно из-за неоднозначностей; в английском аналогичные по функции continuous формы запятыми не выделяются, потому что там неоднозначность разрешает порядок слов.
Я раньше пользовался Орфо и думаю, что лучше вряд ли что-то можно изобрести, но даже он фатально ошибается, поэтому я от него отказался. В какой-то момент я понял, что единственный способ писать грамотно — выучить грамматику.
Я точно помню, когда я перестал читать книги по программированию — когда, прочитав первые пару предложений главы, я уже знал о чем вся глава. Тогда я понял, что сам могу написать такую книгу.
Заголовок группы — это пересечение множеств тегов, извлеченных из торрентов. Поэтому, если в сгрупированных заголовках есть «Супер 8» и «Супер», то будет «супер». Алгоритм группировки исключает числа, правда, думаю, отдельные цифры стоит различать, поскольку могут означать номер части.
Тестировались разные алгоритмы группировки и был выбран тот, который выдает наиболее адекватные результаты. Идеального алгоритма здесь не может существовать в принципе, потому что группируются заголовки и, в общем случае, пользователи пишут туда все, что им угодно, и только человек может отделить, где название, а где ботва.
Главный принцип алгоритма — лучше недогруппировать, чем перегруппировать. Если контент популярный, он попадет в рейтинг даже отдельными торрентами (как правило, среди торрентов одного контента, один на порядок популярней остальных). С другой стороны, если алгоритм будет группировать что попало, так «за ручку» в топ будет попадать всякая хрень.
Я всяких Киркоровых имел в виду — тех, кого по телевизору показывают. :) Вообще, интересно, что присутствие исполнителя в телевизоре и присутствие его на трекере, похоже, имеют обратную зависимость.
Про ссылки на торренты, если их добавить, сайт автоматически превращается как бы в трекер со всеми возможными юридическими и не только последствиями — отборами доменных имен и прочими наездами. А так, это просто исследовательский проект.
Есть проблема с попаданием торрентов не в ту категорию. Причины может быть две: либо запрос к индексу нужно испраить (за этим я слежу и скоро все поправлю), либо модераторы трекера проглядели, и контент действительно попал не в ту категорию. Во втором случае я ничего не могу сделать.
Не совсем. В C++, например, обычный set — это set на базе дерева. Шаблон hash_set есть только в SGI STL и в Visual C++ STL. Так что там с этим тоже сложности.
Небольшая поправка. Выяснилось, что в Ruby есть hash-set, только не в core library, а в одной из стандартных библиотек 'set'. Ни в одном учебнике по Ruby это не упоминается. Только гуру это знают.
Вообще, меня всегда забавляло, почему некоторые алгоритмы называются «интеллектуальными»? То есть почему A* — это «интеллектуальный» алгоритм, а сортировка пузырьком — нет. Я не первый год занимаюсь так называемыми «интеллектуальными» алгоритмами и пришел к вот какому определению: «Интеллектуальной может называться любая система, о которой никто не знает, как она работает».
Искусственный интеллект — это НРО (Неизвестно как Работающий Объект).
В своей статье я имел в виду именно понимание «как человек», ни лучше, ни хуже. То есть, если ИИ ошибается, он должен ошибаться «как человек». Для чего это нужно? Ну, машинный перевод это само собой, но есть еще одна задача. Представьте, издатель получает текст, читает его и понимает, что что-то в нем есть, но вот беда — не формат. То есть понять, как какому жанру он принадлежит, совершенно невозможно, а значит непонятно, как раскручивать нового автора. Так бывает достаточно часто, и в этом случае текст обычно банят. В то же время текст может быть бомбой, но его экономический эффект непредсказуем, потому что нет возможности собрать фокус-группу и провести исследование на разных целевых аудиториях.
Задумайтесь еще вот о чем (я не упоминал об этом в статье, потому что это не совсем по теме): существует такая теорема Геделя о непоноте. Считая естественный язык формальной системой, можно утверждать, что в нем существует утверждение невыводимое и неопровержимое в рамках естественного языка. Получается, что для формального описания естественного языка нужен язык более мощный, чем естественный, — то есть язык не сводимый к естественному. Существует ли такой? Сможет ли человек его понять?
Их существование возможно, и главный кандидат — тубулин. Он состоит из молекул-димеров, которые могут находиться в спутанном состоянии двух пространственных укладок. Об этом можно почитать в книге Quantum Aspects of Life. Правда она еще не переведена на русский.
Вообще, что касается запятых, если бы из произвольной последовательности слов (пусть даже в нужных формах) можно было бы вывести однозначно расстановку запятых, тогда, согласитесь, запятые были бы не нужны. Расставляя запятые, вы обозначаете семантику высказывания. Хрестоматийный пример: «казнить нельзя помиловать». Компьютер не может читать ваши мысли, поэтому не может расставить за вас запятые. Так, например, деепричастные обороты в русском выделяются запятыми именно из-за неоднозначностей; в английском аналогичные по функции continuous формы запятыми не выделяются, потому что там неоднозначность разрешает порядок слов.
Я раньше пользовался Орфо и думаю, что лучше вряд ли что-то можно изобрести, но даже он фатально ошибается, поэтому я от него отказался. В какой-то момент я понял, что единственный способ писать грамотно — выучить грамматику.
Главный принцип алгоритма — лучше недогруппировать, чем перегруппировать. Если контент популярный, он попадет в рейтинг даже отдельными торрентами (как правило, среди торрентов одного контента, один на порядок популярней остальных). С другой стороны, если алгоритм будет группировать что попало, так «за ручку» в топ будет попадать всякая хрень.