Комментарии / Профиль Trept / Хабр

Александр@Trept

Пользователь

ПрофильСтатьи6ПостыНовостиКомментарии357

О понимании компьютерами текста

Trept 23 авг 2011 в 09:08

Как в анекдоте: «я всегда о ней думаю».

О понимании компьютерами текста

Trept 23 авг 2011 в 09:07

В общем, да. «Мысль изреченная есть ложь» — известная цитата, с которой согласны практически все лингвисты. Это значит, что вне огромного контекста большинство нетривиальных высказываний может быть проинтерпретировано различными способами.

Microsoft готова передать ФСБ шифровальный алгоритм Skype

Trept 8 июн 2011 в 12:51

Не вижу логики.
Эти-то исходники и просить ни у кого не надо.

Саммит e-G8: закручиваем Gайки?

Trept 25 мая 2011 в 08:51

Позвали для поддержки Саркози.
Франция известна своим давлением на Гугл в области правообладания.
И Миронюк хочет зажать те послабления, что есть в нынешнем законе об авторских правах (в т.ч. цитирование), чтобы окончательно стать монополистом.
Так что их интересы совпадают.

Как технология MRC уменьшает размер PDF-документов

Trept 23 мая 2011 в 08:55

Спасибо за полный ответ.
Имелось в виду под изменением сжатия, что изменились накладные расходы для текста под MRC, и, может, вы научились сжимать и текст внутри PDF.
Насколько я понял, текст не сжимается, а накладные в виде команд несущественно увеличиваются, так?

Как технология MRC уменьшает размер PDF-документов

Trept 23 мая 2011 в 08:36

А текст при этих настройках (FR10, по умолчанию) распознается?
И куда в файле он помещается, как при этом изменяется сжатие?
Достаточно ли для добавления распознанного текста обычного FR или нужен FR Engine?

Не слушайте их

Trept 16 мая 2011 в 15:06

Верно, нет Абсолютного Качества.
Но есть Достаточное Качество.
Поэтому перед запуском нужно исправлять самое необходимое (вне зависимости от трудоемкости) и самое легкое.

Автоматический анализ текста без модераторов

Trept 13 мая 2011 в 11:04

А, понял, нестандарт — юмор. Давайте сначала напомню анекдот про стандартные комбинации:
«Комиссия входит в сумасшедший дом, все пациенты собрались в кружок.
Один из пациентов говорит: „18“ — все смеются, другой: „24“ — снова смех.
Комиссии поясняют: все анекдоты пронумерованы, чтобы не терять время на рассказ.
Вдруг кто-то говорит: „44“ — молчание, а затем возглас: „Как не стыдно, здесь дамы!“

Так что, вряд ли. Поясню.
Нестандарта при ограниченном наборе n-грамм просто не будет.
А при неограниченном — его будет все больше и больше (закон Ципфа пока никто оспорить не смог). В этом случае Ваши нынешние 2Гб — так, семечки. И Вы считаете, что основная часть — юмор?

А что до сложности, неограниченность роста этого самого n гарантирует неограниченную сложность.
Попробуйте отсортировать массив хотя бы из триллиона элементов.

Автоматический анализ текста без модераторов

Trept 12 мая 2011 в 10:40

Алгоритму-то наплевать, что это: «новые идеи» или нестандартные комбинации n-грамм.
Эффект будет ровно один и тот же.
Вот еще трудность: с ростом словаря n-грамм будет расти время обработки входного потока. Причем при широких границах n разнообразие n-грамм, а, следовательно, и объем словаря неограничен.

Автоматический анализ текста без модераторов

Trept 12 мая 2011 в 07:52

Биграмма — последовательность из 2-х символов в тексте.
N-грамма — последовательность из n символов в тексте.
Из них набирается словарь и считается статистика.
На мой взгляд, Вы делаете РОВНО то же самое.
Дальше по этой статистике Вы делаете и классификацию и кластеризацию (последнее Вы называете мэйнстримом). То, что не укладывается (прочее) можно считать «новыми идеями».
Однако относительная доля мусора в этом остатке, естественно, возрастает. Копаться в этом "..." ради редких жемчужин вряд ли кто-то захочет.

Автоматический анализ текста без модераторов

Trept 11 мая 2011 в 10:34

Тогда любой биграммный анализ — причинно-следственный. Не говоря уж о трех-, четырех- и т.д. n-граммном.
Кстати, Гугл продает статистику пентаграмм для английского языка. Не интересует?
Ваш алгоритм — подвид обычных марковских цепей, где вероятности принимают только 2 значения (0 и 1). Так же точно Вы собираете статистику, только оставляете одну цепочку, а не несколько с разными весами. Критерий разделения цепочек между категориями — тоже известная вещь.
А что до творчества — машина обыгрывает чемпиона в шахматы, сочиняет неплохие с виду стихи (кстати, тоже марковскими методами), оптимально торгует на бирже, и… что? Это интеллект и творчество?

Автоматический анализ текста без модераторов

Trept 11 мая 2011 в 08:13

Хорошо бы, конечно, купить Маннинга «Введение в информационный поиск», но, боюсь, до будущего переиздания эта задача маловыполнимая.

Автоматический анализ текста без модераторов

Trept 11 мая 2011 в 08:01

Вашему марковскому методу не хватает сравнения с уже существующими.
Методов анализа текста, в т.ч. автоматической кластеризации и классификации много, о части из них можно почитать в книге Д.Ландэ «Интернетика»: webground.su/services.php?param=book&part=internetica_content.htm#content.
А для сравнения результатов разных методик есть семинар РОМИП: romip.ru.
Сейчас там идет запись в школу RUSSIR, очень рекомендую съездить (август, Питер).

Как умному стать богатым

Trept 29 апр 2011 в 12:24

Большой перечень высказываний о проблемах, в основном, широко известных, и лишь пара предложений, да и то с натяжкой («Необходимо подготовить...», «Необходимо использовать...»).

Новая модель читалки Азбука n618

Trept 29 апр 2011 в 12:15

У этой книжки многое будет зависеть от реального качества экрана и софта.
По удобству, пожалуй, уступит сонькам, поскольку пальцами управлять удобнее, чем стилусом, но, может, экран будет получше.
Маленькое замечание: разница с конкурентами по цене поменьше, чем сказано в обзоре $235 — $270 Onyx A60.
Теперь по опросу.
Серфить инет на таком устройстве не слишком удобно, а вот аська — неплохая идея. Но нужна хорошая клавиатура, стилусом набирать текст затруднительно. Не зря до сих пор хорошо расходятся телефоны с QWERTY-клавиатурой, заточенные под СМС.

Стенограмма доклада про Фантом-ОС, сделанного Дмитрием Завалишиным на ADD-2010

Trept 26 апр 2011 в 12:48

Да, Вы правы, примерно так можно построить приложение, которое полностью повесит (засвоппирует) данную систему.
Правда, это и для существующих осей возможно.
Все упрется в соотношение «объема оперативки»/«оптимальность управления памятью».
Чем больше первое и чем лучше второе, тем меньше проблема.
А как возникнет-таки проблемка, метода известная: нужно убивать приложение.

Восстановление удаленного контакта

Trept 1 апр 2011 в 08:07

Возможность восстановления случайно удаленного контакта, или просто отката на пару недель назад (скажем, жена после ссоры почистила), несомненно, нужна.
Да, приватность при этом снижается.
Лекарство для тех, кому важно это снижение, — отказ от такой возможности. Ждем от Гугла соответствующего флажка.

Восстановление удаленного контакта

Trept 1 апр 2011 в 07:18

Согласен, нужна опция в настройках «Отключение бэкапирования».

Регулярные выражения, пособие для новичков. Часть 2

Trept 21 мар 2011 в 09:39

«Велосипед» — это немного другое, ведь чтобы его не изобретать, надо знать. Поэтому само Ваше руководство целиком (перевод) работает на это.
А пункт о строковых методах показывает часть ограничений для регулярных выражений. Иначе говоря, нужны правильные методы для соответствующих задач. Не надо рассчитывать на широкий универсализм регэкспов.

Регулярные выражения, пособие для новичков. Часть 2

Trept 20 мар 2011 в 20:12

Очень неплохие примеры, руководство написано длинновато, но все по делу.
Хорошо, что даны строковые методы, их надо бы выделить в отдельную главу Оптимизация.

1 2 ...

8 9

11 12 ...

17 18