Обновить
18
0
Александр@Trept

Пользователь

Отправить сообщение
Как в анекдоте: «я всегда о ней думаю».
В общем, да. «Мысль изреченная есть ложь» — известная цитата, с которой согласны практически все лингвисты. Это значит, что вне огромного контекста большинство нетривиальных высказываний может быть проинтерпретировано различными способами.
Не вижу логики.
Эти-то исходники и просить ни у кого не надо.
Позвали для поддержки Саркози.
Франция известна своим давлением на Гугл в области правообладания.
И Миронюк хочет зажать те послабления, что есть в нынешнем законе об авторских правах (в т.ч. цитирование), чтобы окончательно стать монополистом.
Так что их интересы совпадают.
Спасибо за полный ответ.
Имелось в виду под изменением сжатия, что изменились накладные расходы для текста под MRC, и, может, вы научились сжимать и текст внутри PDF.
Насколько я понял, текст не сжимается, а накладные в виде команд несущественно увеличиваются, так?
А текст при этих настройках (FR10, по умолчанию) распознается?
И куда в файле он помещается, как при этом изменяется сжатие?
Достаточно ли для добавления распознанного текста обычного FR или нужен FR Engine?
Верно, нет Абсолютного Качества.
Но есть Достаточное Качество.
Поэтому перед запуском нужно исправлять самое необходимое (вне зависимости от трудоемкости) и самое легкое.
А, понял, нестандарт — юмор. Давайте сначала напомню анекдот про стандартные комбинации:
«Комиссия входит в сумасшедший дом, все пациенты собрались в кружок.
Один из пациентов говорит: „18“ — все смеются, другой: „24“ — снова смех.
Комиссии поясняют: все анекдоты пронумерованы, чтобы не терять время на рассказ.
Вдруг кто-то говорит: „44“ — молчание, а затем возглас: „Как не стыдно, здесь дамы!“

Так что, вряд ли. Поясню.
Нестандарта при ограниченном наборе n-грамм просто не будет.
А при неограниченном — его будет все больше и больше (закон Ципфа пока никто оспорить не смог). В этом случае Ваши нынешние 2Гб — так, семечки. И Вы считаете, что основная часть — юмор?

А что до сложности, неограниченность роста этого самого n гарантирует неограниченную сложность.
Попробуйте отсортировать массив хотя бы из триллиона элементов.
Алгоритму-то наплевать, что это: «новые идеи» или нестандартные комбинации n-грамм.
Эффект будет ровно один и тот же.
Вот еще трудность: с ростом словаря n-грамм будет расти время обработки входного потока. Причем при широких границах n разнообразие n-грамм, а, следовательно, и объем словаря неограничен.
Биграмма — последовательность из 2-х символов в тексте.
N-грамма — последовательность из n символов в тексте.
Из них набирается словарь и считается статистика.
На мой взгляд, Вы делаете РОВНО то же самое.
Дальше по этой статистике Вы делаете и классификацию и кластеризацию (последнее Вы называете мэйнстримом). То, что не укладывается (прочее) можно считать «новыми идеями».
Однако относительная доля мусора в этом остатке, естественно, возрастает. Копаться в этом "..." ради редких жемчужин вряд ли кто-то захочет.
Тогда любой биграммный анализ — причинно-следственный. Не говоря уж о трех-, четырех- и т.д. n-граммном.
Кстати, Гугл продает статистику пентаграмм для английского языка. Не интересует?
Ваш алгоритм — подвид обычных марковских цепей, где вероятности принимают только 2 значения (0 и 1). Так же точно Вы собираете статистику, только оставляете одну цепочку, а не несколько с разными весами. Критерий разделения цепочек между категориями — тоже известная вещь.
А что до творчества — машина обыгрывает чемпиона в шахматы, сочиняет неплохие с виду стихи (кстати, тоже марковскими методами), оптимально торгует на бирже, и… что? Это интеллект и творчество?
Хорошо бы, конечно, купить Маннинга «Введение в информационный поиск», но, боюсь, до будущего переиздания эта задача маловыполнимая.
Вашему марковскому методу не хватает сравнения с уже существующими.
Методов анализа текста, в т.ч. автоматической кластеризации и классификации много, о части из них можно почитать в книге Д.Ландэ «Интернетика»: webground.su/services.php?param=book&part=internetica_content.htm#content.
А для сравнения результатов разных методик есть семинар РОМИП: romip.ru.
Сейчас там идет запись в школу RUSSIR, очень рекомендую съездить (август, Питер).
Большой перечень высказываний о проблемах, в основном, широко известных, и лишь пара предложений, да и то с натяжкой («Необходимо подготовить...», «Необходимо использовать...»).
У этой книжки многое будет зависеть от реального качества экрана и софта.
По удобству, пожалуй, уступит сонькам, поскольку пальцами управлять удобнее, чем стилусом, но, может, экран будет получше.
Маленькое замечание: разница с конкурентами по цене поменьше, чем сказано в обзоре $235 — $270 Onyx A60.
Теперь по опросу.
Серфить инет на таком устройстве не слишком удобно, а вот аська — неплохая идея. Но нужна хорошая клавиатура, стилусом набирать текст затруднительно. Не зря до сих пор хорошо расходятся телефоны с QWERTY-клавиатурой, заточенные под СМС.
Да, Вы правы, примерно так можно построить приложение, которое полностью повесит (засвоппирует) данную систему.
Правда, это и для существующих осей возможно.
Все упрется в соотношение «объема оперативки»/«оптимальность управления памятью».
Чем больше первое и чем лучше второе, тем меньше проблема.
А как возникнет-таки проблемка, метода известная: нужно убивать приложение.
Возможность восстановления случайно удаленного контакта, или просто отката на пару недель назад (скажем, жена после ссоры почистила), несомненно, нужна.
Да, приватность при этом снижается.
Лекарство для тех, кому важно это снижение, — отказ от такой возможности. Ждем от Гугла соответствующего флажка.
Согласен, нужна опция в настройках «Отключение бэкапирования».
«Велосипед» — это немного другое, ведь чтобы его не изобретать, надо знать. Поэтому само Ваше руководство целиком (перевод) работает на это.
А пункт о строковых методах показывает часть ограничений для регулярных выражений. Иначе говоря, нужны правильные методы для соответствующих задач. Не надо рассчитывать на широкий универсализм регэкспов.
Очень неплохие примеры, руководство написано длинновато, но все по делу.
Хорошо, что даны строковые методы, их надо бы выделить в отдельную главу Оптимизация.

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность