Pull to refresh

Comments 86

UFO just landed and posted this here
Ага, А если развить эту тему в глубь, то получится еще и годная диссертация на тему «Передача Стеганографической Информации в сети Интернет посредством использования Аффтарско-Падонкаффских Олбанизмов» ;)

UFO just landed and posted this here
Ага. Спамерами. =(
Немного истории:
Во время Великой Отечественной войны, как известно, у нас уделяли значительное внимание организации партизанского движения. Почти каждый отряд в тылу врага имел радиостанцию, а также то или иное сообщение с «большой землёй». Имевшиеся у партизан шифры были крайне нестойкими — немецкие дешифровщики «раскалывали» их достаточно быстро. А это, как известно, выливается в боевые поражения и потери.

Партизаны оказались хитры и изобретательны и в этой области тоже. Приём был предельно прост. В исходном тексте сообщения делалось большое количество грамматических ошибок, например, писали: «прошсли тры эшшелона з тнками». При верной расшифровке для русского человека всё было понятно. Но криптоаналитики противника перед подобным приёмом оказались бессильны: перебирая возможные варианты, они встречали невозможное для русского языка сочетание «тнк» и отбрасывали данный вариант как заведомо неверный.

Этот, казалось бы, доморощенный приём, на самом деле, очень эффективен и часто применяется даже сейчас. В исходный текст сообщения подставляются случайные последовательности символов, чтобы сбить с толку криптоаналитические программы, работающие методом перебора или изменить статистические закономерности шифрограммы, которые также могут дать полезную информацию противнику.
Не мог не вспомнить:

— Ключъ настард протяшко адин!

— Прятяшко первый нах!

— Аземуд тризта! (в этот момент половина компьютеров Пиндагона начинает дымиться)

— Баигалаффко гатов! (все полиглоты Омерики роются в словарях)

— Афтар, жги!

— Пашол!

— Ну че там?

— Писят сикунд палет намана. (пиндосы ищут на часах цифру «писят»)

— Где летим?

— Над Хобаровзгом! (Google Maps закрываются на профилактику)

— Скороздь?

— Пицот!

— Зачот.

— Где ща?

— Пралитайэм акийан (все географы Соединенных Штатов Пиндостана рвут карты и волосы на заднице)

— Чо как?

— Нидалед

. — Низачот.

— Ну, ниасилели.

— Фсем превед.
Я тоже ждал текст о том, что кто то ждал этот текст :)
Увеличиваем глубину рефлексии? :-)
UFO just landed and posted this here
Клёвая идея, но сейчас такие опечатки легко исправит Google или любое ПО с функцией suggestion для ошибочных слов.
Речь идёт о том, что текст с опечатками шифруется. В открытом виде — понятно, что извлечь из него информацию всё равно не так уж и сложно будет.
«сранобя США соеабощт» — сурово звучит
А ещё здесь недавно пробегала статья, в которой описывался факт более качественного усвоения информации при плохой читаемости.
UFO just landed and posted this here
Почему-то вспомнилось:

Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.
UFO just landed and posted this here
Cтатья о студенческих изысканиях в области ИИ в офлайновом журнале www.movesinstitute.org говорит об обратном. Вкратце: когда создавалась бот-сеть для сетевой активности в информационном поле, перед разработчиками замаячила серьезная проблема-славянские языки. Тогда они решили попытки «славянизации» ИИ отложить на потом и банально выписали грант на создание и пиар нового информативного лексикона, которому можно было бы обучить машину. Таким языком и стал «язык падонкафф»-словарь ограничен, методика применения и смысловой окрас слов предельно ясны, чего ещё надо чтобы программа работала?! :)

UFO just landed and posted this here
Это не вы думаете, а где то прочитали. Автор как раз и показал, что перемешивать можно отнюдь не вольно
UFO just landed and posted this here
UFO just landed and posted this here
Я вас огорчу, но во всех словах в статье первая и последняя буквы стоят на своих местах.
UFO just landed and posted this here
А про вольно и не вольно вывод я сделал на основе приведенных текстов в статье. Затруднение лично у меня вызвали только те слова, у которых при перемешивании изменили первую и последнюю букву.
UFO just landed and posted this here
енобязательон епрвяа и опследяня убкыв ;)
Едистственный критерий «читаемости» общая вероятность коллизий у читающего в мозгу при распознавании данного тестста. Пока эта вероятность не достигла некоторого (NB: индивидуального) «порогового» значения — текст можно смело херачить.
Вот например, ssneg ниже приводит такой пример: http://habrahabr.ru/post/148896/#comment_5029028 в половине слов вообще большая часть заменена на звездочки, тем не менее все замечательно распознается, так как «вероятность коллизии в мозгу читающего» невелика.
В примере человек не распознает слова, он просто подставляет слово, которое уже встречалось в подобной фразе в других источниках, и отвечает маске. Если в примерах в статье выдернуть любое слово, мы его узнаем. Если в примере ниже — нет.
Автор заявляет, что не менял первую и последнюю буквы. На мой взгляд, так и есть.
UFO just landed and posted this here
Затруднение лично у меня вызвали только те слова, у которых при перемешивании изменили первую и последнюю букву.
Ни в одном из текстов в посте таких слов нет. Базовое правило как раз в том, чтобы первая и последняя буква оставались на месте.
Вот у меня тоже дежавю было
В последнем варианте фраза практически не изменилась, вы просто ослабили алгоритм перемешивания до фактически отсутствия перемешивания: рыбном порту котырой в эти дни отмечал

Кроме того, очень сильно влияет штампованность выбранных фрагментов — там половину фразы можно вообще убрать и всё будет понятно:

На О********** играх состоялись ж****** командные с*********** по спортивной г**********. Второе м**** заняли представительницы российской к******, которая выиграла для н********** сборной второе «с*******». «З*****» — у к****** из США, б******* награду п********* румынские гимнастки.
UFO just landed and posted this here
Особенно про то, что «б******* награду п********* румынские гимнастки». Вспоминается известная картинка «Мойка п-ды».
UFO just landed and posted this here
UFO just landed and posted this here
чуть мозг не сломал на этом моменте
сранобя… писунрак

У вашей програмы есть чувство юмора :)
Мне кажется, правильнее попробовать сделать что-то вроде Вашего последнего алгоритма, только немножко развить идею:
1. Фиксируем первый и последний символы слова.
2. Из оставшихся берём первые три символа, произвольно перемешиваем.
3. Из полученной новой тройки фиксируем первые два.
4. Повторяем пункт 2, пока незафиксированные символы не кончатся.

То есть для слова «Калининград» будут получаться следующие последовательные преобразования (жирным я выделяю уже зафиксированные позиции, курсивом те, которые будут сейчас обрабатываться):
1. Калининград
2. Клианинград
3. Клинаинград
4. Клинангирад
5. Клинанграид
Таким образом мы увеличиваем возможность миграций букв, не слишком сильно при этом снижая читаемость.

Дополнительно можно рассмотреть:
* фиксацию не просто последней буквы, а последней буквы стема + окончание;
* направление движения: не от начала к концу, а наоборот, или вообще от середины к краям.
Сделал) Сейчас проапдейчу пост)
А мне кажется, что стоит как-то попробывать учитывать морфологию слов. Разбивать на корень слова, суффиксы и т.п. Ну и конечно еще вариант исходить из разбиения на слоги.
Программа для проверки — это зачет! )) Кстати, не ты ли постил ссылку на статью на тему восприятия текста — www.yugzone.ru/articles/wordrecognition/… Там как раз хорошо рассказывается, с чем связано распознавание слов (про динамику чтения и различные эксперименты с этим связанные).
Нет, но я ее читал, правда интересно
Спасибо за ссылочку. Образовывает :)
Понравилось про форму слов. Меня убедило:
image
В общем-то это подтверждает теорию с перестановками. Если от большого кол-ва перестановок форма слова становится менее узнаваемой — получаем худшую читабельность.
Ну опечатка же в названии топика. Сколько можно! =)
О таком надо писать в лчику.
UFO just landed and posted this here
UFO just landed and posted this here
Английский — аналитический язык, русский — синтетический. В нем грамматические категории передаются флексией (окончанием) и приставками. Плюс основным узнаваемым элементом является корень. Наверное, стоит перемешивать буквы в рамках отдельных морфем или сохранять первый и последний символ корня и флексий/приставок.
Кстати да идея интересная. Правда, без подключения словаря научить алгоритм выделять из слова корень, а так же приставки/окончания будет проблематично.
Можно что-нибудь придумать. Количество окончаний, приставок и суффиксов в общем-то не очень большое, можно попробовать задать какое-то их множество (не обязательно все), потом отковыривать их, а все остальное считать корнем. Это не идеально, но хоть что-то. Со словарем результат, конечно, будет лучше.
UFO just landed and posted this here
как по мне, так разные варианты текста, представленные ТС, читаются одинаково. зы. Есть еще один вариант говора, который по идее не должны понимать люди со стороны, если не понимают алгоритма: добавлять после каждого слога букву С с предшествующей гласной. Например, хабрахабр будет звучать как хаСАбраСАхаСАбр. Такой вот пиСИздеСЕц.
Еще есть мысль, что обычно если в слове пропущено одна-две буквы (возможно некий процент букв) оно остается читаемым. Можно попытаться в рамках данного «исследования» в программе обыграть и это.
См. мой комментарий выше http://habrahabr.ru/post/148896/#comment_5029123. Все дело в вероятности коллизии при распознавании текста.

Хотя, даже возникающие коллизии распознавания, можно даже специально, умышленно вызывать, там где надо. «Творчески обыгрывать» коллизии например, для усиления комического эффекта от прочтения текста. Например, слова «солнечная п***да» и «е**ть на юг» — это всего лишь слова «солнечная погода» и «ехать на юг» следующие из контекста, а вовсе не то, что следуя за пошлыми ассоциациями, сходу вам подсказал мозг :)

Я смог прочитать английский вариант, почти без промахов и остановок, хвала небесам, и товарищу Бобову за то что я смог подтянуть свой инглишь!!!
Да, вонни-бух доволен последним текстом.
Так и не понял, что такое «писунрак» («писанрук» ли, или «пасурник»)…
Я тоже, но ваш «пасурник» подсказал мне «парусник».
> Удивительно, но без гласных понятно абсолютно все. Причем текст ужался на 34 процента.
Думаю, ничего удивительного, как пример Иврит, в котором нет гласных.
За статью спасибо, очень интересно.
>>Думаю, ничего удивительного, как пример Иврит, в котором нет гласных>>>

В иврите гласные есть. А вот в еврейском письме полной передачи гласных действительно нет.

Вообще исследования по истории письма показывают, что общая схема эволюции письменности выглядит так:
логография => словесно-слоговое письмо=>слоговое письмо => алфавит (причем большинство первых алфавитов были именно консонантными, т.е. в них отсутствовала полная передача гласных).

Кстати, без гласных (можете поэкспериментировать на досуге) можно без особых проблем читать не только на иврите и арабском, но и на многих других европейских языках. Когда я учился в школе, мне в руки попалась книга с рекомендациями по быстрому конспектированию, в которой в числе прочих давался следующий совет: записывая со слуха лекции, лучше опускать гласные — так все получается быстрее и удобнее. Я попробовал — действительно оказалось быстрее и удобнее. Многие системы стенографии тоже строились по аналогичному принципу: гласные в них не писались.
Согласен, с написанием и чтением выходит все очень здорово, а вот с произношением и восприятием на слух такого текста могут возникнуть проблемы )))
Довольно тяжело быстро и внятно произнести "… сн всптвлся в однм из лчшх кзннх звдний в птрбрге.", а заядлый курильщик как бы не выдохся произнеся абзац, что в статье без гласных ))).
Ну это как привыкнуть. Вот я ради интереса вставил вместо пропущенных гласных букву а:

марья дматриевна в маладасти пальзавалась рапатацией маланькой бланданки; и в патьдасат лат чарты ее не бали лашаны приятнасти, хатя намного распахли и сплалась. она бала балее чавстватальна, нажали дабра, и до зралах лат сахранала инстататские замашки; она избалавала сабя, легко раздражалась и даже плакала, когда нарашалась ее правачки; зато она бала очань ласкава и лабазна, когда все ее жалания испалналась и накто ей не пракаславал. дам ее пранадлажал к часлу приятнейшах в гораде. састояние у ней бало васьма харашее, не сталько насладстванное, скалько благоприобратанное мажам. обе дачари жали с нею; сан васпатавался в однам из лачшах казаннах заваданий в патарбарге.

читается легко))
Если привыкнуть, то эту букву вставляешь как-бы автоматом при чтении) в арабском, кстати, гласная кочует внутри корня, от этого меняется слово. Например, ktb — корень для всех слов, имеющих отношение к чтению. kitab — книга, а дальше — пошло-поехало

katîb писатель
kitâba собственно, написание чего-либо
kutubî продавец книг
kutayyib буклет
maktûb письмо
maktab школа, oфис
maktaba библиотека, литература
miktâb печатающая машинка
mukâtaba переписка
iktitâb регистрация
istiktâb диктант
и т.д.
Ну сколько ж можно-то… Недавно ж пробегала даже на Хабре ссылка на статью, в которой как раз научно опровергается этот тезис. Всё не так просто, на самом деле, как кажется.
>жскиене коныандме срнноваовеия
image
Мрья Дмтриевна в млдсти пльзвлсь рптцией млнькой блнднки; и в птьдст лт чрты ее не бли лшны приятнсти, хтя нмнго рспхли и спллсь.
Ассоциация первого уровня, простите.

Я прнс
В английском просто слова короче, вот он и более читабельный. Если перемешивать русские длинные слова, то они станут не читаемы. Я думаю что читабельность зависит от количества перемещенных букв * на среднее расстояние их перемещения, то есть сумма длин перемещений всех букв
А лучше корня из этой величины. Это мое предположение, числа просто придуманы.
Я считаю, что читабельность падает, если перемешать больше букв и/или перемещать их на максимально большое расстояние.
Если рассмотреть эту проблему как лингвист, то очевиден корень проблема — намного более сложная морфология русского языка. В английском нет падежей, родов прилагательных/причастий, большого кол-ва лиц/спряжений глаголов. Любое согласование частей речи в предложении в русском ведет к дополнительным буквам, меняющимся то перед, то после корня (а иногда и корень меняется! беглые гласные! в английском этим и не пахнет!).
Вот как то так :)
Все что не корень, да еще и меняется — однозначно шум. Именно он и мешает…
идея для каптчи, возможно кто-то уже применяет
Такая «капча» очень легко будет расшифрована путем перебора по словарю :)
Задача номер два: разработать обратный алгоритм, который из произвольно (с ограничениями) зашумлённого текста восстанавливает оригинал.

Вот пример для тестирования:
Yhwh
UFO just landed and posted this here
>млнькой блнднки

Непонятно, маленькой или миленькой. Это же меняет дело!
О я помню написал сперва прогу для этого, потом увидел что нихрена не читается, потом поковырял алгоритм на соотношение гласные+согласные и дальность перестановки букв и с помощью проги даже получал почти всегда читаемые тексты.
Ностольгия.
Sign up to leave a comment.

Articles