raliev Aug 1 2012 at 18:54

О том, как мы ворпсиманием теcкт

4 min

172K

Artificial Intelligence

+89

Comments 86

UFO just landed and posted this here

lesha_penguin Aug 1 2012 at 19:14

Ага, А если развить эту тему в глубь, то получится еще и годная диссертация на тему «Передача Стеганографической Информации в сети Интернет посредством использования Аффтарско-Падонкаффских Олбанизмов» ;)

UFO just landed and posted this here

Error_403_Forbidden Aug 1 2012 at 19:15

Мысль не нова и давно уже используется.

Biga Aug 1 2012 at 20:47

Ага. Спамерами. =(

+19

InSys Aug 1 2012 at 19:39

Немного истории:

Во время Великой Отечественной войны, как известно, у нас уделяли значительное внимание организации партизанского движения. Почти каждый отряд в тылу врага имел радиостанцию, а также то или иное сообщение с «большой землёй». Имевшиеся у партизан шифры были крайне нестойкими — немецкие дешифровщики «раскалывали» их достаточно быстро. А это, как известно, выливается в боевые поражения и потери.

Партизаны оказались хитры и изобретательны и в этой области тоже. Приём был предельно прост. В исходном тексте сообщения делалось большое количество грамматических ошибок, например, писали: «прошсли тры эшшелона з тнками». При верной расшифровке для русского человека всё было понятно. Но криптоаналитики противника перед подобным приёмом оказались бессильны: перебирая возможные варианты, они встречали невозможное для русского языка сочетание «тнк» и отбрасывали данный вариант как заведомо неверный.

Этот, казалось бы, доморощенный приём, на самом деле, очень эффективен и часто применяется даже сейчас. В исходный текст сообщения подставляются случайные последовательности символов, чтобы сбить с толку криптоаналитические программы, работающие методом перебора или изменить статистические закономерности шифрограммы, которые также могут дать полезную информацию противнику.

+20

vyacheslav_ka Aug 1 2012 at 20:03

Не мог не вспомнить:

— Ключъ настард протяшко адин!

— Прятяшко первый нах!

— Аземуд тризта! (в этот момент половина компьютеров Пиндагона начинает дымиться)

— Баигалаффко гатов! (все полиглоты Омерики роются в словарях)

— Афтар, жги!

— Пашол!

— Ну че там?

— Писят сикунд палет намана. (пиндосы ищут на часах цифру «писят»)

— Где летим?

— Над Хобаровзгом! (Google Maps закрываются на профилактику)

— Скороздь?

— Пицот!

— Зачот.

— Где ща?

— Пралитайэм акийан (все географы Соединенных Штатов Пиндостана рвут карты и волосы на заднице)

— Чо как?

— Нидалед

. — Низачот.

— Ну, ниасилели.

— Фсем превед.

+30

StealthX Aug 1 2012 at 23:25

Ждал тут этот текст

vyacheslav_ka Aug 1 2012 at 23:47

Я тоже ждал текст о том, что кто то ждал этот текст :)

Colwin Aug 6 2012 at 10:33

Увеличиваем глубину рефлексии? :-)

UFO just landed and posted this here

keyno Aug 4 2012 at 16:19

Клёвая идея, но сейчас такие опечатки легко исправит Google или любое ПО с функцией suggestion для ошибочных слов.

JustDont Apr 16 2020 at 14:55

Речь идёт о том, что текст с опечатками шифруется. В открытом виде — понятно, что извлечь из него информацию всё равно не так уж и сложно будет.

Wendor Aug 1 2012 at 20:41

«сранобя США соеабощт» — сурово звучит

StrangeAttractor Aug 2 2012 at 03:12

А ещё здесь недавно пробегала статья, в которой описывался факт более качественного усвоения информации при плохой читаемости.

UFO just landed and posted this here

psylostlife Aug 2 2012 at 10:46

Почему-то вспомнилось:

Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.

UFO just landed and posted this here

nsiss Aug 2 2012 at 13:04

Cтатья о студенческих изысканиях в области ИИ в офлайновом журнале www.movesinstitute.org говорит об обратном. Вкратце: когда создавалась бот-сеть для сетевой активности в информационном поле, перед разработчиками замаячила серьезная проблема-славянские языки. Тогда они решили попытки «славянизации» ИИ отложить на потом и банально выписали грант на создание и пиар нового информативного лексикона, которому можно было бы обучить машину. Таким языком и стал «язык падонкафф»-словарь ограничен, методика применения и смысловой окрас слов предельно ясны, чего ещё надо чтобы программа работала?! :)

UFO just landed and posted this here

anyxem Aug 1 2012 at 19:18

Это не вы думаете, а где то прочитали. Автор как раз и показал, что перемешивать можно отнюдь не вольно

+26

UFO just landed and posted this here

ascending Aug 1 2012 at 19:40

Я вас огорчу, но во всех словах в статье первая и последняя буквы стоят на своих местах.

+14

UFO just landed and posted this here

ascending Aug 1 2012 at 19:50

А про вольно и не вольно вывод я сделал на основе приведенных текстов в статье. Затруднение лично у меня вызвали только те слова, у которых при перемешивании изменили первую и последнюю букву.

UFO just landed and posted this here

lesha_penguin Aug 1 2012 at 19:42

енобязательон епрвяа и опследяня убкыв ;)
Едистственный критерий «читаемости» общая вероятность коллизий у читающего в мозгу при распознавании данного тестста. Пока эта вероятность не достигла некоторого (NB: индивидуального) «порогового» значения — текст можно смело херачить.
Вот например, ssneg ниже приводит такой пример: http://habrahabr.ru/post/148896/#comment_5029028 в половине слов вообще большая часть заменена на звездочки, тем не менее все замечательно распознается, так как «вероятность коллизии в мозгу читающего» невелика.

IDMan Aug 2 2012 at 11:43

В примере человек не распознает слова, он просто подставляет слово, которое уже встречалось в подобной фразе в других источниках, и отвечает маске. Если в примерах в статье выдернуть любое слово, мы его узнаем. Если в примере ниже — нет.

petuhov_k Aug 1 2012 at 19:46

Автор заявляет, что не менял первую и последнюю буквы. На мой взгляд, так и есть.

UFO just landed and posted this here

Dimmerg Aug 2 2012 at 08:07

Затруднение лично у меня вызвали только те слова, у которых при перемешивании изменили первую и последнюю букву.
Ни в одном из текстов в посте таких слов нет. Базовое правило как раз в том, чтобы первая и последняя буква оставались на месте.

atomlib Aug 1 2012 at 19:01

habrahabr.ru/post/122163/

CyberCore Aug 1 2012 at 22:00

Вот у меня тоже дежавю было

ssneg Aug 1 2012 at 19:07

В последнем варианте фраза практически не изменилась, вы просто ослабили алгоритм перемешивания до фактически отсутствия перемешивания: рыбном порту котырой в эти дни отмечал

Кроме того, очень сильно влияет штампованность выбранных фрагментов — там половину фразы можно вообще убрать и всё будет понятно:

На О********** играх состоялись ж****** командные с*********** по спортивной г**********. Второе м**** заняли представительницы российской к******, которая выиграла для н********** сборной второе «с*******». «З*****» — у к****** из США, б******* награду п********* румынские гимнастки.

+22

UFO just landed and posted this here

Shajtan Aug 1 2012 at 19:55

Особенно про то, что «б******* награду п********* румынские гимнастки». Вспоминается известная картинка «Мойка п-ды».

+10

UFO just landed and posted this here

dtumaykin Aug 1 2012 at 19:09

сранобя США — это пять!

+15

CyberAP Aug 1 2012 at 20:31

чуть мозг не сломал на этом моменте

Dreddik Aug 1 2012 at 19:09

сранобя… писунрак

У вашей програмы есть чувство юмора :)

+20

torkve Aug 1 2012 at 19:31

Мне кажется, правильнее попробовать сделать что-то вроде Вашего последнего алгоритма, только немножко развить идею:
1. Фиксируем первый и последний символы слова.
2. Из оставшихся берём первые три символа, произвольно перемешиваем.
3. Из полученной новой тройки фиксируем первые два.
4. Повторяем пункт 2, пока незафиксированные символы не кончатся.

То есть для слова «Калининград» будут получаться следующие последовательные преобразования (жирным я выделяю уже зафиксированные позиции, курсивом те, которые будут сейчас обрабатываться):
1. Калининград
2. Клианинград
3. Клинаинград
4. Клинангирад
5. Клинанграид
Таким образом мы увеличиваем возможность миграций букв, не слишком сильно при этом снижая читаемость.

Дополнительно можно рассмотреть:
* фиксацию не просто последней буквы, а последней буквы стема + окончание;
* направление движения: не от начала к концу, а наоборот, или вообще от середины к краям.

raliev Aug 1 2012 at 19:51

Сделал) Сейчас проапдейчу пост)

midday Aug 2 2012 at 12:30

А мне кажется, что стоит как-то попробывать учитывать морфологию слов. Разбивать на корень слова, суффиксы и т.п. Ну и конечно еще вариант исходить из разбиения на слоги.

gabrealsafm Aug 1 2012 at 19:35

Программа для проверки — это зачет! )) Кстати, не ты ли постил ссылку на статью на тему восприятия текста — www.yugzone.ru/articles/wordrecognition/… Там как раз хорошо рассказывается, с чем связано распознавание слов (про динамику чтения и различные эксперименты с этим связанные).

raliev Aug 1 2012 at 19:57

Нет, но я ее читал, правда интересно

maxidler Aug 3 2012 at 12:49

Спасибо за ссылочку. Образовывает :)
Понравилось про форму слов. Меня убедило:

В общем-то это подтверждает теорию с перестановками. Если от большого кол-ва перестановок форма слова становится менее узнаваемой — получаем худшую читабельность.

VladSavitsky Aug 1 2012 at 19:40

В своё время ради шутки сделал модуль для Drupal 6, который перемешивал буквы в словах, но алгоритм тоже немного менял (как уже не помню).

gloomyBrain Aug 1 2012 at 19:55

Ну опечатка же в названии топика. Сколько можно! =)

Riateche Aug 1 2012 at 20:21

О таком надо писать в лчику.

UFO just landed and posted this here

lek Aug 1 2012 at 21:05

Английский — аналитический язык, русский — синтетический. В нем грамматические категории передаются флексией (окончанием) и приставками. Плюс основным узнаваемым элементом является корень. Наверное, стоит перемешивать буквы в рамках отдельных морфем или сохранять первый и последний символ корня и флексий/приставок.

Andsoon Aug 1 2012 at 21:47

Кстати да идея интересная. Правда, без подключения словаря научить алгоритм выделять из слова корень, а так же приставки/окончания будет проблематично.

lek Aug 1 2012 at 22:00

Можно что-нибудь придумать. Количество окончаний, приставок и суффиксов в общем-то не очень большое, можно попробовать задать какое-то их множество (не обязательно все), потом отковыривать их, а все остальное считать корнем. Это не идеально, но хоть что-то. Со словарем результат, конечно, будет лучше.

UFO just landed and posted this here

wearbo Aug 1 2012 at 21:45

как по мне, так разные варианты текста, представленные ТС, читаются одинаково. зы. Есть еще один вариант говора, который по идее не должны понимать люди со стороны, если не понимают алгоритма: добавлять после каждого слога букву С с предшествующей гласной. Например, хабрахабр будет звучать как хаСАбраСАхаСАбр. Такой вот пиСИздеСЕц.

Andsoon Aug 1 2012 at 22:10

Еще есть мысль, что обычно если в слове пропущено одна-две буквы (возможно некий процент букв) оно остается читаемым. Можно попытаться в рамках данного «исследования» в программе обыграть и это.

lesha_penguin Aug 1 2012 at 22:41

См. мой комментарий выше http://habrahabr.ru/post/148896/#comment_5029123. Все дело в вероятности коллизии при распознавании текста.

Хотя, даже возникающие коллизии распознавания, можно даже специально, умышленно вызывать, там где надо. «Творчески обыгрывать» коллизии например, для усиления комического эффекта от прочтения текста. Например, слова «солнечная п***да» и «е**ть на юг» — это всего лишь слова «солнечная погода» и «ехать на юг» следующие из контекста, а вовсе не то, что следуя за пошлыми ассоциациями, сходу вам подсказал мозг :)

Cupper Aug 1 2012 at 23:13

Я смог прочитать английский вариант, почти без промахов и остановок, хвала небесам, и товарищу Бобову за то что я смог подтянуть свой инглишь!!!

-3

Error_403_Forbidden Aug 1 2012 at 23:14

habrahabr.ru/post/22179/

docomo Aug 1 2012 at 23:21

Збс.

+11

KvanTTT Aug 2 2012 at 14:49

Ага, спс.

Nnear Aug 2 2012 at 15:52

Да, вонни-бух доволен последним текстом.

krovatti Aug 2 2012 at 01:11

Ааа… Омй озмг…

StrangeAttractor Aug 2 2012 at 03:10

Так и не понял, что такое «писунрак» («писанрук» ли, или «пасурник»)…

KawaiDesu Aug 2 2012 at 05:00

Я тоже, но ваш «пасурник» подсказал мне «парусник».

shadowalone Aug 2 2012 at 09:01

> Удивительно, но без гласных понятно абсолютно все. Причем текст ужался на 34 процента.
Думаю, ничего удивительного, как пример Иврит, в котором нет гласных.
За статью спасибо, очень интересно.

AndreiYemelianov Aug 2 2012 at 09:30

>>Думаю, ничего удивительного, как пример Иврит, в котором нет гласных>>>

В иврите гласные есть. А вот в еврейском письме полной передачи гласных действительно нет.

Вообще исследования по истории письма показывают, что общая схема эволюции письменности выглядит так:
логография => словесно-слоговое письмо=>слоговое письмо => алфавит (причем большинство первых алфавитов были именно консонантными, т.е. в них отсутствовала полная передача гласных).

Кстати, без гласных (можете поэкспериментировать на досуге) можно без особых проблем читать не только на иврите и арабском, но и на многих других европейских языках. Когда я учился в школе, мне в руки попалась книга с рекомендациями по быстрому конспектированию, в которой в числе прочих давался следующий совет: записывая со слуха лекции, лучше опускать гласные — так все получается быстрее и удобнее. Я попробовал — действительно оказалось быстрее и удобнее. Многие системы стенографии тоже строились по аналогичному принципу: гласные в них не писались.

proLamer Aug 2 2012 at 10:56

Согласен, с написанием и чтением выходит все очень здорово, а вот с произношением и восприятием на слух такого текста могут возникнуть проблемы )))
Довольно тяжело быстро и внятно произнести "… сн всптвлся в однм из лчшх кзннх звдний в птрбрге.", а заядлый курильщик как бы не выдохся произнеся абзац, что в статье без гласных ))).

raliev Aug 2 2012 at 11:23

Ну это как привыкнуть. Вот я ради интереса вставил вместо пропущенных гласных букву а:

марья дматриевна в маладасти пальзавалась рапатацией маланькой бланданки; и в патьдасат лат чарты ее не бали лашаны приятнасти, хатя намного распахли и сплалась. она бала балее чавстватальна, нажали дабра, и до зралах лат сахранала инстататские замашки; она избалавала сабя, легко раздражалась и даже плакала, когда нарашалась ее правачки; зато она бала очань ласкава и лабазна, когда все ее жалания испалналась и накто ей не пракаславал. дам ее пранадлажал к часлу приятнейшах в гораде. састояние у ней бало васьма харашее, не сталько насладстванное, скалько благоприобратанное мажам. обе дачари жали с нею; сан васпатавался в однам из лачшах казаннах заваданий в патарбарге.

читается легко))

raliev Aug 2 2012 at 11:28

Если привыкнуть, то эту букву вставляешь как-бы автоматом при чтении) в арабском, кстати, гласная кочует внутри корня, от этого меняется слово. Например, ktb — корень для всех слов, имеющих отношение к чтению. kitab — книга, а дальше — пошло-поехало

katîb писатель
kitâba собственно, написание чего-либо
kutubî продавец книг
kutayyib буклет
maktûb письмо
maktab школа, oфис
maktaba библиотека, литература
miktâb печатающая машинка
mukâtaba переписка
iktitâb регистрация
istiktâb диктант
и т.д.

andrewsh Aug 2 2012 at 10:10

Ну сколько ж можно-то… Недавно ж пробегала даже на Хабре ссылка на статью, в которой как раз научно опровергается этот тезис. Всё не так просто, на самом деле, как кажется.

-1

Lsh Aug 2 2012 at 10:24

>жскиене коныандме срнноваовеия

negasus Aug 2 2012 at 11:45

Мрья Дмтриевна в млдсти пльзвлсь рптцией млнькой блнднки; и в птьдст лт чрты ее не бли лшны приятнсти, хтя нмнго рспхли и спллсь.
Ассоциация первого уровня, простите.

Я прнс

nikmaster Aug 2 2012 at 12:57

В английском просто слова короче, вот он и более читабельный. Если перемешивать русские длинные слова, то они станут не читаемы. Я думаю что читабельность зависит от количества перемещенных букв * на среднее расстояние их перемещения, то есть сумма длин перемещений всех букв

nikmaster Aug 2 2012 at 13:02

А лучше корня из этой величины. Это мое предположение, числа просто придуманы.
Я считаю, что читабельность падает, если перемешать больше букв и/или перемещать их на максимально большое расстояние.

lexor Aug 2 2012 at 15:09

Если рассмотреть эту проблему как лингвист, то очевиден корень проблема — намного более сложная морфология русского языка. В английском нет падежей, родов прилагательных/причастий, большого кол-ва лиц/спряжений глаголов. Любое согласование частей речи в предложении в русском ведет к дополнительным буквам, меняющимся то перед, то после корня (а иногда и корень меняется! беглые гласные! в английском этим и не пахнет!).
Вот как то так :)

lexor Aug 2 2012 at 16:01

Все что не корень, да еще и меняется — однозначно шум. Именно он и мешает…

Gasoid Aug 2 2012 at 15:17

идея для каптчи, возможно кто-то уже применяет

lexor Aug 2 2012 at 16:18

Такая «капча» очень легко будет расшифрована путем перебора по словарю :)

norlin Aug 2 2012 at 19:59

Задача номер два: разработать обратный алгоритм, который из произвольно (с ограничениями) зашумлённого текста восстанавливает оригинал.

Вот пример для тестирования:
Yhwh

UFO just landed and posted this here

ssbxlan Aug 3 2012 at 18:18

>млнькой блнднки

Непонятно, маленькой или миленькой. Это же меняет дело!

opium Aug 4 2012 at 15:15

О я помню написал сперва прогу для этого, потом увидел что нихрена не читается, потом поковырял алгоритм на соотношение гласные+согласные и дальность перестановки букв и с помощью проги даже получал почти всегда читаемые тексты.
Ностольгия.

Show the best of all time