Pull to refresh

Comments 93

здорово, а луркоморье не думали распарсить?
Луркоморье я для себя открыл позже :). Сейчас бы однозначно парсил его, а не баш.
Его и парсить не надо, просто открываешь любую страницу и прямо сразу читаешь новояз.
Там словарь совпадений будет меньше, чем новояз (
както админу нажрался спалился личку помоему фейл

Какая грустная история.
Это не вся история. Мне кажется, так смысл раскрывается глубже:
«за**ало както админу нажрался спалился личку помоему фейл нефиг девушко смска.»
UFO just landed and posted this here
«ржу незнаю нафига»
UFO just landed and posted this here
Какая занятная у вас избирательность в подходе к литовке мата.
Из докладной сисадмина-студента:
незнаю нафига сервак

Надпись в лифте:
бл** ох*ели ссать тыщ за*бало както

Из холивара Android vs. iOS:
ахахах г*ндоны айфона
Перед трудным экзаменом в сессию:
преподша б*яяяя стремно девченки
меня устраивали словоформы, да и времени столько не было. а учитывая кол-во ашыбок на баше, со стеммингом совсем тяжко :)
Хром при открытии Вашей ссылки предположил, что язык текста — украинский, и предложил перевести. Однако любопытно, что навело его на эту мысль?
Ну так позволили бы перевести, вам жалко, что ли? :)

UFO just landed and posted this here
А можно запилить квест на англоязычных ресурсах с «расшифровкой»
По ссылке почти связные рассказ. Если бы слов было раза в три меньше, как раз и получилась бы некоторая среднестатистическая реплика южнобутовского обывателя, произнесенная в подъезде во время перекура.
Так и представляется какой-то Диман, который сидя на кортах и сплевывая семечки сквозь редкие зубы пытается втереть этими словами историю своему корешу Костяну.
Кстати, если на хабре есть германисты, очень советую посмотреть вот эту ссылку по методу анализа частотности немецких слов. Для многих людей не в теме это вообще покажется рандомизатором букв :)
Вы полегче с бутово. Я тут живу.
Я там тоже жил году в 2007-2008, поэтому представляю прекрасно. Очень сомневаюсь что за 6 лет подъездный контингент сильно изменился. Никого не хочу обидеть, но Вы прекрасно представляете какой именно образ я имел ввиду.
Образ-то представляю. Но вот за это время ни одного гопника не видел. ЧЯДНТ? Прогулки по ночам с телефоном включены.
Возможно, Вы — счастливый человек с хорошей кармой и чистой аурой.
…и ростом под 2-20 с косой саженью в плечах
Не, не из-за него, точно.
, с косой,

Так звучит более устрашающе.
Я тоже из Бутово и то, что гопники вымерли – подтверждаю.
Скорее выросли-сели-женились и им теперь уже не до гопстопа. А новое поколение занялось чем-то другим
Да-да. Куча родителей с детьми, гуляющие с колясками и тыды.
Год назад впервые побывал в южном бутово и офигел. Для всей страны южное бутово это символ гопоты и разрухи, а на деле район уютнее и благоустроеннее чем элитные жилые комплексы у нас в Казани. Гопота вымирает кстати не только у вас, но и у нас. Это радует!
Гопота не вымерла, она переквалифицировалась в интернет-гопоту :)
Только на днях общался на тему музыки с интеллигентом, цитата (самая приличная):
«ну да ну да а не че так что у меня бэха и свой автосервис? мой тебе совет поменяй себе имя вконтакте кирилл „кожаная флейта“ криволапов )) хотя и так ясно что ты с себя представляеш. с тобой нормальному пацану даже разговаривать взвп*дло, ********,***!»
Не даром оно — геометрический центр новой Москвы :)
Иди в бирюлево погуляй… Вымерли они, как-же!
Частотный словарь баша чем-то напоминает СЕО-текст.
А вот словарь википедии — просто клад для изучающих русский язык людей. Хотелось бы увидеть точно такой же для английской вики.
UFO just landed and posted this here
Вывод — в википедии есть много слов (с). Похоже, вы составили словарь ненормативных междометий ^_^.
Словарь Вильяма Шекспира, по подсчету исследователей, составляет 12000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина легко и свободно обходилась тридцатью. Вот слова, фразы и междометия, придирчиво выбранные ею из всего великого, многословного и могучего русского языка:

1.Хамите.
2.Хо-хо! (Выражает, в зависимости от обстоятельств, иронию, удивление, восторг, ненависть, радость, презрение и удовлетворенность.)
3.Знаменито.
4.Мрачный. (По отношению ко всему. Например: «Мрачный Петя пришёл», «Мрачная погода», «Мрачный случай», «Мрачный кот» и т. д.)
5.Мрак.
6.Жуть. (Жуткий. Например, при встрече с доброй знакомой: «жуткая встреча»).
7.Парниша. (По отношению ко всем знакомым мужчинам, независимо от возраста и общественного положения).
8.Не учите меня жить.
9.Как ребёнка. («Я его бью, как ребёнка» — при игре в карты. «Я его срезала, как ребёнка» — как видно, в разговоре с ответственным съёмщиком).
10.Кр-р-расота!
11.Толстый и красивый. (Употребляется как характеристика неодушевлённых и одушевлённых предметов).
12.Поедем на извозчике. (Говорится мужу).
13.Поедем на таксо. (Знакомым мужского пола).
14.У вас вся спина белая (шутка).
15.Подумаешь!
16.Уля. (Ласкательное окончание имен. Например: Мишуля, Зинуля).
17.Ого! (Ирония, удивление, восторг, ненависть, радость, презрение и удовлетворённость).

Оставшиеся в крайне незначительном количестве слова служили передаточным звеном между Эллочкой и приказчиками универсальных магазинов.

© Ильф и Петров, «12 стульев».
Странно, что автор не догадался это поставить в виде эпиграфа.
UFO just landed and posted this here
Пробовал! Получается не новояз, а обычные слова разговорной речи, которые очень редко встречаются в Википедии. Начало списка выглядело так:

я не что а у ты то меня это ну мне как так да вот все она на он нет там вы тебя тут о когда бы если мы еще тебе уже есть кто нас надо потом за сегодня только почему просто про будет же вас тоже теперь какой говорит но такой можно девушка они вчера ли раз мой вообще че хочу сейчас бля ее мама себе вам знаю очень даже чем такое думаю ж ничего нибудь блин чтобы привет день него нам чего пока могу больше парень такая стоит вопрос делать чтоб ей значит бл*ть давай потому лучше знаешь
… вы только что прочитали объяснительную записку опоздавшего сотрудника.
а по мне похоже на какой то русский рэп современный. Только читать надо без выражения и скороговоркой :)
Например (кусок с конца :) ): привет день
него нам чего
пока могу больше парень
такая стоит вопрос делать
чтоб ей значит бл*ть
давай потому лучше знаешь
А это при каком пороге отношения частот? 10:1?
Не, без всяких порогов и прочих констант. Просто отсортировал по разности встречаемости (уже в процентах, разумеется, а не в абсолютных величинах).
С порогом отношения было бы лучше. А с разностью — не удивительно, что такой результат (когда, условно, 5%-3% больше, чем 1%-0.001%)
Согласен. Жалко, что потерял словарь Баша… Честно говоря, я хотел продолжить эксперимент — найти самые «башевские» и самые «википедийные» цитаты в Баше по составу слов. Но как-то дела засосали, а потом и словарь куда-то пролюбил… Может когда-нибудь ещё сделаю.
то есть «бл*ть» в википедии встречается?
Нет, это первое из слов, которые не встречаются (с него начинается основной список).
Неужели в Википедии так редко встречаются «я, не, что, а, у, ты, то, меня, это» и т.д.? Надо было отсечь от словаря Википедии 1% (а то и меньше) самых редких слов, а потом заново прогнать по башевскому словарю. На мой взгляд, в этом случае выборка будет интереснее.
Наверное, можно и так. Или брать слова, которые встречаются в 100 и более раз чаще, чем в Википедии.
Нет, они совсем не редко встречаются в Википедии. Просто разница в проценте этих слов в Баше и Википедии огромна.
Но это вполне логично и не связано с новоязом. Википедия все же является справочной системой, энциклопедической, в ней будет мало местоимений и, тем более, междометий, чего не скажешь о разговорном, сленговом баше.

Отсечение доли словаря Википедии уберет «ложные» срабатывания на сленговых словечках, о которых написаны статьи или которые встречаются в цитатах, выпадение из фильтра редких энциклопедических слов никак не повлияет на выборку баша.
UFO just landed and posted this here
UFO just landed and posted this here
Вообще не только их, а всё что признает пхпморфи с отключенным предсказателем.
Я так давным давно делал онлайн спелчекер — все что он не знает — красным цветом. ложных срабатываний было не много.
Сделайте кто-нибудь частотный словарь Хабра! Заодно выясним самые обсуждаемые темы…
Причем отдельно посты, отдельно комменты и вопросы
Кстати, да. И новояз будет вычленить проще. Все-таки баш — это практически сборник анекдотов (пусть и специфических). Сравнивать его словарь с википедией не совсем корректно. А вот разница в словарях между вики и хабром может быть показательной.
*шутка про ализара*
Шутка про Мицгола подходит и к Википедии.
Нахрена преподу ноутом курсач отжог?
Поместить текст в чёрную рамку и подписать: «вся суть баша».
Для любитей смотреть статистику по словам напомаю про отличный гугловский инструмент
books.google.com/ngrams
не знаю, что там сейчас, я его смотрел года два назад. там был ад. гениальные сотрудники гугла отсканировали кучу русской литературы с дореволюционной орфографией и пропустили через современные OCR. но за два года наверное исправили уже.
Кхм. А как насчёт словаря баша?
Словарь баша и все исходники я куда-то дел… Если найду, прицеплю к статье и добавлю здесь комментарий.
Дошло. Вы имели в виду файл bash_wiki_diff.txt. Я его положил в итоге на shorttext, спасибо.
Я решил, что Вы спрашиваете про частотный словарь баша, который действительно не сохранился.
Ссылка не пашет:
«Error (509)
This account's public links are generating too much traffic and have been temporarily disabled!»
:-(
Судя по топику и названию это из вики, а не разница баша и вики.
явно надо куда-нить не на дробокс выкладывать, может www.docme.ru/ вытянет?
>>>заебало както админу нажрался спалился личку помоему фейл
Звучит как краткий пересказ очень грустной истории.
А почему на Яндекс.Диск не выложите? Можно даже публичной папкой, а не архивом. Или сложить в неё архив и всё остальное. Сейчас у меня, например, ни одна ссылка из тех, что в апдейте, не работает, а конвертация не удалась.
<злобное ворчание>
Потому что у меня ремонт… У меня и так уже заблокированы оба моих ящика — на дропбокс и на бокс, ещё на каком-то документохранилище выложил по одному из советов выше, там конвертация не удалась. Попросил читателей ещё куда-нибудь закинуть и кинуть линк, предупредил, что бокс на грани… не, все молча продолжили качать… Тысячи скачиваний… Я третий день на хабре и не очень в курсе здешнего общения… Надо предложить плюсануть карму тому, кто поможет (честно говоря, я и так собирался это сделать)?
</злобное ворчание>
Чуть позже зарегистрируюсь там и выложу. Здесь и в посте оставлю комментарий.

сделал. ссылку поменял. за ещё одну коробочку спасибо!
Можно ещё этот текст как lorem ipsum использовать, чтобы увидеть сайт в срезе современного общения.
Sign up to leave a comment.

Articles

Change theme settings