Обновить
479
35.1
Artyom Skrobov@tyomitch

Пользователь

Отправить сообщение

Алфавитная идеология и буквенный символизм

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели14K

Мне попался в руки тематический выпуск «Социолингвистика правописания» (2015) журнала Written Language and Literacy. Проблемы политизации орфографии хорошо знакомы на постсоветском пространстве — Таллин или Таллинн (а в 1930 он и вовсе был Талин!), Чимкент или Шымкент? — но аналогичные противостояния возникали по всему миру, во все времена. Интереснее всего, когда политизированные прения возникают по поводу состава алфавита.

Так, испанцы, владевшие Филиппинами с 1521, перевели тагальский — основной язык Филиппин — на латиницу без использования ⟨k⟩: как и в испанской орфографии, звук [k] обозначался при помощи ⟨c⟩ или ⟨qu⟩. В 1892 филиппинские революционеры назвали свою подпольную организацию KKK (Kataastaasang Kagalang-galang na Katipunan, «высочайшая и самая почётная организация»): символом борьбы против испанской власти они избрали тройную «анти-испанскую» букву. В 1898 в войну за независимость Филиппин включились США, испанцы были разгромлены, филиппинский флаг украсился буквами KKK, а орфография повстанцев стала официальной: алфавит (abakada) принял вид ⟨a, b, k, d, e…⟩ — тогда как «колониальные» буквы ⟨c⟩ и ⟨q⟩ из него были исключены. В 1987, когда антиколониальная борьба осталась далеко позади, филиппинский алфавит вновь гармонизировали с испанским: поставили ⟨k⟩ на привычное место перед ⟨l⟩, и разрешили использовать ⟨c, f, j, ñ, q, v, x, z⟩ в собственных именах и заимствованиях.

Читать далее

Как устроены серийники для Windows, и как восстановить стёршийся COA

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели17K

Эта история начинается с того, что я попытался переустановить Windows на ноутбуке, доставшемся мне вот с такой наклейкой Certificate of Authenticity (COA): часть символов серийника видны хорошо, остальные – в большей или меньшей степени угадываются; но несколько попыток ввести серийник «на глаз» успехом не увенчались. Пришлось углубляться в вопрос подробнее.

Читать далее

Влияет ли язык на мышление? или: «У вас на юго-восточной ноге сидит муравей»

Время на прочтение8 мин
Охват и читатели44K
Я давно лелеял мечту изучать лингвистику в Кембриджском университете. Каждое лето он проводит среди абитуриентов конкурс эссе на лингвистические темы; и профессор, отвечающий за связь факультета лингвистики с абитуриентами, посоветовал мне ради подготовки к поступлению поучаствовать вне конкурса. Летом 2016 тема эссе звучала так: «Часто утверждают, что наш язык влияет на наше мышление. Как это утверждение можно трактовать? Оцените его, приводя примеры из межъязыковых сравнений и/или психолингвистических экспериментов.» Осенью того года я получил от профессора крайне лестную оценку моего эссе; и тем не менее, в Университет меня не приняли. Этим летом я решил сдуть с того эссе виртуальную пыль, и перевести его на русский.



Вопрос «Влияет ли язык на мышление?» давно волнует умы, и немало статей озаглавлено этим вопросом. Связь между языком и мышлением была отмечена уже два века назад, и успела укорениться в массовом сознании: например, распространён миф о том, что у эскимосов необычно богатый набор слов для обозначения видов снега. Аргумент про «эскимосские названия снега» применяют двояко: указывая либо на то, что люди вырабатывают более богатый набор обозначений для того, с чем чаще имеют дело; либо на то, что более богатый словарный запас позволяет выражать более тонкие смысловые различия, незаметные носителю другого языка: «Мы, европейцы, так же неспособны различать виды снега, как дальтоники неспособны различать цвета.»

«Языковой дальтонизм», т.е. отсутствие в некоторых языках названий для некоторых цветов, интригует исследователей уже дольше века. Начиная с середины 20 в. проводились эксперименты, доказавшие, что людям легче различить два цвета, если в их языке эти цвета называются по-разному. Например, народу химба, живущему в Намибии, сложнее, чем нам, отличить синий от зелёного, зато проще отличить dumbu — так на языке химба называются жёлтый и бледно-зелёный цвета — от burou, соответствующего тёмно-зелёным, синим и фиолетовым оттенкам.
Читать дальше →

Щ — самая упорная из православных букв

Время на прочтение5 мин
Охват и читатели34K
Прошлая статья была посвящена тому, как Щ появилась; загадкой остаётся то, как Щ сохранилась в современном алфавите. Вот, например, статья в «Литературной газете» от 16 декабря 1929 г. о готовившемся тогда под эгидой А.В. Луначарского проекте перевода русского языка на латиницу; в частности, предполагалось, что «сочетание звуков «щ» будет писаться двумя буквами».


Амбициозный проект Луначарского — далеко не первое предложение по упрощению русской орфографии, оставшееся нереализованным.
Читать дальше →

История славянских шипящих: почему мы пишем жи-ши через И?

Время на прочтение7 мин
Охват и читатели47K
tl;dr: потому что перед Ы не могли возникнуть ни Ж, ни Ш.

Орфография многих живых языков отражает давно исчезнувшие вещи: например, написание английского слова knight указывает на то, что когда-то в 14 в. оно произносилось «книхт». В русской орфографии тоже полно «доисторических окаменелостей»; и для того, чтобы не зубрить, а понимать орфографические правила — нужно разбираться, откуда эти правила взялись. Готового обзора истории шипящих я не нашёл, так что взялся составить его сам. Особенно интригует природа буквы Щ — самой необычной в нашем алфавите.

Читать дальше →

Имена медведя и пелевинская мистификация

Время на прочтение7 мин
Охват и читатели15K

Медведи — самые крупные из наземных хищников. Неудивительно, что с древнейших времён у людей были суеверия по поводу названия этого зверя; такие суеверия будоражат фантазию писателей и в наши дни. И для Пелевина, и для Манро художественная сторона повествования важнее лингвисти­ческой достоверности; но если прочие этимологические «прозрения» пелевинского героя («...самое глубокое из моих прозрений было следующим – я истолковал «Петро-» [в слове Петродворец] не как имя Петра Первого, а как указание на связь с нефтяным бизнесом, от слова petrol» и т.п.) сложно воспринять всерьёз, то толкование «берлога — это логово бер-а» завладело изрядным числом умов, и многократно всплывало в комментариях на Хабре — причём не как хлёсткая шутка талантливого писателя, а как объяснение происхождения слова берлога на полном серьёзе.

Читать далее

Самая совершенная китайская пишущая машинка

Время на прочтение3 мин
Охват и читатели10K

На Хабре уже были статьи об истории набора на китайском: в эпоху механической печати не обойтись было без устройств с тысячами отдельных литер и вместо клавиатуры — указателем, перемещающимся в двух измерениях. Лишь в 1980-х, на закате машинописи, развитие микроэлектроники позволило создать китайскую пишущую машинку с привычной европейцу клавиатурой. Хотя посмотрите-ка на эту клавиатуру пристальнее: латинские буквы на клавишах заметно искажены, особенно N и M. Это легендарная китайская небрежность, или же искажённые формы букв несут глубокий смысл?

Читать далее

Об украинских и русских гласных

Время на прочтение6 мин
Охват и читатели21K

Одно из самых заметных отличий украинского языка от русского — гласный [і] на месте дореволюционного ятя и в тех словах, где в русском [о]: двір, дім, сільрадість и т. п. Это отличие настолько характерно, что стереотипным «плохим украинским» в юморесках стал русский с заменой [о] на [і]: «кровосісі» и т. п. При этом в других, внешне похожих словах — русскому [о] соответствует [о] и в украинском: кров, рот, сон, голос, ворон и т. п. В чём же разница между этими двумя группами слов? Статья «Икавизм» в русской Википедии предельно лаконична: «переход звуков [ě] (ять), [o], [е], [у], при их нахождении в закрытом слоге, в звук [i]» — хотя и во второй группе слоги закрытые.

Считается, что в праславянском языке было четыре кратких гласных [е о ъ ь], пять долгих [а и у ы ѣ] и действовал закон открытого слога, в соответствии с которым все слоги обязаны завершаться гласным: *дво.ръ, *до.мъ, *со.ль, *ра.до.сть, *кръ.вь, *ръ.тъ, *съ.нъ, *го͡л.съ, *во͡р.нъ. Около 7 в. дифтонги [о͡л] и [о͡р] распались, и закон открытого слога потребовал исправить ситуацию: в древнерусском получились го.ло.съ и во.ро.нъ, в западно- и южнославянских языках (включая церковнославянский) — гла.съ и вра.нъ. Затем в 11–13 вв. произошло падение редуцированных: нечётные [ъ] и [ь], считая от конца слова, исчезли, а чётные понизились до [о] и [е] соответственно: сон, во‿сне ← *съ2нъ1, *въ2‿съ1нѣ. Беглый [о], получившийся из древнерусского [ъ], соответствует [о] и в украинском. Дополнительный признак такого [о] — соответствие [e] в западнославянских языках, например в чешском: krev, ret, sen. В отдельных случаях этот гласный небеглый в русском, но беглый в других языках: в крови, v krvi [ˈfkr̩.vɪ] ← *въ кръве. Второй случай, когда русскому [о] соответствует [о] и в украинском, — полногласные сочетания оро и оло, дополнительный признак которых — неполногласные соответствия в других языках: голос ворон, hlas vran ← *голсъ ворнъ.

Читать далее

Айс, цвай, трю: история 3 дифтонгов

Время на прочтение4 мин
Охват и читатели3.9K

Начало счёта по-немецки — eins, zwei, drei — знают даже те, кто никогда немецкий не учил. Запоминанию этих числительных способствует и то, что все три рифмуются. Тем больший сюрприз ждёт приехавших в Швейцарию, потому что в швейцарском немецком рифмы нет. Представление о провинциальном диалекте как о результате «искажения» столичного языка соседством с иноязычными областями — не позволяет объяснить, каким образом такая броская рифма могла бы потеряться.

Читать далее

Эмодзи 18 века

Время на прочтение1 мин
Охват и читатели3.8K
По поводу «международного дня эмодзи» 17 июля любопытно вспомнить буддийскую Сутру сердца, записанную для неграмотных японцев пиктограммами:





Этот текст отсканирован из книжки Татибана Нанкэи (1795), и его устройство объясняется в статье Шарлотты Юбанкс (2013) на примере заглавия: Mahā prajñā pāramitā hṛdaya sūtra, что на санскрите означает «Великая сутра сердца совершенной мудрости». Китайцы перевели два слова hṛdaya sūtra «сутра сердца» на свой язык как xīn jīng, а остальные слова заглавия транслитерировали: из mahā «великий» получилось móhē «тереть брань», из prajñā «мудрость» — bōrě «ось если», и т.д. Японцы читают китайское название как maka hannya haramita shin gyō, и в варианте «для неграмотных» записали его как «мишень (ma) — сторона (ka) — демон (hannya) — беременная (harami) — поле (ta) — древесина (shin) — храм (gyō)». Получающаяся «эмодзи-сутра» осмысленна настолько, насколько может быть осмысленной двойная транслитерация санскритского текста через китайский язык.
Читать дальше →

Откуда взялся 'do' в вопросах и отрицаниях?

Время на прочтение5 мин
Охват и читатели12K

В июне на Хабре было сразу несколько интересных статей на лингвистические темы, и одну дискуссию из комментариев мне хочется вынести в отдельную статью: удивительная и, по-видимому, уникальная особенность английского — то, что в вопросах и отрицаниях обязательно должен быть вспомогательный глагол, даже когда утвердительные предложения обходятся без него. Откуда же английская грамматика почерпнула эту свою особенность?

Важно понимать, что вспомогательные глаголы для образования сложных времён — это не что-то особенное, и у нас они тоже есть: рус. буд.вр. он будет писать письмо, укр. дпр.вр. він був написав листа. Более того: колебания между использованием и неиспользованием вспомогательного глагола русскому языку тоже знакомы: в древнерусском было два простых прошедших времени (аорист, невѣжѧ писа недума каза "незнающий написал, недумающий показал", и имперфект, ѡни моляхуся аз же глумляхъся "они молились, а я шутил") и впридачу сложное, перфект: еси приходиле в русь "ты приходил в Русь", зарубати посылали есмо "мы посылали зарубать". Простые прошедшие времена исчезли из всех славянских языков, кроме болгарского и македонского; с перфектом же произошла более интересная история...

Читать далее

Быстрое сравнение double

Время на прочтение1 мин
Охват и читатели17K
Вчера здесь вышла статья о быстром парсинге double, я зашёл во блог к её автору, и нашёл там ещё один интересный трюк. При сравнении чисел с плавающей точкой особое внимание приходится уделять NaN (восемь лет назад я писал про них подробнее); но если сравниваемые числа заведомо не NaN, то сравнить их можно быстрее, чем это делает процессор!

Положительные double сравнивать очень просто: нормализация гарантирует нам, что из чисел с разной экспонентой больше то, чья экспонента больше, а из чисел с равной экспонентой больше то, чья мантисса больше. Стандарт IEEE 754 заботливо поместил экспоненту в старшие биты, так что положительные double можно сравнивать просто как int64_t.



С отрицательными числами немного сложнее: они хранятся в прямом коде, тогда как int64_t — в дополнительном. Это значит, что для использования целочисленного сравнения младшие 63 бита double необходимо инвертировать (при этом получится -0. < +0., что не соответствует стандарту, но на практике не представляет проблемы). Явная проверка старшего бита и условный переход уничтожили бы всю выгоду от перехода к целочисленному сравнению; но есть способ проще!

inline int64_t to_int64(double x) {
	int64_t a = *(int64_t*)&x;
	uint64_t mask = (uint64_t)(a >> 63) >> 1;
	return a ^ mask;
}

inline bool is_smaller(double x1, double x2) {
	return to_int64(x1) < to_int64(x2);
}

a>>63 заполняет все 64 бита копиями знакового бита, и затем >>1 обнуляет старший бит.
Читать дальше →

Генератор неслучайных чисел

Время на прочтение4 мин
Охват и читатели21K
Этот код напечатает случайную последовательность латинских букв, так ведь?

import java.util.Random;

class WTF {
    public static void main(String[] args) {
        Random r = new Random(76880392499L<<11);
        String alphabet = " abcdefghijklmnopqrstuvwxyz";
        int n;
        while ((n = r.nextInt(alphabet.length())) > 0)
        	System.out.print(alphabet.charAt(n));
    }
}

Можете проверить; вывод кажется совсем не случайным. Как же так вышло?

Прежде всего: какой шанс, что из всех последовательностей латинских букв напечатается именно эта? Сгенерировано 10 случайных чисел, каждое выбиралось из 27 вариантов, значит всего вариантов было $27^{10} \approx 2.06\cdot10^{14}$. Если считать, что все варианты равновероятны, то нам выпал один шанс из двухсот миллионов миллионов! Ух!
Читать дальше →

Загадочные субтитры на CNN

Время на прочтение3 мин
Охват и читатели50K
Зрители CNN обратили внимание, что в выпуске новостей 12/11/2020 на их официальном YouTube-канале вместо субтитров какая-то каша из обрывков английских слов, сплошным капсом:


Как такое могло получиться? (По состоянию на 1/12/2020, субтитры на YouTube так и не исправлены.)

Stenotype


Американские стенографисты уже больше сотни лет как используют специальные устройства с минимальной 22-клавишной клавиатурой — по две клавиши под каждый палец, чтобы минимизировать движения кистей:



Сто лет назад стенотайп был вариантом печатной машинки, и каждая клавиша оставляла оттиск на бумаге. Каретки не было: после каждого «аккорда» из одной или нескольких одновременно нажатых клавиш, бумага проматывалась на одну строчку вниз. Оттиск каждой литеры приходился всегда на одно и то же место в строке. Клавиши P, R, S, T присутствуют в двух экземплярах каждая — под левой и под правой рукой.

Читать дальше →

Windows 95 на двух флоппиках

Время на прочтение3 мин
Охват и читатели17K
В этом году мы отпраздновали четверть века с Windows 95. Её минимальная установка занимала 30 МБ; народные умельцы ужимали её до 5 МБ после удаления всех «лишних» файлов и сжатия UPX-ом оставшихся. А как насчёт двух флоппиков по 1.44 МБ, вместе с загрузчиком?



Общий подход я уже описывал в комментариях: создаётся RAMDRIVE, и на него разворачивается двухтомный SFX-архив. Но есть много тонкостей:

  1. Как видно на видео выше, распакованная папка Windows у меня занимает 6.2 МБ. Я взял за основу список файлов Micro95, и дополнительно удалил файлы, оказавшиеся необязательными — например, шрифты и драйвер dosnet.vxd. Кроме того, vmm32.vxd я распаковал, и удалил бывшие внутри него необязательные драйвера.
Читать дальше →

QR-художество

Время на прочтение2 мин
Охват и читатели16K

На хабре уже обсуждалось устройство QR-кодов и украшение их произвольными рисунками, но дизайнерская мысль до сих пор работала только в двух основных направлениях: замена квадратных модулей на более интересные формы, либо замена части кода рисунком. Такие художества возможны благодаря тому, что блоки данных в QR-коде дополняются кодами Рида-Соломона, позволяющими восстановить до 30% искажённых байтов. Основываясь на этом, дизайнеры QR-кодов давно уже наловчились заменять участок, занимающий до 30% площади кода, какой-нибудь картинкой. Я же решил испробовать другой подход — художественно искажать в QR-коде отдельные биты в целях получения интересного изображения. Например, в этом коде инвертированы лишь 50 модулей из 841.

Читать далее

Откуда в Windows взялись функции BEAR, BUNNY и PIGLET?

Время на прочтение2 мин
Охват и читатели16K
Если покопаться в системных файлах Windows 95, там можно было обнаружить недокументированные функции с именами наподобие BEAR35, BUNNY73 и PIGLET12. Откуда взялись эти дурацкие имена?

У них занятная история.

Почему в EBCDIC буквы идут не подряд?

Время на прочтение3 мин
Охват и читатели18K

Стандарт ASCII был принят в 1963, и сейчас вряд ли кто-нибудь использует кодировку, первые 128 символов которой отличались бы от ASCII. Тем не менее, до конца прошлого века активно использовалась EBCDIC — стандартная кодировка для мейнфреймов IBM и их советских клонов ЕС ЭВМ. EBCDIC остаётся основной кодировкой в z/OS — стандартной ОС для современных мейнфреймов IBM Z.

То, что сразу бросается в глаза при взгляде на EBCDIC — то, что буквы идут не подряд: между I и J и между R и S остались неиспользованные коды (на ЕС ЭВМ по этим промежуткам распределили символы кириллицы). Кому могло придти в голову кодировать буквы с неравными пропусками между соседними буквами?

Читать далее

Вторая жизнь Virtual Floppy Drive

Время на прочтение4 мин
Охват и читатели21K
Когда-то давно у меня была коллекция старинных версий Windows в виртуалках, и для переноса файлов между хост-машиной и этими виртуалками приходилось использовать дискету, потому что поддержка shared folders появилась только в Windows for Workgroups.

Перенос файлов через дискету был медленным и шумным, и моему восторгу не было предела, когда я нашёл драйвер Virtual Floppy Drive, позволяющий создать «виртуальный флопповод» и подключить его в VM как обычный. К сожалению, интерес автора к своему проекту угас в 2005, а в 2010 его сайт и емейл перестали существовать. С тех пор в мире Windows успело произойти много перемен:

  • Повсеместно стала использоваться 64-битная ОС, в которую невозможно загрузить 32-битный драйвер, скомпилированный в 2005;
  • Windows начиная с Vista SP1 стала требовать для загрузки драйверов либо цифровую подпись, либо муторные манипуляции, требующие перезагрузку системы;
  • Проект, написанный в Visual C++ 6, не собирается в современных версиях Visual Studio после автоматической конвертации.
Читать дальше →

Аутенти(фи?)кация

Время на прочтение2 мин
Охват и читатели15K
Некоторые термины, заимствуемые из английского, входят в русский язык с нарушением всех языковых правил. Характерный пример из 90-х — слово флуд, непохожее ни на транскрипцию [flʌd], ни на транслитерацию flood. Более свежий пример — биткоин: окончание -оин характерно для химических веществ (героин, бензоин и т.д.), и читается совсем не так, как английское bitcoin; но там хотя бы можно оправдать русское написание транслитерацией.

Теперь я всё чаще, и в т.ч. на Хабре, встречаю слово аутентификация в качестве кальки английского authentication. Английское слово образовано от латинского authenticatus и далее от греческого αὐθεντικός — ни в одном из них нет -фи-, -fi- или -φι-! Более того, братья-славяне пишут автентикация по-болгарски и аутентикација по-сербски.

Слово аутентикация когда-то и по-русски писалось без -фи-. Гугл находит примеры из книг 1927, 1964 и 2002 г.г.:





Читать дальше →

Информация

В рейтинге
218-й
Зарегистрирован
Активность