host_m Mar 26 2021 at 12:49

Один бинарник, любое окружение. Магия чистого C

5 min

34K

Маклауд corporate blogAbnormal programming*Programming*Compilers*C*

+113

Comments 63

UFO just landed and posted this here

Tangeman Mar 26 2021 at 14:53

"Мы не знаем как должно быть но вы делаете неправильно"?

+25

UFO just landed and posted this here

nonrblGyN4ik Mar 28 2021 at 08:34

… у вас останется только один способ как сделать и он и будет… тысяча первым способом как не надо :)

UFO just landed and posted this here

Alex_ME Mar 26 2021 at 15:56

Ну так по-идее System V amd64 ABI предполагает передачу целочисленных аргументов через rdi, rsi, rdx, rcx, r8, r9, что должно быть оптимальнее стека.

beeruser Mar 26 2021 at 15:49

Почему ущербен?
В х86 процессорах есть stack engine, который позволяет эффективно выполнять последовательности push/pop.

Alex_ME Mar 26 2021 at 15:58

Насколько это эффективно по сравнению с регистрами? Как я понял, stack engine генерирует адреса, а load/store никуда не исчезают?

picul Mar 26 2021 at 16:32

Просто для справки, эти push/pop предназначены не для передачи аргументов, а для сохранения состояния тех регистров общего назначения, которые функция обязана сохранять согласно calling convention.

beeruser Mar 26 2021 at 17:46

3 операнда в приведённой в статье функции strlcpy() и передаются через регистры RDX,RSI,RDI.

UFO just landed and posted this here

beeruser Mar 27 2021 at 17:12

Они через регистры передаются. Я выше ответил.
Что делать если параметров больше, чем регистров выделенных в ABI для передачи параметров?

FenestramDeveloper Mar 28 2021 at 03:21

В первую очередь — подумать, нельзя ли уменьшить число параметров. Но если речь о каком-нибудь специфическом ABI или передаваемом типе данных, то без стека не обойтись.

-1

ruGuardian Apr 1 2021 at 18:58

Да что там, фон неймановская архитектура — это анахронизм 40х.

CanisAlbus Mar 26 2021 at 16:28

Допустим параметры идут через регистры и так, а куда локальные переменные девать? Регистров же не напасешся? Компайлер и так по возможности старается регистры использовать и под локальные переменные, но на все не хватит.
Плюс как трейсить вызовы без стека? Рекурсия под запретом? Хвостовую не все умеют.
Кучу использовать вместо стека тоже не получиться, там другие проблемы.

Чего сразу ущербен то?

UFO just landed and posted this here

amarao Mar 26 2021 at 16:04

Я попытался такое запустить, и оно ничерта не работает. Это точно портабельный исполняемый файл? aarch64? Вы уверены?

+12

FenestramDeveloper Mar 26 2021 at 17:13

При помощи заголовка вы добились запуска бинарника на разных ОС. При дальнейшем выполнении кода неизбежно возникают следующие проблемы: системные вызовы windows и linux разливаются и по номерам, и по функционалу, как будут осуществляться системные вызовы в этом бинарнике; различные платформы имеют различные ABI, какое соглашение будет использоваться для передачи параметров в подгружаемую внешнюю библиотеку; на некоторых платформах может быть не быть какой-нибудь инструкции или регистра, которые приведены в в листингах, будет ли работать программа на такой платформе; допустим, самая первая же инструкция pop r10 — если тот же машинный код будет соответствовать какой-нибудь инструкции, то программа даже не запустится?

Тема совершенно не раскрыта. Осталось куча вопросов после прочтения статьи. Насколько мне известно, в общем случае задача создания кроссплатформенного бинарника не имеет решения. Хотелось бы увидеть теоретические рассуждения, каким образом они решили эту задачу или с какими оговроками.

+21

sleirsgoevy Mar 26 2021 at 17:20

Запихиваем в файл реализации ввода/вывода для всех поддерживаемых ОС; указываем разные entry point в заголовках разных форматов, в зависимости от того, который из них был реально вызван, подставляем нужные реализации в рантайме. PROFIT

FenestramDeveloper Mar 26 2021 at 17:57

Пусть не изящное, но рабочее решение. Однако это не поможет с тем, что на разных аппаратных платформах (amd64 и тот же arm) одни и те же двочиные коды будут выполнять разные команды. Можно попытаться сделать конструкцию вида SMTSMT; add rax, CONST; jmp rax. Тогда в зависимости от результата выполнения первой команды мы узнаём, на какой платформе работает, затем при помощи add превращаем результат в адрес и делаем jump… но для этого надо чтобы хотя бы jmp имел одинаковые машинные коды…

Нет, всё ещё непонятно.

anton19286 Mar 27 2021 at 10:29

Там что-то про qemu написано.

Panzerschrek Mar 26 2021 at 19:56

Насколько я понял магию, то можно тупо создать бинарь, который на разных платформах будет выглядить родным. При этом под каждую платформу будет свой код. Соответственно, надо будет просто скомпилировать родные исполняемый файлы (PE, ELF) а потом запаковать их этим магическим образом.

tyomitch Apr 11 2021 at 09:09

Тоже мне новшество! en.wikipedia.org/wiki/Fat_binary использовались с 1988

ilammy Apr 11 2021 at 10:06

Да, но только в пределах одной операционной системы.

tyomitch Apr 11 2021 at 10:27

en.wikipedia.org/wiki/Fat_binary#Combined_COM-style_binaries_for_CP/M-80_and_DOS

miolini Mar 26 2021 at 20:39

Кажется такая штука зайдет на serverless контейнерах в AWS Lambda Container и AWS Fargate.

-7

Alex-111 Mar 26 2021 at 20:52

Спасибо за привлечение внимания к проекту, но тема заслуживает нормальной статьи! Основные вопросы:

Там кросс-компиляция в неявном виде (для каждой платформы на самом деле запускается свой код) или идет трансляция всех системных вызовов? Если второе, то какие ограничения.
Что с подключением внешних библиотек (статических, понятно, что магии не бывает)?
Как возможна заявленная работа на разных архитектурных с разной системой команд (x86/64, ARM)?
Работа на bare-metal какие ограничения накладывает? Работает ли оно как IncludeOS или ее (или аналог) можно/нужно подключить? Что в этом случаи с драйверами (ФС, сеть)? Можно ли без MMU?
На оригинальной странице написано, что не предназначено для программ с GUI (что оправданно), но есть же кроссплатформенные GUI библиотеки, реально ли что-то подружить?

+14

alexxz Mar 26 2021 at 23:24

Думается мне, что это — просто способ эмулировать PE формат файла как sh скрипт. То есть будет одинаково исполняемым на Windows и Linux. Но вот расставлять набор ифов даже начальных для разных архитектур — не предлагается.
Просто отличная задача. Чем-то напоминает задачу о квайнах. Сложно, интересно, но на практике — довольно бесполезно.

ExceptionallyHandsome Mar 27 2021 at 11:49

Я пока серьезно не вгрызался в проект и вообще ненастоящий сварщик, но вот что я откопал за 30 минут (плюс инфа из треда на HN):

"Не миллион а тысячу, не в казино а в карты, не выиграл а проиграл". Ни то, ни другое.

Её изобретение — способ эмулировать PE формат файла как sh скрип, как тут рядом написали. Список новинок на этом заканчивается. Этот Cosmopolitan по сути просто libc + POSIX, т.е цель — создать кросплатформенную libc, а также дать людям инструмент который позволит создавать их собственные кроссплатформенные библиотеки без особого геморроя. Как я понял, про явные ioctl в пользовательском коде речи не идет — на "неверной" платформе они тупо вернут ошибку (но программу не уронят, вроде как).

Как реализовано конвертирование syscall-ов я и сам толком не разобрался, извиняйте.

Насчет ABI — безальтернативно x86-64 Linux ABI (без обязательного "фи" в сторону Windows calling convention не обошлось). Ваши функции вот прям обязаны использовать другие соглашения? Для вас есть вариант с трамплинами, которые любезно генерирует компилятор — только пропишите определение функции вот в хэтотъ(https://github.com/jart/cosmopolitan/blob/master/libc/nt/master.sh) файл (именно так реализована привязка в WinAPI).
Как я понял, особых ограничений нет, статическая линковка она и Африке статическая линковка, но все библиотеки (если делают системные вызовы) должны быть специальным образом перекомпилированы чтобы быть совместимыми с этим чудо-форматом. И да, либо x86-64 Linux ABI, либо специальная прослойка типа той что для WinAPI.
Ученый изнасиловал журналиста. x86-64 only, плюс есть способ внедрить qemu в бинарник и эмулировать, эмулировать, эмулировать! Написано что выходит вроде как шустро, но черт его знает, сомнения гложут меня.
Смотрите пункты 1 и 3. Ваш камень x86-64 и система System V Compatible? Поздравляю, вы ~~знаете толк в baremetal~~ в деле! Нет? Для вас есть вариант с qemu, выводы о драйверах и MMU делайте сами.

Вроде как пишут что умеет в BIOS, то есть можно использовать бинарник в качестве загрузчика на IBM PC.
Смотрите пункты 1 и 2. Не думаю что кто-то будет тратить на это время.

В воскресенье покопаюсь в этом wunderwaffe основательнее, но то, что я пока увидел, мягко говоря обламывает ожидания. С одной стороны, поделка вроде интересная и даже ограниченно полезная, но с другой — уровень хайпа и дифирамб вокруг этой штуки вот вообще никак не оправдан ИМХО. И ведь в ридми у них значится гордое "like Java", сеошники чертовы (ушел возмущаться несовершенством мира в целом и программирования в частности)...

+13

FenestramDeveloper Mar 27 2021 at 12:28

Теперь хоть что-то стало понятно. Спасибо. Ваш бы комментарий вместо статьи. А какие у вас были ожидания? То, что нельзя создать бинарник, который будет исполняться на всех платформах, без чего-нибудь специально предустановленного для этого, — это математическая теорема. Вопрос лишь в том, чем именно они пожертвовали, пытаясь создать невозможное.

AntiVassal Mar 30 2021 at 21:19

Вообще создать бинарник, который без предустановленного софта сможет выполняться на разных платформах вполне реально (привет .NET Core), хотя там вся виртуальная машина прячется в этот бинарник, и он получается просто огромным.

FenestramDeveloper Mar 30 2021 at 23:21

Нашёл, в чём здесь подвох. Создать бинарник, который выполняется в бинарном виде — невозможно. Здесь же другая ситуация.
Вообще, статья больше вводит в заблуждение, чем объясняет. Сначала в ней говорится, что win-заголовок может интерпретироваться как скрипт, причём без шебанга, но в следующем абзаце этот код запускается в двоичном виде. На каком основании? Заголовок ELF должен быть расположен строго в начале файла и нигде более, если его там нет, то программа запускается как скрипт, но она уже запущена как скрипт. То есть вот exec 7<> $(command -v $0) приведёт к бесконечной рекурсии. Ладно, допустим, этот код как-то приыёл к запуску программы в двочином виде. В дебаггере мы видим опять MZ, размещённые по адресу 40000, то есть теперь этот же заголовок исполняется как _start. Отлично. Давайте рассмотрим абстрактную платформу, в которой опкод MZ просто не реализован, и натолкнувшись на него процессор сразу же выдаёт Illegal Opcode Exception, а система радостно грохает процесс.

Что касается qemu, то из скрипта не понятно, как он запускается, однако расчитывать, что он окажется в системе, нельзя по условию задачи, а распаковать его код — для этого мы должны знать на какой аппаратной платформе запущены, чтобы нужный код распаковать. Средствами shell, наверное, это можно сделать, но в этой работе не сделано. Подозреваю, формат сильно ограничивает размеры скрипта.

С таким же и даже большим успехом можно было просто написать программу на python. Интерпретатор установлен на системном уровне и в linux, и в последних windows.

AlexSky Mar 26 2021 at 22:44

Странная реализация strlcpy. Два прохода по исходной строке: один раз в strlen, второй раз в memcpy. Откуда тут хорошая производительность?

Tangeman Mar 27 2021 at 11:55

Я не смотрел код, но в зависимости от оптимизаций это действительно может быть быстрее — за счёт специализированных инструкций процессора (типа REPNE SCASB в x86 или проверки сразу слов а не байт) и за счёт того что копирование блоками по 4/8/16 байт (если архитектура позволяет) будет ощутимо быстрее (memcpy обычно так и делает).

Реализация "в лоб", т.е. побайтное копирование с одновременной проверкой на нулевой байт явно будет медленней чем оптимизированнй вариант — выигрыш в первом случае (и то небольшой) будет только на очень коротких строках (обычно до 8-16 байт в зависимости от конкретной архитектуры).

AlexSky Mar 28 2021 at 22:48

Согласен, зависит от архитектуры и надо смотреть, но что-то мне кажется, что все равно преимущества не будет — читать/писать блоками больше байта можно и в однопроходном варианте.

FenestramDeveloper Mar 29 2021 at 01:55

Если посмотреть на версию из libc, то видны те же два вызова strlen и memcpy. Не с проста это. Дело в том, что эта функция не знает длину исходной строки, в неё передаётся только размер буфера. Поэтому приходится сначала по одному байту искать, где же конец строки, а затем блоками копировать нужную длину (memcpy это умеет).

Tangeman Mar 29 2021 at 07:41

По байту искать конец строки это прошлый век — на самом деле блоками по 8 байт.

FenestramDeveloper Mar 29 2021 at 09:03

Блоки по 8 байт, а внутри каждого блока также каждый байт проверяется. Алгоритм опять сводится к тому, что каждый байт проверяется. Получается 28 арифметических операций на 8 байт. Это больше, чем N=3*8=24, не исключено, что такая оптимизация будет даже медленнее.

w = (uint64_t)p[7] << 070 | (uint64_t)p[6] << 060 | (uint64_t)p[5] << 050 |
(uint64_t)p[4] << 040 | (uint64_t)p[3] << 030 | (uint64_t)p[2] << 020 |
(uint64_t)p[1] << 010 | (uint64_t)p[0] << 000;
if ((w = ~w & (w — 0x0101010101010101) & 0x8080808080808080)) {

Tangeman Mar 29 2021 at 09:41

Если бы каждая операция в C тупо выполнялась процессором — да. Но не всё так просто. К тому же, чтение 8 байт из памяти в регистр быстрее чем читать побайтно.

FenestramDeveloper Mar 29 2021 at 10:50

Ассемблерный код оказался более читаемым, чем исходник. То есть вся эта страшная конструкция эквивалентна одному простому mov:
w = ((uint64_t*)(p))[0];
Но почему разработчики не написали именно так?

А алгоритм сводится к битовой магии add, not, add, add.

Tangeman Mar 29 2021 at 11:15

Но почему разработчики не написали именно так?

Потому что оно должно работать при любом порядке байтов.

FenestramDeveloper Mar 29 2021 at 12:46

Точно. с BigEndian будут проблемы. Но если присмотреться, цикл проверяет, что в блоке нет ни одного нулевого байта, и при смене порядка порядка цикл будет корректно работать. Меняется только действие, когда мы нашли нулевой байт: надо не с конца считать номер байта, а с начала. Но для этого уже предусмотрена другая функция.

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__
i += (unsigned)__builtin_ctzll(w) >> 3;
#elif __BYTE_ORDER__ == __BIG_ENDIAN__
i += (unsigned)__builtin_clzll(w) >> 3;
#else
AUCHTUNG!;
#endif

В таком виде Big Engian машинам не придётся за зря крутить байты в строках.

Mingun Mar 29 2021 at 13:08

Хм… троичная логика детектед!

-1

OnvogSGN Mar 27 2021 at 05:24

Видел файл polyglot ещё в тыща девятьсот… нацатом году. Это был код одновременно на 6 или 7 языках (помню C, Pascal, Postscript(!), возможно Fortran, Perl) и даже. COM-файл для запуска из DOS.

-1

S-trace Mar 27 2021 at 07:55

Журнал pocorgtfo ещё и не таких франкенштейнов в выпусках делает порой)

kunix Mar 27 2021 at 10:56

Это какое-то лютое хакерство ради хакерства.
Найдет применение разве что в кросплатформенной малвари.
И то врядли надолго. Антивирусы добавят в свои БД сигнатуры.

tester12 Mar 27 2021 at 12:18

Ну почему. Один бинарник, одна кнопка «скачать» на сайте. И пользователям (в т.ч. далёким от компьютеров, не отличающим x86-64 от ARM) не нужно думать, какой вариант софтины скачивать.

Другое дело, что потребуется очень хитрая процедура, выясняющая текущую платформу.

kunix Mar 27 2021 at 12:23

Платформу определяют по браузеру без особых проблем в большинстве случаев.
Малое количество ошибок можно обработать через техподдержку или страницу ручного выбора, что скачать.

Вот когда эта софтина заглючит и крешнется из-за хитросплетений работы загрузчика бинарей, антивируса, и фаз луны…
То бизнес быстренько выкинет все хакерство и сделает стандартными железобетонными методами.

FenestramDeveloper Mar 27 2021 at 12:31

увы, последние лет 10 бизнес в таких ситуациях призывает далёкого от программирования человека и говорит: «ну сделай что-нибудь с этим, короче, через 15 минут эта штуковина должна зработать», и так рождается очередной костыль/патч/скрипт по перезапуску для какого-нибудь нестабильного продукта.

kunix Mar 27 2021 at 12:38

Возможно, но вот именно эту хрень APE так не исправишь.
Тут любое изменение надо тестировать на огромном числе платформ.
Еще одна причина этим APE не заниматься :)

FenestramDeveloper Mar 27 2021 at 13:25

Допустим, проблема наблюдается при запуске такого приложения на линукс. Устанавливаем Wine, запускаем приложение через него. После пару десятков segfault и подбора параметров запуска добиваемся того, что программа выполняет нужную нам задачу и сваливается с какой-нибудь ошибкой после. Объясняем начальству, что программа задачу выполняет, а появление окошка «приложение будет закрыто» — вам надо, чтобы задачу делало или чтоб красиво было?

Ведь так всё и будет. Точно кто-нибудь, да попадёт на такое.

OnvogSGN Mar 27 2021 at 21:22

Господи, вы из какого года пишите? :) Какие пользователи, далёкие от компьютера, качают исполняемые файлы для десктопа с сайтов в 2021 году? Какие сайты в 2021 году не могут понять с какой ОС и архитектуры зашёл на них пользователь?

-6

demoth Mar 28 2021 at 14:19

Если не секрет, то как у вас алгоритм действий, если вы узнали о какой-то программе и хотите её установить? И на какой ОС?

vvzvlad Mar 28 2021 at 16:53

Он заходит на сайт программы и нажимает кнопочку download. То, что скачалось — запускает. Если нет сайта, скачалось не то, или нет вообще кнопочки, то программа негодная, надо найти годную.

gurux13 Mar 27 2021 at 16:59

Но это же не бинарник под всё кроме винды и bare metal получается. Это скрипт, сродни .run файлу, со всеми приколами (зависимость от шелла, ограничения на suid, ...). Похожего эффекта можно добиться, сделав .cmd файл с shebang'ом, который извлекает из себя платформо-зависимую версию java и .jar файл. Да, получится сильно большой размер, зато гораздо меньше костылей. Ну и да, на bare metal не запустится, но давайте быть честными: кому нужен бинарник, который работает на bare metal и в оси? Вернее, зачем внутри оси нужен бинарник, который написан под bare metal?

Я не отрицаю, что это прикольно и познавательно, но практический смысл немного ускользает. Кажется, самая интересная часть была бы в переходниках между системными вызовами и библиотеками, но её, ятп, нет. А если это делать, есть шанс написать очередную джаву/.нет/...

Maccimo Mar 30 2021 at 02:14

Необходимости извлекать jar-файл нет.
JAR-батник с call java %0 %* отработает и без извлечения. При наличии java в путях, конечно же.

alfhabr Mar 28 2021 at 08:33

0x, mой кот :)))

-3

GeorgeGFedoroff Mar 28 2021 at 08:33

О! Можно трояны кроссплатформенные делать!

CrashLogger Mar 29 2021 at 14:40

Похоже, это единственная область применения данной технологии.

KvanTTT Mar 29 2021 at 23:05

Почему статья не помечена как перевод?

zugzug Mar 31 2021 at 20:39

А адвокаты Oracle не засудят камрадку за стибренный слоган? ;-)

vladvul Apr 2 2021 at 21:52

каким образом redbean работает с сокетами?

pvvv Apr 2 2021 at 23:44

https://github.com/jart/cosmopolitan/blob/0.3/libc/sock

ssize_t sendto(int fd, const void *buf, size_t size, uint32_t flags,
               const void *opt_addr, uint32_t addrsize) {
  assert(sizeof(struct sockaddr_in) == sizeof(struct sockaddr_in_bsd));
  if (!IsWindows()) {
    if (!IsBsd() || !opt_addr) {
      return sys_sendto(fd, buf, size, flags, opt_addr, addrsize);
    } else {
      struct sockaddr_in_bsd addr2;
      if (addrsize != sizeof(addr2)) return einval();
      memcpy(&addr2, opt_addr, sizeof(struct sockaddr_in));
      sockaddr2bsd(&addr2);
      return sys_sendto(fd, buf, size, flags, &addr2, addrsize);
    }
  } else if (__isfdkind(fd, kFdSocket)) {
    return sys_sendto_nt(&g_fds.p[fd], (struct iovec[]){{buf, size}}, 1, flags,
                         opt_addr, addrsize);
  } else {
    return ebadf();
  }
}