ruvds 16 фев 2021 в 12:30

Лайфхак: как спарсить гигабайт double-ов в секунду

6 мин

23K

Блог компании RUVDS.comПрограммирование*C++*Лайфхаки для гиков

+100

Комментарии 62

dvserg 16 фев 2021 в 13:01

Наверное такие алгоритмы применимы в очень специфических случаях, когда быстродействие важнее понимания, что происходит?

eyudkin 16 фев 2021 в 13:34

С другой стороны, а часто ли вам нужно понимание, как конкретно работает функция from_chars, при условии, что там нет багов и не нужно это дебажить?

+12

dvserg 16 фев 2021 в 13:50

Ну если это уровень библиотеки (черный ящик), то нет.

KivApple 16 фев 2021 в 18:18

Такие вещи выносятся в отдельную функцию, которая хорошо документируется и внутрь больше никто не заглядывает — она без побочных эффектов и отлаживается до совершенства за один раз. Разумеется, если пихать такую логику в середину другой сложной функции, то ничем хорошим это не кончится.

fougasse 16 фев 2021 в 13:38

Ну сам алгоритм, допустим, понятен.
Откуда вывод про ограничения именно на парсинге — не очень.
Бенчмарки стандартных стримов и strtod есть, а где результат с оптимизациями?
Ведь стрим и функция имеют чуть больше логики и гарантий, чем цикл с битовой магией.
Сколько кода нужно написать, что с платформами, багами?
Опять же, никто не спорит о возможности обогнать стандартную библиотеку и её суб-оптимальности, но хотелось бы цифр и ресурсов на поддержку с интеграцией подобных вещей.

qrdl 16 фев 2021 в 16:07

Бенчмарки стандартных стримов и strtod есть, а где результат с оптимизациями?

Он там закопан в середине текста, 3.6 Гб/сек, то есть в 73 раза быстрее начального варианта (50 Mb/сек).

lorc 16 фев 2021 в 19:09

Нет. Это был парсинг целых чисел.

tyomitch 16 фев 2021 в 19:25

Он закопан в заголовке поста: гигабайт в секунду, т.е. в 20 раз быстрее начального варианта.

НЛО прилетело и опубликовало эту надпись здесь

tyomitch 16 фев 2021 в 19:29

Автор утверждает, что обогнал не только стандартную, но и специализированные библиотеки:

TimsTims 16 фев 2021 в 22:04

В вашем графике числа с плавающей точкой, а у автора int64

-1

tyomitch 16 фев 2021 в 22:05

У автора double, прямо в заголовке статьи.

TimsTims 17 фев 2021 в 07:27

Точно, ошибся.

AxisPod 16 фев 2021 в 13:57

Читать в память большими кусками (помапить в память), а затем кучу потоков парсинга, вуаля.

SunRiseX64 16 фев 2021 в 15:05

Это уже напомнило последнюю часть статьи FizzBuzz по-сениорски =)

tyomitch 16 фев 2021 в 19:34

Редко когда нужно распарсить файл, целиком состоящий из чисел. Обычно это JSON, XML или что-нибудь аналогичное, чей парсинг не распараллелить.

Tsimur_S 16 фев 2021 в 22:25

Если это CSV то вполне можно =) Даже есть версия парсера с использованием видеокарты.

tmin10 17 фев 2021 в 00:38

Смотря какой json и xml. Если состоит из повторющихся строчек, то вполне можно, spark такое умеет как раз, паралеля чтение на кластере.

kuokk 16 фев 2021 в 15:05

Жёсткие диски запросто обеспечивают последовательное чтение со скоростью в несколько ГБ/с,

простите, а вы не могли бы указать, что это за диски такие?
или имеете в виду топовые NVMe SSD, а не шпиндельные HDD?

slonopotamus 16 фев 2021 в 15:15

Почему обязательно топовые? Первый нагуглившийся Samsung 970 EVO выдаёт 3.4 ГБ/с и стоит всего 13т.р. за 1ТБ. 3.4 — вполне себе "несколько". А топовые уже добрались до 7ГБ/с.

-1

alan008 16 фев 2021 в 16:27

Ну то есть надо было с оговоркой писать, что жесткие диски именно SSD, а не HDD, причем подключаемые именно по NVME (т.к. у SATA SSD скоростей выше 500-600 МБ/c я что-то не встречал). Слово "запросто" было точно лишнее.

slonopotamus 16 фев 2021 в 16:49

подключаемые именно по NVME

Нет, не именно. OCZ RevoDrive 3 X2, например, обеспечивает 1.5 ГБ/c при последовательном чтении, но при этом ни в каком месте не является NVMe. Поступил в продажу 10 лет назад.

Слово «запросто» было точно лишнее.

Привет из 2021 года. Тут можно запросто пойти в любой компьютерный магазин и запросто купить NVMe SSD. Это не какая-то экзотика, доступная только избранным или за чемодан денег.

SergeyMax 16 фев 2021 в 19:41

Это всё понятно, но я например не уверен, что термин «жёсткий диск» полностью применим к «OCZ RevoDrive 3 X2» и прочим SSD.

tyomitch 16 фев 2021 в 19:45

Предлагаете называть их «жёсткий диск» и «твёрдый диск», чтобы не было путаницы?

tmin10 16 фев 2021 в 21:13

Твердотельный накопитель

vrnvorona 18 фев 2021 в 15:21

Или SSD. Ой, уже придумано.

slonopotamus 16 фев 2021 в 23:40

Ок, да, формально вы правы и ничего в форме диска в SSD нет и это слово использовать некорректно. С другой стороны — а какой термин в русском языке эквивалентен "hard drive"?

tmin10 17 фев 2021 в 00:36

Есть HDD (hard disc drive) и SSD (solid state drive). Русские аналоги: жёсткий диск и твердотельный накопитель вполне устоявшиеся и не ушли от оригинала.

slonopotamus 17 фев 2021 в 00:49

Попробуйте прочесть вопрос ещё раз. Меня интересует собирательный термин для HDD+SSD.

-1

lorc 17 фев 2021 в 18:41

Накопитель

tyomitch 17 фев 2021 в 10:10

Единственная сложность — что «твердотельный накопитель» вдвое длиннее, чем «solid state drive». С жёстким диском такой сложности нет.

Buhram 17 фев 2021 в 01:21

Hard drive это исключительно HDD, то есть жесткий диск. Применять этот термин к твердотельным дискам не корректно.
Собирательный термин — накопитель, или storage device.

SergeyMax 17 фев 2021 в 06:57

С другой стороны — а какой термин в русском языке эквивалентен «hard drive»?

Думаю, что жёсткий диск

tyomitch 17 фев 2021 в 10:17

Если докапываться до терминологии, то никакого привода в SSD тоже нет, так что называть его «drive» столь же некорректно. Называли бы его «solid state storage», было бы даже аллитеративнее =)

Tangeman 16 фев 2021 в 20:19

Наверное имелось в виду PCIe так как NVMe это спецификация а не интерфейс, но в современных реалиях почти гвоздями прибит к PCIe, а упомянутый RevoDrive напрямую на PCIe вешался, оттуда и 1.5 GB/s.

HeraldGersdorff 17 фев 2021 в 14:47

Думаю, предыдущий комментатор имел в виду подключение по PCIe, куда указанный диск и подключается (как и NVMe)

Siper 21 фев 2021 в 23:26

Речь о софте для высокоскростного парсинга, который явно гоняют на серверах, а не домашних ноутбуках. Еще 10 лет назад можно было набить 2U сервер 24 дисками sff sas, каждый давал 180-200 МБ/с а весь массив запросто давал 3-4 ГБ/с. Сейчас скорости намного выше.

kovserg 16 фев 2021 в 15:39

Хм. Для тех кому надо много и быстро есть специальные форматы parquet.apache.org
А вот обычные текстовый файлы (особенно большие) могут содержать ошибки, появление которых может стать внезапным сюрпризом.

ps: Cжатые текстовый файлы можно прасить быстрее, т.к. требуется на порядок меньшая пропускная способность дисковой подсистемы для того-же объёма данных. И плюс есть хотя бы контрольная сумма.

tyomitch 16 фев 2021 в 19:41

В первом же абзаце объяснено, что пропускная способность дисковой подсистемы на один-два порядка выше скорости парсинга, так что сжатие его только замедлит.

НЛО прилетело и опубликовало эту надпись здесь

tyomitch 16 фев 2021 в 19:36

Отличная подборка, но к парсингу чисел никакого отношения не имеет.

Videoman 16 фев 2021 в 21:38

В С++17 стандарте специально для парсинга чисел появилась std::from_chars (из \<charconv\>). Как утверждается она специально создана для скоростных парсеров, не использует всякие локали и должна работать на порядок быстрее. Вы случайно её скорость не замеряли?

tyomitch 16 фев 2021 в 22:04

Автор пишет, что std::from_chars парсит 140 МБ/с: втрое быстрее, чем потоки, и всемеро медленнее, чем его реализация.

Playa 17 фев 2021 в 00:18

The guarantee that std::from_chars can recover every floating-point value formatted by std::to_chars exactly is only provided if both functions are from the same implementation.

Кто-нибудь может объяснить, почему так?

Videoman 17 фев 2021 в 00:26

Эти функции не только double и float парсят, а также целые в различных системах исчисления. Так куча флагов, перегрузок и не все из них еще на всех платформах имплементированы.

Antervis 17 фев 2021 в 01:18

Так куча флагов, перегрузок и не все из них еще на всех платформах имплементированы.

перегрузки не дают накладных расходов в рантайме

Antervis 17 фев 2021 в 01:15

Кто-нибудь может объяснить, почему так?

стандарт гарантирует что для любого double значения преобразование to_chars и последующее from_chars всегда вернет ровно то же самое число. Так что либо реализация автора не дает такой гарантии, либо он додумался до чего-то, до чего уже несколько лет не могли додуматься разработчики компиляторов. Ну или последний вариант, на который бы я поставил — автор сравнивал парсинг с std::chars_format::general, который предполагает что в double числе может быть экспонента. А обработка этого случая уже может и замедлить код.

Upd: посмотрел код бенчмарка (ссылка с гитхаба автора). Действительно, автор использует формат по умолчанию, который и есть std::chars_format::general. Ему бы стоило замерить с std::chars_format::fixed, и уже потом заявлять о 7-кратном приросте.

Upd2: перепроверил, у автора тоже параметризуется формат, в полной аналогии со стандартным. Возвращаемся к первым двум гипотезам.

tyomitch 17 фев 2021 в 10:04

Вы не поняли: цитата Playa — про std::from_chars и std::to_chars, а у ускоренного from_chars есть только одна реализация, содержащая только одну эту функцию, так что к ней замечание «if both functions are from the same implementation» никак не могло бы относиться.

Разработчики компиляторов в меньшей степени, чем автор, интересуются платформо-зависимыми оптимизациями, так что ничего удивительного.

Elsedar 20 фев 2021 в 10:56

Проблема в том, что std::from_chars/to_chars для float типов реализованы только в студии. Ни в clang ни в gcc их до сих пор нет — en.cppreference.com/w/cpp/compiler_support/17

DmitryKoterov 17 фев 2021 в 00:20

Есть еще вот инструкции старинные: http://www.hugi.scene.org/online/coding/hugi%2017%20-%20coaax.htm (для полноты топика) — но, скорее всего, с ними только медленнее будет, уж очень они старые.

tyomitch 17 фев 2021 в 10:07

В x64 их больше нет.

denisshabr 20 фев 2021 в 16:41

Эти извращения в середине статьи напомнили, как на Z80 обычными регистрами память очень медленно заполнялась, например для очистки кадра заполнить видеопамять нулями, но если поместить регистр стека на видеопамять, то команда работы со стеком POP очень быстро могла заполнить память нулями, что позволяло добиться 50fps в играх и демках на таком слабом железе.

barabanus 23 фев 2021 в 12:50

Я думаю, что можно и быстрее, если теперь подключить к этой обработке еще инструкции векторизации (SIMD).

tyomitch 23 фев 2021 в 14:11

Компилятор сам их подставляет: habr.com/ru/post/542836/#comment_22702548

barabanus 23 фев 2021 в 14:34

Не верю, что в данной задаче компилятор это сделает сам. Да и зачем полагаться на компилятор (который это не сделает), если то же самое можно сделать руками с гарантированным результатом?

Videoman 24 фев 2021 в 00:08

На сколько я понял автор хотел сравнять скорость чтения 1Гб даблов с их парсингом. Дальнейшая оптимизация может привести к тому что мы уже не будем успевать читать их с диска с такой скоростью, ну или близко к этому.

barabanus 24 фев 2021 в 11:04

Нет ничего зазорного, чтобы узким горлышком было чтение с диска, а не парсинг. В конце концов, этот файл может читаться из памяти, из сети, из RAID-массива. Тем более, что векторизация кода — это доступная техническая процедура. Так зачем сдерживать себя и не попробовать?

Videoman 24 фев 2021 в 11:18

Я ни в коем случает не против. Ясно что пределы оптимизации не достигнуты: дальше подключаем все ядра в параллель, SIMD и т.д. Все это сильно увеличит скорость, но также и сильно усложнит код и ничего не даст с точки зрения алгоритма описанного в статье.

tyomitch 24 фев 2021 в 12:38

Так зачем сдерживать себя и не попробовать?

Чтобы не тратить $5000 на реализацию оптимизации, которая сэкономит $50.

Именно поэтому автор начинает с анализа скорости парсинга относительно скорости диска: если разница в сто раз, то ускорение парсера имеет большой практический смысл. Если разница в два-три раза, то это уже больше спортивный интерес.

Вот если векторизацию этого случая встроить прямо в GCC, тогда она может окупиться, даже если конкретно на этой задаче сэкономит очень мало.

alex-t 24 фев 2021 в 14:56

Остался только вопрос — зачем был изначально записан файл в текстовом формате? Напоминает легендарные истории, как организация печатала грузовик отчетности, который ехал в налоговую, а там оцифровывался «взад»…

netch80 28 мар 2021 в 19:14

Или, почему используется десятичный формат записи double, а не шестнадцатиричный, в котором десятичный парсинг остаётся только для порядка.

Но так как могут быть тонны внешних причин, на которые нельзя влиять — задача вполне достойная.

Ckpyt 9 апр 2021 в 11:09

К примеру, выгрузка БД из OpenStreetMap или сопоставимой по объему.

А еще у меня был заказчик из эквадора. У него таксопарк. Каждое такси три раза в секуду шлет отчет о состянии авто, вместе с GPS координатами. Объем пакета — где-то 10Кб. Когда количество машин прибилизилось к сотни, появились лаги парсера. В общем, там пришлось слегка поковыряться, но я гарантировал, что теперь проблемы возникнут когда количетсво машин приблизится к десятку тысяч :-)

На вопрос «а какого [ПИП] надо три раза в секуду»? Мне хозяин ответил: «Стреляют. Надо успеть разблокировать оружие до того, как водителя убьют».

Зарегистрируйтесь на Хабре, чтобы оставить комментарий