Клиентская оптимизация *

Делаем сайты удобнее и приятнее

СтатьиПостыНовостиАвторыКомпании

PatientZero 23 мая в 08:48

Ускоряем работу видеодекодера rav1d на 1%

Средний

12 мин

3.1K

Работа с видео*Отладка*Компиляторы*Rust*Клиентская оптимизация*

Кейс

Перевод

Какое-то время назад memorysafety.org объявил о конкурсе по повышению производительности rav1d — порта AV1-декодера dav1d на Rust.

Моя фамилия Равид, совсем как название декодера, поэтому я решил, что будет забавно попробовать (хоть я и, вероятно, не смогу участвовать в конкурсе).

Эта статья посвящена двум найденным мной небольшим улучшениям производительности (первый PR, второй PR) и рассказу о том, как я их нашёл.

+36

mr-pickles 15 мая в 09:50

Оптимизация производительности кода — это тяжёлый труд

Средний

10 мин

3.8K

Блог компании Wunder FundКомпиляторы*Алгоритмы*Клиентская оптимизация*Программирование*

Перевод

Я не говорю о навыках или о знаниях, равно как и не пытаюсь внушить миру идею о необходимости оптимизации производительности. Наш мир и без этого поставил во главу угла ускорение всего и вся. Оптимизация производительности кода — это тяжёлый труд из-за того, что речь идёт о задаче, природа которой диктует использование при её решении метода грубой силы — полного перебора вариантов — и ничего с этим не поделаешь.

Статья, которую вы читаете — это, отчасти, рассуждения о том, сколько огорчений мне приносит оптимизация кода. Но я, кроме того, попытаюсь дать здесь практические советы, которые, надеюсь скрасят путь тем, кто идёт дорогами оптимизации.

+26

duran-duran 12 мая в 08:01

Трамплин в интернет: как мы ускорили запуск Яндекс Браузера

6 мин

5.9K

Блог компании ЯндексКлиентская оптимизация*БраузерыКомпьютерное железо

Привет! Это снова Максим из Яндекс Браузера. Мы с командой продолжаем делиться историями об интересных и неочевидных оптимизациях производительности, которые внедряем в наш браузер. В прошлый раз мы писали о том, как улучшили стабильность GPU‑процесса, воспользовавшись оптимизациями в драйверах видеокарт, сделанными специально для Google Chrome. А сегодня речь пойдёт об ускорении старта нашего браузера на Windows.

+52

ru_vds 30 апр в 13:01

14 интересных фич Python (возможно, не совсем pythonic)

Средний

21 мин

23K

Блог компании RUVDS.comПрограммирование*Клиентская оптимизация*Python*

Обзор

Перевод

Python — один из самых широко используемых языков программирования в мире. Однако из-за его простоты, позволяющей быстро сделать что-то, он остаётся также одним из самых недооценённых.

Если загуглить лучшие 10 продвинутых хитростей Python, то вы найдёте кучу постов или статей на LinkedIn с обзором тривиальных (но всё же полезных) вещей типа генераторов или кортежей.

Я пишу на Python уже двенадцать лет, и за это время нашёл кучу очень интересных, недооценённых, уникальных или (как может кто-то сказать) «не-pythonic» хитростей, позволяющих по-настоящему расширить границы возможного для Python.

Именно поэтому я решил собрать список из 14 лучших таких фич с примерами и дополнительными ресурсами на случай, если вы захотите изучить их глубже.

Читать дальше →

+123

PatientZero 18 мар в 12:57

Уменьшаем размер двоичного файла на C# в 90 раз

Средний

24 мин

10K

Клиентская оптимизация*C#*Отладка*

Кейс

Перевод

Я написал на C# консольный клон Wordle, но попытался сделать двоичный файл максимально крошечным.

Я взял популярную игру Wordle с такими правилами:

Нужно за шесть попыток угадать слово из пяти букв. После ввода каждого варианта цвет букв будет меняться, показывая близость догадки к загаданному слову.

Для каждой попытки уменьшения двоичного файла мы создадим отдельный проект, чтобы удобно было сравнивать предпринятые действия.

В работе с консолью мне помогла игра Console Games - Snake

Проект запускается в новой консоли dotnet.

+52

PatientZero 5 мар в 18:37

В чём причина высокой скорости fastDOOM

Простой

11 мин

15K

Игры и игровые консолиСтарое железоКлиентская оптимизация*Разработка игр*

Обзор

Перевод

Зимой 2024 года я восстанавливал IBM PS/1 486-DX2 66Mhz, «Mini-Tower», model 2168. В подростковом возрасте я мечтал о таком компьютере, но не мог себе его позволить. Не могу выразить словами, насколько меня радовала работа над этой машиной.

Как только мне удалось его запустить, я сразу же провёл бенчмарк одного ПО.

+73

PatientZero 20 фев в 06:21

Как уместить поиск по 30 тысячам слов в 64 КБ ОЗУ

Средний

17 мин

9.4K

История ITКлиентская оптимизация*Алгоритмы*Математика*Сжатие данных*

Ретроспектива

Перевод

Как уместить словарь размером 250 КБ в 64 КБ ОЗУ с возможностью выполнения быстрого поиска? Для справки: даже современные методики сжатия наподобие gzip -9 не могут сжать этот файл до размера меньше 85 КБ.

В 1970-х Дуглас Макилрой столкнулся с этой непростой задачей при реализации проверки правописания для Unix в AT&T. Из-за ограничений компьютера PDP-11 весь словарь должен был умещаться всего в 64 КБ ОЗУ. Кажется, подобную задачу решить невозможно.

Вместо того, чтобы использовать стандартные методики сжатия, Дуглас воспользовался преимуществами свойств данных, разработав алгоритм сжатия, отличавшийся от теоретического минимума сжатия всего на 0,03 бита. И по сей день этот рекорд остаётся непревзойдённым.

История spell в Unix — это не только любопытный исторический факт. Это мастер-класс по проектированию в условиях жёстких ограничений: анализа первооснов задачи, применения математических наблюдений и проектирования изящных решений, работающих в условиях строгого дефицита ресурсов.

+47

ru_vds 17 фев в 13:01

Могут ли LLM писать более качественный код, если их об этом просто попросить?

Средний

19 мин

35K

Блог компании RUVDS.comИскусственный интеллектКлиентская оптимизация*Отладка*Программирование*

Обзор

Перевод

В ноябре 2023 года, когда OpenAI добавила в ChatGPT возможность генерации изображений DALL-E 3 через веб-интерфейс ChatGPT, на короткое время возник мем: пользователи отправляли LLM базовое изображение и несколько раз просили «сделать его более X», где X могло быть чем угодно.

Примеры

Обычный парень становится всё более «бро».

Санта становится всё более «серьёзным».

Тренд быстро сошёл на нет, потому что все эти изображения были очень похожими и скучными; к тому же они необъяснимым образом все сводились к чему-то космическому, вне зависимости от исходного изображения и промта. Тем не менее, этот тренд достаточно любопытен с научной точки зрения тем, что столь бессмысленный и нечёткий промт каким-то образом влияет на конечное изображение, и что это изменение очевидно для пользователя.

А что будет, если я попробую похожий способ с кодом? Сгенерированный LLM код вряд ли будет мусорным (хоть это и возможно), поскольку он следует строгим правилам, и в отличие, например, от изображений, его качество можно измерить объективнее.

Если код в самом деле можно улучшить, просто при помощи интерактивного промтинга, попросив LLM «написать код получше» (хоть это и очень глупо), то это приведёт к огромному росту продуктивности. А если это так, то что произойдёт, если таких итераций с кодом будет слишком много? Каким станет эквивалент «космического» кода? Есть только один способ это выяснить!

Читать дальше →

+91

PatientZero 31 янв в 09:01

Порталы: как устроен расчёт видимости в Quake, часть 2

Простой

16 мин

2.5K

Работа с 3D-графикой*История ITРазработка игр*Клиентская оптимизация*

Обзор

Перевод

Часть 1

Итак, теперь у нас есть первая приблизительная оценка видимости листьев из порталов, хранящаяся в массиве mightsee каждого портала. Вычислять, что именно видно через последовательность порталов, сложно, поэтому мы вместо этих вычислений используем «консервативную» оценку. Она ни за что не скроет лист, который должен оставаться видимым.

«Это просто задача отсечения»

Свет внезапно выключается. Вы сидите в огромном конференц-зале. Кто-то включает проектор. На экране сам Майкл Абраш! Похоже, это знаменитый доклад Quake Postmortem с GDC 1997.

Он говорит о порталах.

Мы берём плоскости отсечения, ограничивающие максимальный объём видимого, и отсекаем их по всё более дальним порталам, пока они не пропадут.

+30

andry36 8 янв в 06:00

Performance и оптимизация TypeScript-типов в больших проектах

Средний

8 мин

11K

TypeScript*JavaScript*Веб-разработка*Клиентская оптимизация*Текстовые редакторы и IDE*

Туториал

Узнайте, почему большие TypeScript-проекты начинают "захлёбываться" от рекурсивных типов и обилия импортов, и как с помощью правильной структуры монорепы, настройки tsconfig и диагностики ускорить время компиляции и работу IDE. Рассматриваем инструменты, параллельную сборку, оптимизацию рекурсивных типов и прочие техники, которые помогут сохранить ваш проект быстрым и удобным.

+37

PatientZero 24 дек 2024 в 11:06

Деление беззнаковых 8-битных чисел

Средний

13 мин

6.4K

Клиентская оптимизация*Математика*Программирование*Процессоры

Аналитика

Перевод

Деление — достаточно затратная операция. Например, на CPU Cannon Lake задержки 32-битного деления находятся в интервале 10-15 тактов, а на Zen4 — 9-14 тактов. Задержки 32-битного умножения на обоих CPU составляют 3-4 такта.

Ни в одном из популярных ISA SIMD (SSE, AVX, AVX-512, ARM Neon, ARM SVE) нет целочисленного деления, оно есть только в RISC-V Vector Extension. Однако во всех этих ISA есть деление с плавающей запятой.

В этой статье мы представим два подхода к реализации SIMD-деления 8-битных беззнаковых чисел.

+55

PatientZero 5 ноя 2024 в 07:45

Я прождал 10 миллиардов тактов и дождался лишь экрана загрузки

Простой

7 мин

16K

Компьютерное железоПрограммирование*Веб-разработка*Клиентская оптимизация*

Мнение

Перевод

Современное оборудование невероятно быстрое. M1 Max, на котором я пишу эту статью, работает с частотой 3,2 ГГц. То есть 3,2 МИЛЛИАРДА тактов в секунду. Однако Microsoft Teams требуется 3 секунды, чтобы открыть ссылку, и я отказываюсь верить, что для открытия ссылки требуется 9,6 МИЛЛИАРДА тактов. Очевидно, я упрощаю, но смысл остаётся прежним: как так получается, что оборудование становится быстрее, а приложения — только медленнее?

«Потому, что мы выполняем гораздо больше задач». Так считает любитель позднего капитализма. Позвольте объяснить.

Превосходный пример мощи современного «железа» — это видеоигры. Я могу симулировать огромные 3D-среды с физикой и освещением, полученным трассировкой лучей, при этом играть в реальном времени с друзьями из других штатов и даже стран; вполне доступный компьютер потребительского уровня выдаёт 124 миллионов пикселей в секунду¹.

^{[1. 1080p при 60 FPS = 1920 × 1080 × 60 = 124416000]}

Можно посмотреть и в обратном направлении: людям удаётся запускать DOOM на почти любом устройстве с процессором: на калькуляторах, iPod, фотокамерах. Невероятно маломощные, зачастую одноразовые устройства обладают достаточными вычислительными ресурсами, чтобы выполнять сверхсовременную на 1993 год игру. Это не особо удивляет, ведь прошло три десятка лет, но показывает, какой путь мы проделали.

+80

PatientZero 24 авг 2024 в 07:33

strlcpy, или как CPU противоречат здравому смыслу

Средний

6 мин

17K

Программирование*Клиентская оптимизация*C++*Алгоритмы*

Туториал

Перевод

Один из моих старых постов о strlcpy недавно вызвал обсуждения на различных форумах. Вероятно, с этим как-то связан выпуск новой версии POSIX. Многие авторы приводили один контраргумент, который я слышал и раньше:

«В общем случае, когда исходная строка умещается в конечный буфер, strlcpy будет обходить строку только один раз, а strlen + memcpy будут обходить её дважды».

Под этим аргументом скрывается допущение о том, что однократный обход строки выполняется быстрее. И, честно говоря, это вполне разумное допущение. Но справедливо ли оно? Об этом мы и поговорим в статье.

+65

ru_vds 19 авг 2024 в 13:00

Два потока, одно ядро: как устроена одновременная многопоточность

Средний

13 мин

31K

Блог компании RUVDS.comКлиентская оптимизация*Программирование*ПроцессорыСерверная оптимизация*

Обзор

Перевод

Одновременная многопоточность (Simultaneous multithreading, SMT) — это функция, позволяющая процессору одновременно обрабатывать команды из двух разных потоков. Но задавались ли вы когда-нибудь вопросом, как это работает? Как процессор отслеживает два потока и распределяет ресурсы между ними?

В статье я объясню, как устроена эта функция. Понимание внутреннего устройства SMT поможет вам решить, подходит ли она для ваших продакшен-серверов. Иногда SMT способна резко повысить производительность системы, но в некоторых случаях она приводит к замедлению. Знание подробностей позволит вам сделать правильный выбор.

Примечание: основная часть изложенного в статье относится к реализации SMT компании Intel, также называемой гипертредингом (hyper-threading). Она основана на научной статье компании, опубликованной в 2002 году.

Читать дальше →

+71

ru_vds 5 авг 2024 в 13:00

Factorio: оптимизации 2.0

Средний

10 мин

34K

Блог компании RUVDS.comРазработка игр*Отладка*Клиентская оптимизация*Игры и игровые консоли

Обзор

Перевод

Все мы любим строить всё больше и больше, поэтому когда сталкиваешься с ограничением UPS, это сильно расстраивает. Именно поэтому мы обязаны продолжать свой бесконечный процесс оптимизации игры.

▍ Оптимизация роботов (автор: Rseding)

За годы работы над Factorio я профилировал множество файлов сохранений и регулярно встречал сохранёнки, где большая часть времени обновления тратится на логистику и/или строительных дронов. В этом нет ничего нового, но наряду с дронами существуют и дронстанции (в больших количествах).

Типичная фабрика с кучей дронстанций (Roboport)

Дронстанции никогда не были «медленными», но они всегда присутствуют на карте, и у игроков есть мотивация строить их в больших количествах; к тому же, их будет ещё больше в грядущем Space Age, где нужно будет многое делать удалённо. Сохранение, полученное после последней сессии плейтестинга, снова показало, что они отнимают небольшое, но ненулевое количество времени, поэтому я снова задумался о них.

Читать дальше →

+63

PatientZero 17 июл 2024 в 20:39

Насколько быстр Javascript? Симулируем 20 миллионов частиц

Простой

23 мин

25K

JavaScript*Клиентская оптимизация*Разработка игр*

Туториал

Перевод

Я бросил себе вызов: симулировать 1000000 (миллион) частиц на чистом Javascript на телефоне, используя только CPU и добившись 60 FPS.

Поехали.

Задача не особо сложна, если выполнять всю работу на GPU, но правило гласит, что нужно пользоваться только CPU, при этом работая на JS, так что никакого WASM.

+133

ru_vds 10 июл 2024 в 09:00

Профайлер памяти. Зачем он нужен и как использовать

Средний

6 мин

7.1K

Блог компании RUVDS.comКлиентская оптимизация*Серверная оптимизация*Серверное администрирование*Системное администрирование*

Обзор

Профайлер памяти — это инструмент, который анализирует работу конкретного приложения, помогает выявить утечки памяти, показывает точное количество использованной памяти и количество выделений. Если программа потребляет больше памяти, чем ожидалось, то профайлер покажет все выделения ресурсов и позволит определить, почему и где они выделяются.

Профайлер можно использовать не только в разработке, но и в системном администрировании, чтобы отслеживать рабочие процессы конкретных приложений, скриптов и задач.

Читать дальше →

+31

PatientZero 20 июн 2024 в 09:18

Ужасы работы с Интернетом в Антарктиде (и как это исправить), часть 2

Простой

7 мин

8.4K

Клиентская оптимизация*Серверная оптимизация*Интерфейсы*

Обзор

Перевод

Часть 1

В этой части я приведу ещё несколько примеров того, как нам мешает скачивание обновлений внутри приложений.

Пример 1: обновления macOS

Ни для кого не секрет, что обновления macOS огромны. Иногда это раздражает даже дома, но на Южном полюсе ситуация гораздо хуже.

Размер патча минорного обновления macOS обычно имеет размер от 0,5 до 1,5 гигабайтов. Патчи с крупными обновлениями иногда занимают до шести с лишним гигабайтов. Дополнительные инструменты, например Xcode, часто весят несколько гигабайтов.

+40

PatientZero 6 мар 2024 в 18:53

Челлендж по обработке миллиарда строк на Go: от 1 минуты 45 секунд до 4 секунд

Средний

14 мин

26K

Клиентская оптимизация*Проектирование и рефакторинг*Алгоритмы*Go*

Кейс

Перевод

Пару недель назад я прочитал о запавшем мне в душу челлендже по обработке миллиарда строк, поэтому захотел решить его на Go.

Я немного опоздал, соревнования проводились в январе. И на Java. Меня не особо интересует Java, зато давно интересует оптимизация кода на Go.

Этот челлендж был очень прост: обработать текстовый файл названий метеорологических станций и температур, и для каждой станции вывести минимальное, среднее и максимальное значение. Чтобы упростить задачу, было ещё несколько ограничений, однако я проигнорировал те, что относятся только к Java.

+62

Sivchenko_translate 5 фев 2024 в 13:50

Как мы уложили компьютерный мультик в 8 кБ

16 мин

14K

Программирование*Высоконагруженные системы*Компьютерная анимация*Клиентская оптимизация*

Перевод

В ноябре 2022 года мы задали себе задачку: можно ли запрограммировать анимацию, воспроизводимую в режиме реального времени как обычный короткий мультик, но с условием, что файл должен быть не больше 8 килобайт. При этом цель считалась бы достигнутой, если бы у нас получилась нормальная графика, анимация, режиссёрская и операторская работа, а ещё подходящая музыка. Да, 8 килобайт — на секундочку, в два с лишним раза меньше этого поста. Мы не представляли, насколько это вообще возможно, так что оставалось только попробовать.

В апреле 2023 года, спустя несколько месяцев работы, мы, наконец, выкатили ленту Барашек и цветок. Можете сами скачать его или проследить на YouTube ход выполнения программы.

Нас многие спрашивали, как нам удалось создать нечто подобное. В статье будут объяснены технические детали и те ограничения, которые пришлось учитывать при проектировании перед выводом этого проекта в продакшен. Кроме того, мы выложили весь исходный код на GitHub.

+87

2 3 ...

10 11

Клиентская оптимизация *

Ускоряем работу видеодекодера rav1d на 1%

Новости

Оптимизация производительности кода — это тяжёлый труд

Трамплин в интернет: как мы ускорили запуск Яндекс Браузера

14 интересных фич Python (возможно, не совсем pythonic)

Уменьшаем размер двоичного файла на C# в 90 раз

В чём причина высокой скорости fastDOOM

Как уместить поиск по 30 тысячам слов в 64 КБ ОЗУ

Могут ли LLM писать более качественный код, если их об этом просто попросить?

Порталы: как устроен расчёт видимости в Quake, часть 2

Performance и оптимизация TypeScript-типов в больших проектах

Деление беззнаковых 8-битных чисел

Я прождал 10 миллиардов тактов и дождался лишь экрана загрузки

strlcpy, или как CPU противоречат здравому смыслу

Ближайшие события

Два потока, одно ядро: как устроена одновременная многопоточность

Factorio: оптимизации 2.0

▍ Оптимизация роботов (автор: Rseding)

Насколько быстр Javascript? Симулируем 20 миллионов частиц

Профайлер памяти. Зачем он нужен и как использовать

Ужасы работы с Интернетом в Антарктиде (и как это исправить), часть 2

Челлендж по обработке миллиарда строк на Go: от 1 минуты 45 секунд до 4 секунд

Как мы уложили компьютерный мультик в 8 кБ

Вклад авторов