Articles / Bookmarks / Profile of thethee / Habr

Владимир @thethee

User

Profile Publications Comments 8Bookmarks 152

developerxyz Aug 25 at 16:49

Как я ускорила парсинг строк в serde_json на 20%

Medium

13 min

9.7K

Open source*Algorithms*Server optimization*Rust*

Translation

Недавно я писала код, завязанный на производительность, и поняла, что рассказы про мой опыт могут быть захватывающим чтивом. Учить как думать так же важно, как и учить писать код, но делают так редко, и мне кажется, что то, на что я угрохала последний месяц — отличная возможность заглянуть за кулисы.

serde — основной фреймворк для сериализации и десериализации в Rust. Его используют как крейт по умолчанию во всей экосистеме. serde_json — это официальный serde-миксин для JSON, так что каждый раз, когда нужно что-то парсить, люди обращаются именно к нему. Конечно, есть и другие библиотеки, специализующиеся на парсинге JSON, например simd-json, но популярность у них, мягко говоря, удручающая. serde_json значительно популярнее: на момент написания от него зависят аж целых 26916 крейта, а от simd-json — всего 66.

Это делает serde_json хорошей мишенью ~~(не как у Jia Tan)~~ для оптимизаций. Велик шанс того, что многим из тысяч пользователей переход на simd-json позволил бы добиться ускорения, но, пока они этого не делают, более мелкие оптимизации — лучше, чем совсем ничего, и такие улучшения — глобальный выигрыш для экосистемы.

+59

vladkorotnev Aug 26 at 17:05

Скибиди-бипер — асинхронная полифоническая однобитная музыка на ESP32 без ЦАП

Medium

14 min

5.1K

Timeweb Cloud corporate blogProgramming microcontrollers*DemosceneSound

Case

В одной из своих предыдущих статей я заводил плазменный дисплей от старого японского автобуса. За кадром же он превратился в полочные часы-будильник — но так как это мне показалось скучным, то и про эволюцию их операционки на Хабре я особо распинаться не стал.

Однако же за это время PIS-OS прирос кучей всего, навроде поддержки ещё одного типа экранов, системы меню, а также и функцией будильника — посему понадобились и более мелодичные рингтоны, чем просто пиликание одним тоном.

В процессе выяснилось, что пьезоэлемент был припаян к той ноге МК, на которой ЦАП отсутствует. Впрочем, если бы я хотел будильник, который звучит как mp3 — просто пользовался бы мобильником, так что самое время вспоминать наследие демосцены и делать самый настоящий однобитный драйвер звука!

Пошумим же!

+74

itmo Aug 26 at 14:28

Как мы развиваем библиотеку для анализа данных с помощью байесовских сетей

7 min

2.1K

Open source*GitHub*Machine learning*ITMO corporate blogArtificial Intelligence

Наши коллеги из Центра «Сильный искусственный интеллект в промышленности» и Лаборатории композитного ИИ ИТМО разрабатывают открытый фреймворк для разностороннего анализа данных при помощи байесовских сетей. Он пригодится прикладным специалистам, которые сталкиваются с задачами анализа и нуждаются в интерпретируемости используемых моделей. В этой статье рассказываем об идее и о том, кто занимается ее реализацией.

MrsWallbreaker Aug 20 at 09:00

Poisoned Data — отравление данных для LLM и создание «Спящего Агента»

Easy

8 min

1.7K

Machine learning*Artificial IntelligenceNatural Language Processing*

Для борьбы с атаками на уязвимости LLM используются те же методы, что и для согласования моделей. Например, обучение с подкреплением на основе обратной связи от человека (RLHF) используется для производства полезных и безвредных LLM (HH=helpfull, harmless). А поставщиком большинства данных для обучения модели пока все еще является человек.

Что если саботер попадет в команду разметчиков данных для обучения LLM? Он может внедрить backdoor в модель и таким образом превратить модель в "спящего агента", который только и ждет триггерное слово на вход, чтобы начать наносит повсеместный вред.

Насколько сильно такой саботер может все поломать? Что конкретно он может наворотить в модели? Каких усилий от саботера это потребует?
Что если такому саботеру на самом деле не обязательно нужно быть внутри процесса обучения, иметь доступ к разметке данных и к процессу обновления весов, а отравить можно открытые данные?

khdavid Feb 19 2013 at 21:25

Фильтр Калмана

10 min

428K

Algorithms*Mathematics*

Tutorial

В интернете, в том числе и на хабре, можно найти много информации про фильтр Калмана. Но тяжело найти легкоперевариваемый вывод самих формул. Без вывода вся эта наука воспринимается как некое шаманство, формулы выглядят как безликий набор символов, а главное, многие простые утверждения, лежащие на поверхности теории, оказываются за пределами понимания. Целью этой статьи будет рассказать об этом фильтре на как можно более доступном языке.
Фильтр Калмана — это мощнейший инструмент фильтрации данных. Основной его принцип состоит в том, что при фильтрации используется информация о физике самого явления. Скажем, если вы фильтруете данные со спидометра машины, то инерционность машины дает вам право воспринимать слишком быстрые скачки скорости как ошибку измерения. Фильтр Калмана интересен тем, что в каком-то смысле, это самый лучший фильтр. Подробнее обсудим ниже, что конкретно означают слова «самый лучший». В конце статьи я покажу, что во многих случаях формулы можно до такой степени упростить, что от них почти ничего и не останется.

Читать дальше →

+168

Mi_sha256 Aug 21 at 22:00

Реквием по SCRUM: всё равно уже хайп прошёл

Medium

11 min

16K

Development Management*Project management*Product Management*ЕАЕ-Консалт corporate blog

Opinion

В мире победившего эджайла, SCRUM, как один из наиболее популярных фреймворков, казалось, имеет все шансы стать отраслевым стандартом. Однако в результате врождённых недостатков он стала чем-то средним между религией для занятых проектным управлением и воздухом для продажи эджайл-коучами. Более того, сегодня строгая приверженность принципам SCRUM нередко становится маркером профнепригодности для людей, которые имели неосторожность переродиться из полноценных проектных методологов и руководителей в фанатично зацикленных на ритуалах scrum-мастеров (речь не обо всех, но о об очень многих). В посте попытался обобщить все проблемы SCRUM, как "фреймворка" для проектного управления и создания продуктов.

+54

108

FirstJohn Aug 21 at 11:35

Теория игр может сделать ИИ более корректным и эффективным

Medium

8 min

2.6K

FirstVDS corporate blogMachine learning*Artificial Intelligence

Translation

Исследователи используют идеи теории игр, чтобы улучшить большие языковые модели и сделать их более последовательными.

Представьте, что у вас есть друг, который дает разные ответы на один и тот же вопрос в зависимости от того, как вы его задали. «Какая столица Перу?» получит один ответ, а «Лима — столица Перу?» — другой. Вы, вероятно, немного обеспокоены умственными способностями вашего друга, и вам почти наверняка будет трудно доверять его ответам.

Именно это и происходит со многими большими языковыми моделями (LLM), сверхмощными инструментами машинного обучения, которые поддерживают ChatGPT и другие чудеса искусственного интеллекта. Генеративный вопрос, который является открытым, дает один ответ, а дискриминативный вопрос, который подразумевает необходимость выбора между вариантами, часто дает другой. «Происходит разрыв, когда один и тот же вопрос формулируется по-разному», — сказал Атул Пол Джейкоб, докторант Массачусетского технологического института.

Avangardio Aug 22 at 00:55

Как построить мост между JavaScript и C++ через WASM, или гайд для самых маленьких

Easy

11 min

5.3K

JavaScript*C++*TypeScript*WebAssembly*

Tutorial

Всем привет. Сегодня я хочу рассказать об использовании WASM с C++ и разберу, как взаимодействовать с этим всем делом через JavaScript.

Материал предназначен для новичков в данной теме.

+16

amg_core Aug 22 at 12:13

Ваше лицо кажется знакомым: разведка, анализ и методы атак на ML в системах распознавания лиц

Medium

18 min

3.2K

Information Security*Image processing*Positive Technologies corporate blogMachine learning*Artificial Intelligence

Tutorial

Мы живем в мире, где системы распознавания лиц (далее — CРЛ) используются практически везде: от валидации возраста и биометрической идентификации в режиме онлайн до наблюдения и проведения оплаты в реальном мире. Технологические аспекты таких алгоритмов развиваются на наших глазах: начиная с простых систем, основанных на базовых алгоритмах, мы перешли к системам, использующим алгоритмы машинного обучения, однако и их развитие еще далеко от завершения.

В предыдущих исследованиях мы затронули биометрическую идентификацию, и эта работа является логичным продолжением погружения в системы распознавания лиц и эксплуатацию их недостатков.

Пораспознаем лица?

+18

Vadimyan Aug 16 at 16:00

Математика надёжности. Доклад Яндекса

Easy

18 min

11K

High performance*System Analysis and Design*Яндекс corporate blogAlgorithms*

Вадим Мартынов, руководитель команды платформы надёжности в Яндекс Go, в своём докладе рассказал, как влияют те или иные решения на надёжность системы и как это учитывать при разработке.

+84

flowing_abyss Aug 4 at 16:55

Управление личными делами в Obsidian (прототип)

Hard

27 min

18K

GTD*Studying in ITSoftwareBrain

Tutorial

В статье будет показан прототип системы дел, который реализован в Obsidian. Система в основном будет базироваться на идеях GTD.

Задачи будут создаваться в дневнике/журнале и агрегироваться в отдельных заметках с использованием плагина Tasks.

Система будет адаптирована для телефонов.

Статья написана для продвинутых юзеров Obsidian. Новичкам, конечно, с ней будет тяжеловато разобраться.

Задачи и Obsidian? Звучит интересно!

+11

flowing_abyss Aug 22 at 12:35

Поверхностный обзор источников по Obsidian

Easy

12 min

13K

Studying in ITSoftware

Opinion

Прочитал и посмотрел почти все статьи и видео по Obsidian, которые вышли недавно (в среднем не более 1-2 ух месяцев назад). Дал каждому источнику субъективную оценку и написал короткий комментарий.

Окунуться в субъективный взгляд автора

+18

habr_career Aug 21 at 16:22

Джуны в IT: зарплаты в компаниях, вакансии и отклики

3 min

47K

Хабр Карьера corporate blogPersonnel Management*IT career

Мы на Хабр Карьере помогаем IT-специалистам зарабатывать больше, а компаниям — быть в курсе трендов на рынке найма. Собрали новое исследование зарплат, на этот раз изучили зарплатные возможности для тех, кто только начинает свой путь в IT — стажеров и джунов. Ниже про цифры, конкуренцию и компании.

п.с. Если вы стажер или джун в поиске работы, то недавно мы писали, какую зарплату просить начинающему IT-специалисту на собеседовании. А если вам просто интересно узнать оклады, которые сейчас предлагает IT-рынок — сразу заглядывайте в зарплатный калькулятор.

+35

myops Aug 16 at 13:11

Что не так с ИИ-картинками

24 min

20K

Альфа-Банк corporate blogDesignArtificial Intelligence

Opinion

«Китайский мудрец, сидя на берегу реки, сетует на расплодившиеся вокруг технологии», — такой текст я вбила в какую-то из многочисленных нейросетей, генерирующих картинки. Судя по всему, вместо расплодившихся вокруг технологий китайский мудрец случайно получил расплодившиеся ноги.

ИИ, с ним такое бывает.

+53

Ukrainskiy Aug 16 at 10:00

Головоломка «Сапёр» на Python в 66 строк и ее решение вероятностным алгоритмом

Easy

13 min

8.3K

Python*Programming*Algorithms*Logic games

Tutorial

Идея написать данную статью пришла после прочтения статьи Реализация сапёра в 100 строках чистого Ruby. Во-первых, мне показалось, что 100 строк кода многовато для такой простой по механике игры. Я бы мог написать более компактное решение на чистом С. Во-вторых, реализация не совсем корректна: в оригинальной игре нельзя проиграть первым ходом, более того, первая открытая ячейка не должна иметь в соседних ячейках мину.

Помимо реализации самой головоломки, было бы интересно написать алгоритм, который её решает. Для этого создадим вероятностный алгоритм, который хорошо с этим справляется.

+12

PatientZero Aug 15 at 14:02

Лучше 170 раз услышать: как GPT-4o кодирует изображения?

Medium

15 min

6.8K

Image processing*Machine learning*Artificial Intelligence

Review

Translation

Интересный факт: GPT-4o взимает по 170 токенов за обработку каждого тайла 512x512 , используемого в режиме высокого разрешения. При соотношении примерно 0,75 токенов на слово можно предположить, что картинка стоит примерно 227 слов, что всего в четыре раза меньше, чем в поговорке «картинка стоит тысячи слов».

(Кроме того, взимается 85 токенов за master thumbnail низкого разрешения каждого изображения, а изображения более высокого разрешения разбиваются на множество таких тайлов 512x512, но давайте ограничимся одним тайлом высокого разрешения.)

Но почему же 170? Необычное число, неправда ли? В своих ценах OpenAI указывает округлённые числа, например, $20 или $0,50, а в своих внутренних размерностях — степени двойки и тройки. Почему же в этом случае выбрано число 170?

Числа, которые без объяснений вставляют в кодовую базу, называют в программировании «магическими числами», и 170 кажется очевидным магическим числом.

И почему затраты на изображения вообще преобразуются в стоимость в токенах? Если бы это нужно было только для определения цены, то разве не удобнее было бы просто указать цену за тайл?

Что если OpenAI выбрала 170 не в рамках своей запутанной стратегии ценообразования, а потому что это в буквальном смысле так? Что если тайлы изображений действительно представлены в виде 170 последовательных векторов эмбеддингов? А если это так, то как реализовано?

+19

KukarekusUltra Aug 14 at 12:16

Вычисляем миллиардное число Фибоначчи менее чем за 7 секунд

3 min

22K

Programming*Delirium codingAlgorithms*Mathematics*

From sandbox

Мы будем считать 1000,000,000 число Фибоначчи со всеми цифрами. Для этого я буду использовать продвинутый алгоритм для поиска чисел Фибоначчи. Тут не будет базовых алгоритмов на подобии матричного возведения в степень и проще. Но эта статья будет понятна и школьнику :-)

+135

Cutcode Aug 14 at 15:41

Плохой тайм-менеджмент — официальный спонсор твоих выгораний

Easy

7 min

41K

GTD*IT career

Opinion

Как всё успевать и не выгореть в хаосе задач? Я прошел путь от работы по найму, где моё время организовывали за меня, до самостоятельного управления множеством проектов. В этой статье я делюсь личными секретами тайм-менеджмента, которые помогают мне оставаться продуктивным и не терять мотивацию.

Прочитайте, если хотите узнать, как справляться с многозадачностью и находить баланс между работой и отдыхом.

+54

semyon_zdrg Aug 5 at 15:02

Алгоритмы — самый провальный этап собеседований

Easy

7 min

32K

Algorithms*Interview

From sandbox

Уже много лет IT компании проводят алгоритмические собеседования при найме технических специалистов. Подход введенный в FAANG плавно перетек в большинство крупных компаний. Яндекс, Авито, Т-Банк и многие другие хотят проверить алгоритмические знания кандидатов. Но на практике такое собеседование оказывается бесполезным созвоном на 45 минут, который ничего не говорит о кандидате.

В интернете можно найти тысячи статей о том как решать алгоритмы. Куча теоретических видео про оценку скорости и затраты на память для разных структур данных. Еще больше ресурсов про то, как алгоритмы делают вас сильнее, круче и привлекательнее для работодателя.

Но очень мало можно встретить критики и конкретного разбора проблем алгоритмических собеседований и их внедрения в воронку найма. Эта статья будет первой в цикле “в чем проблема алгоритмов”.

Кто-то может сказать: “О, человека не приняли в компанию из-за алгоритмов и он решил обидеться и сказать всем, что алгоритмы бесполезны”. Отчасти это так и было, но я решил не останавливаться на своем чувстве несправедливости и пошел дальше: адаптировал алгоритмы в компании, прошел все этапы в Google и даже решал алгоритмы на протяжении года.

Все это помогло мне понять, что многие двигаются не туда, когда решают спрашивать деревья и графы на своих интервью.

Но все это отдельными статьями, ссылки на которые я приложу сюда позже.

Сейчас я просто хочу рассказать свою историю.

+59

AndreyMoskalew Aug 13 at 14:01

Flax Engine. Знакомство с игровым движком и анализ его исходного кода

Easy

10 min

5.1K

Programming*C++*Debugging*C#*PVS-Studio corporate blog

Review

"Как будто у Unreal и Unity родился ребёнок" — такое трогательное описание дали этому движку в GameDev-сообществе. Эта фраза не только мило звучит, но и точно передаёт его суть, ведь движок действительно задумывался как нечто среднее между Unity Engine и Unreal Engine.

+18

3 4 ...

7 8