Articles / Bookmarks / Profile of andreypaa / Habr

Андрей @andreypaa

User

Profile Publications Comments 86Bookmarks 1.2K

respectpick Mar 2 2021 at 21:40

Читаем EXPLAIN на максималках

19 min

68K

MySQL*Server optimization*Database Administration*Ситимобил corporate blog

Technotext 2021

Многим, кто работает с MySQL, известно, что команда EXPLAIN используется для оптимизации запросов, получения информации об использованных и возможных индексах. Большинство разработчиков и администраторов СУБД этой информацией и ограничивается. Я же предлагаю изучить команду EXPLAIN максимально подробно.

+17

Propan671 Jun 19 at 17:52

FastStream — новый убийца Celery?

Easy

7 min

9.9K

High performance*Website development*Open source*Python*Microservices*

Review

FastStream - это относительно новая блестящая игрушка в руках Python'истов, которая создана специально для работы с брокерами сообщений.

В Python сложилось устойчивое убеждение, что если мы работаем с MQ - то нам нужен Celery, но он слегка устарел. Именно поэтому люди пытаются выкинуть "деда" и затащить вместо него любой новый многообещающий MQ-инструмент. Кроме того, культ Celery настолько силен в умах, что практически все новые библиотеки для работы с MQ пытаются стать его "убийцей" и заменой.

Однако, это не совсем верно. Существует огромный пласт проектов, которым нужен не фреймворк для менеджмента задач, а просто "голый" функционал Kafka/RabbitMQ/NATS/whatever для межсервисного взаимодействия. И все эти проекты вынуждены довольствоваться "сырыми" python-клиентами к своим брокерам, а всю обвязку вокруг этих клиентов писать самостоятельно. FastStream целится как раз в эту нишу.

В рамках статьи я хочу убедить вас, что не Celery мы едины, и для альтернативных инструментов найдется место под солнцем. А также рассмотрим фичи FastStream, которые он привносит в застоявшийся мир MQ-инструментов.

+28

vital_pavlenko Jun 12 at 14:48

Полный гайд по CSS Flexbox с примерами из практики

Easy

10 min

10K

Website development*CSS*Programming*HTML*

Tutorial

Привет! Сегодня мы поговорим про flexbox в css. Это очень важная тема, в которой должен разбираться каждый фронтенд-разработчик или верстальщик. Я покажу вам как flexbox работает на реальных примерах. А в конце статьи покажу лайфхаки, которыми сам постоянно пользуюсь на работе.

+30

Vlad65536 Jun 9 at 00:39

Насколько хороши диапазонные типы и btree_gist индекс в PostgreSQL

Medium

6 min

2.3K

PostgreSQL*

Opinion

В PostgreSQL есть довольно интересный функционал - диапазонные типы данных (range). Они весьма удобны в использовании. Для индексирования этих типов данных существует GIST индекс. Однако на практике часто требуется сочетание BTREE индекса с GIST, что реализуется расширением btree_gist. Насколько эффективно удобство, предоставляемое диапазонными типами данных в сочетании с btree_gist мы и разберем в этой статье.

Для ЛЛ - с производительностью при использовании btree_gist будет плохо.

alex_golubev13 Oct 14 2022 at 12:08

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

11 min

11K

Python*Image processing*Machine learning*Natural Language Processing*Ozon Tech corporate blog

Technotext 2022

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

+42

aalexeev Sep 23 2016 at 16:23

Структуры данных для самых маленьких

22 min

340K

Website development*JavaScript*Algorithms*

Translation

James Kyle как-то раз взял и написал пост про структуры данных, добавив их реализацию на JavaScript. А я взял и перевёл.

Дисклеймер: в посте много ascii-графики. Не стоит его читать с мобильного устройства — вас разочарует форматирование текста.

Читать дальше →

+83

MaxRokatansky May 26 2020 at 15:40

Управление пакетами с помощью модулей Go: Прагматическое руководство

8 min

42K

Programming*Go*OTUS corporate blog

Translation

Всем привет. В преддверии старта курса «Разработчик Golang» подготовили для вас еще один интересный перевод.

Модули — это способ борьбы с зависимостями в Go. Изначально представленные в качестве эксперимента, модули предполагают вывести на поле в качестве нового стандарта для управления пакетами с версии 1.13.

Я нахожу эту тему достаточно необычной для новичков, пришедших с других языков, и поэтому я решил собрать здесь некоторые соображения и советы, чтобы помочь другим, таким же как я, получить представление об управлении пакетами в Go. Мы начнем с общего знакомства, а затем перейдем к менее очевидным аспектам, включая использование папки vendor, использование модулей с Docker в разработке, зависимости инструментов и т. д.

Если вы уже знакомы с модулями Go и знаете Wiki, как свои пять пальцев, эта статья, вероятно, не будет для вас очень полезной. Но для остальных, однако, она может сэкономить несколько часов проб и ошибок.

Так что если вам по пути, запрыгивайте и наслаждайтесь поездкой.

Читать дальше →

badcasedaily1 May 27 at 11:19

Три основных способа оптимизировать ваши запросы в PostgreSQL

5 min

14K

PostgreSQL*Programming*System Analysis and Design*SQL*OTUS corporate blog

Review

Привет, Хабр!

Представьте себе, вы приходите домой после долгого рабочего дня, и вас встречает пушистый котик. Вы знаете, что он ждет вас, чтобы вы рассказали ему о своих подвигах на работе. И вот, вы начинаете свой рассказ, а он, этот милый мурлыка, вдруг спрашивает: "А как там у тебя с оптимизацией запросов в PostgreSQL?"

Вы, конечно, удивлены: "Откуда у кота такие знания?" Но котик смотрит на вас с понимающим видом и говорит: "Ведь хороший запрос должен быть как прыжок кошки - быстрым, точным и грациозным..."

makeross May 26 at 15:14

Векторные БД vs Точность — часть 2

Easy

5 min

1.7K

Artificial IntelligenceNatural Language Processing*

Case

В первой части из тестов стало понятно, что в векторном поиске с терминами что-то не так. И точность достаточно низкая для корректной работы RAG (retrieval augmentation generation). Давайте попробуем гибридный поиск и посмотрим, что из этого получится.

PatientZero Feb 24 at 11:24

Как я пишу HTTP-сервисы спустя 13 лет работы с Go

Medium

18 min

26K

IT systems testing*Programming*Go*

Tutorial

Translation

Примерно шесть лет назад я написал пост о том, как пишу HTTP-сервисы на Go, и сегодня я снова хочу рассказать, как пишу HTTP-сервисы.

Тот пост оказался довольно популярным и вызвал обсуждения, повлиявшие на то, как я делаю это сегодня. И спустя годы ведения подкаста Go Time, обсуждения Go в X/Twitter и поддержки подобного кода я решил, что настало время обновить информацию.

(Если вы педант и скажете, что Go не совсем 13 лет, то я отвечу, что начал писать HTTP-сервисы на Go версии .r59.)

В этом посте рассматривается широкий спектр тем, связанных с созданием сервисов на Go

+37

ru_vds May 22 at 16:00

Сравнение алгоритмов ограничения частоты запросов

Medium

7 min

6.6K

Information Security*Algorithms*Network technologies*Server Administration*RUVDS.com corporate blog

Review

Translation

▍ Зачем ограничивать частоту?

Представьте чат в Twitch со множеством активных пользователей и одним спамером. Без ограничения частоты сообщений единственный спамер может запросто заполнить всю беседу сообщениями. При ограничении частоты у каждого пользователя появляется равная возможность участия.

Видео

Ограничитель частоты позволяет управлять частотой обрабатываемого вашим сервисом трафика, блокируя запросы, превосходящие заданное пороговое значение за период времени. И это полезно не только для борьбы со спамом в чатах. Например, ограничение частоты отправки формы логина позволяет защититься от брутфорс-атак, оставляя при этом пользователю право на ошибку.

Конечные точки API тоже часто ограничивают по частоте запросов, чтобы их ресурсы не монополизировал единственный пользователь. Представьте, что вам нужно, чтобы пользователи могли обращаться к затратной конечной точке не чаще ста раз в минуту. Это можно отслеживать при помощи счётчика, обнуляющегося каждую минуту. Все запросы после сотого в пределах этой минуты будут блокироваться. Это один из простейших алгоритмов ограничения частоты, называющийся fixed window limiter (ограничитель с фиксированным окном). Это распространённый способ управления трафиком к сервису.

Но не всегда всё так просто.

Когда начинается и заканчивается каждое одноминутное окно? Если я запущу поток запросов ближе к концу окна, смогу ли превысить лимит? Ёмкость окна восстанавливается по одному запросу за раз, или сразу на всё количество?

В этом посте мы рассмотрим три самых популярных алгоритма, чтобы ответить на каждый из этих вопросов.

Читать дальше →

+53

iMonin May 21 at 17:32

Принципы работы водоструйного эжектора с функцией вакуумного насоса на примере пожарного гидроэлеватора типа Г-600

22 min

3.6K

Entertaining tasksPopular sciencePhysicsTransportSystems engineering*

Характеристики водо-водяных струйных насосов и гидроэлеваторов. Принцип работы гидроэлеватора с функцией вакуумного насоса.

После публикации статьи про лабораторный «водоструйный вакуумный насос» возникла теоретическая основа для рассмотрения принципа работы и более широкой группы водо-водяных «струйных эжектирующих насосов».

Про вакуумные гидроструйные насосы (см. ссылку).

К этой группе водо-водяных струйных насосов относятся также и «элеваторы» для систем отопления.

При всей простоте конструкции водоструйных насосов есть некоторые отличия от вакуумных водоструйных насосов, затрудняющие анализ их работы.

Начнём с простейших водоструйных насосов.

Струйными насосами могут быть как водо-водяные, так и водо-газовые или газо-газовые насосы (см.рис.1.)

kucev May 21 at 15:58

Как организовать себе эргономичное рабочее место

9 min

8.3K

HealthRemote work

Translation

Ваше рабочее место не должно утомлять вас каждый день, но именно это делают неудобные стулья, захламлённые столы и плохое освещение, даже если вы этого не замечаете. Однако внеся изменения, вы можете улучшить свою рабочую среду и защититься от мучений, причиняемых вашим столом.

В этой статье мы расскажем всё, что необходимо знать о создании эргономичного стола и других способах улучшения рабочего пространства.

Читать дальше →

PatientZero May 20 at 11:00

Двоичный поиск против вероятностного

Easy

7 min

6.7K

Programming*Algorithms*Database Administration*

Review

Translation

Внутри Dolt, первой в мире базе данных SQL с полнофункциональными возможностями контроля версий, таится много интересной computer science. Недавно я писал о системе хранения Dolt, в ней есть очень тонкая особенность — применение вероятностного поиска на больших выборках 64-битных целых чисел.

В любом учебном плане по Computer Science есть курс алгоритмов. Моим был CS 102, и одним из пунктов, который объяснялся в нём досконально, было то, что поиск — это, по сути, задача O(log2(N)) при условии, если данные отсортированы. За свою карьеру я многократно встречался с этим в том или ином виде — если сортируешь информацию и сохраняешь её, то стоит ожидать, что для поиска потребуется время O(log2(N)). В общем случае мы соглашаемся на время поиска O(log2(N)), потому что оказывается, что можно перебрать большой объём данных с логарифмическим коэффициентом масштабирования. Эта система работает, потому что мы уже почти автоматически сортируем всё заранее.

Но что если мы добавим дополнительные ограничения на наши данные, которые позволят нам выполнять поиск за константное время?

Будет ли эта статья историей о необязательной оптимизации? Да, будет. В этом конкретном случае поиск будет занимать гораздо меньше времени, чем чтение с диска. Мы говорим о величинах менее чем 0,1% от суммарного времени. Будет ли эта статья историей о преждевременной оптимизации? Нет, не будет. Это бы подразумевало, что мы не осознаём, что время тратится не на то. Эта статья — история о заманчивости алгоритма константного времени.

+28

mynameco May 21 at 00:32

Delta-Rle-Huffman (DRH) Texture Format

8 min

3.9K

Abnormal programming*Algorithms*Image processing*C#*Data compression*

Всем привет! В этой статье я опишу алгоритм работы формата сжатия изображений без потерь. Сжатие использует известные методики, которые и дали ему название. Проект начинался с простых экспериментов, которые вышли из под контроля. Не смотря на то, что формат чаще сжимает лучше чем png, никакого практического применения этот формат не имеет, оставаясь чисто академическим.

Внимание! В статье много картинок.

Кому интересно, добро пожаловать под кат!

+53

Lexus08 Apr 25 at 22:34

Что внутри ноутбука Maibenben P625? Разборка модели на базе Core i5-12450H и 2.5К IPS экраном

Easy

4 min

6.1K

Laptops

Review

Рабочая офисная «лошадка» Maibenben P625 на платформе Intel Core i5-12450H. Так ли она хороша? Современный бизнес-ноутбук с приличным экраном, в металлическом корпусе и с увеличенной аккумуляторной батареей. Смотрим, что внутри и тестируем.

Читать дальше →

iMonin May 1 at 17:56

Вакуумные струйные насосы: устройства простые на вид, но таинственные по физике работы

21 min

13K

Струйные насосы-эжекторы

В статье про тепловые узлы домов уже рассматривался элеваторный узел как вариант использования водоструйного насоса с приводом от напора тепловых сетей.

Элеватор вовсе не уникальное устройство, а лишь одна из версий применения широко известного семейства «струйных насосов».

Такими струйными насосами могут быть как водо-водяные, так и водо-газовые, газо-водяные или газо-газовые насосы. (см.рис.1.)

+54

165

varanio Apr 23 at 15:41

Пишем поиск семантически похожих текстов (или товаров) за полчаса на Go и Postgres (pgVector)

5 min

8.1K

Website development*PostgreSQL*Programming*Go*Karuna corporate blog

Tutorial

Казалось бы, в посгресе и так есть неплохой полнотекстовый поиск (tsvector/tsquery), и вы из коробки можете проиндексировать ваши тексты, а потом поискать по ним. Но на самом деле это не совсем то, что нужно — такой поиск работает лишь по чётким совпадениям слов. Т.е. postgres не догадается, что "кошка гонится за мышью" — это довольно близко к "котёнок охотится на грызуна". Как же победить такую проблему?

TLDR:

Преобразовываем наши тексты в наборы чисел (векторы) при помощи API openAI.
Сохраняем векторы в базе с помощью pgvector.
Легко ищем близкие друг к другу векторы или ищем их по вектору-запросу.
Ускоряем индексами.

Читать дальше →

+24

dasafyev Apr 17 at 13:08

Как выбрать правильный сервер c подходящими для ваших нейросетей CPU/GPU

Easy

5 min

3.9K

HOSTKEY corporate blogBig Data*Video cardsData Engineering*TensorFlow*

С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.

Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.

Sivchenko_translate Apr 15 at 17:34

На пути к 1-разрядным моделям машинного обучения

8 min

4.3K

Programming*Mathematics*Machine learning*Natural Language Processing*

Translation

В последнее время активно разрабатываются технологии экстремально малоразрядного квантования, например, BitNet и 1.58 bit. Они пользуются большим интересом в сообществе машинного обучения. Основная идея данного подхода заключается в том, что перемножение матриц с квантованными весами можно реализовать и умножения, что потенциально полностью меняет правила игры применительно к скорости вычислений и эффективности больших моделей машинного обучения.

Эта статья написана в схожем ключе, но нас наиболее интересует, возможно ли напрямую квантовать предобученные модели при экстремальных настройках, в том числе, при двоичных весах (0 и 1). Уже имеющиеся работы нацелены на обучение моделей с нуля. Но в открытом доступе сейчас достаточно много отличных предобученных моделей, таких как Llama2. Более того, обучение с нуля — это ресурсозатратная задача в пересчёте как на вычисления, так и на данные, поэтому такие подходы не слишком доступны в свободном сообществе.

В этой статье мы подробно разберём крайне малоразрядное (2 и 1-разрядное) квантование предобученных моделей с применением HQQ+. HQQ+ — это адаптация HQQ (полуквадратичного квантования), в которой для повышения производительности используется адаптер с низкой размерностью. Наши результаты показывают, что при обучении лишь небольшой части весов в верхней части HQQ-квантованной модели (даже одноразрядной) качество вывода значительно возрастает, такая модель может даже превосходить небольшие модели полной точности.

Модели находятся на Hugging Face: 1-разрядная, 2-разрядная.

+19

2 3 ...

56 57