Статьи / Закладки / Профиль chemtech / Хабр

Пацев Антон@chemtech

DevOps-инженер

ПрофильСтатьи185ПостыНовостиКомментарии734

@Mitochondria 12 ноя в 08:00

Kafka для начинающих: гарантии доставки на практике и настройка идемпотентности

Средний

14 мин

9.4K

Apache * Микросервисы * Java *

Туториал

Почему exactly-once — это миф? Как защититься от дубликатов в распределённых системах?
Продолжаем работу с Kafka на практике и рассматриваем более интересные темы.

Простым языком и с примерами кода о непростых концепциях и паттернах.

@PatientZero 3 ноя в 06:53

Как мы освободили 7 ТиБ памяти

Средний

5 мин

13K

Серверная оптимизация * Виртуализация * Kubernetes *

Перевод

Многие команды работают с кластерами Kubernetes побольше нашего. В них больше узлов, больше подов, больше ingress и так далее. По большинству размерностей нас кто-нибудь, да побеждает.

Но есть одна размерность, по которой, как мы подозреваем, мы почти на вершине: это пространства имён. Я думаю так, потому что мы постоянно сталкиваемся со странным поведением во всех процессах, которые их отслеживают. В частности, все процессы, выполняющие их listwatch, занимают на удивление много памяти и подвергают apiserver серьёзной нагрузке. Это стало одной из сложностей масштабирования, которую замечаешь, только достигая определённого порога. При увеличении оверхеда памяти эффективность снижается: каждый байт, который нам нужно использовать для управления — это байт, отнятый у пользовательских сервисов.

Проблема сильно усугубляется, когда daemonset должен выполнять listwatch пространств имён или сетевых политик (netpol), которые мы определяем для каждого пространства имён. Так как daemonset запускают под в каждом узле, каждый из этих подов выполняет listwatch одних и тех же ресурсов, из-за чего объём используемой памяти увеличивается при росте количества узлов.

Хуже того — эти вызовы listwatch серьёзно нагружали apiserver. Если одновременно перезапускалось множество подов daemonset, например, при развёртывании, то они могли перегрузить сервер запросами и вызвать реальный вылет.

+24

@Andrey172 1 ноя в 06:13

Как я уменьшил Docker-образ Go-приложения с 1.92 GB до 9 MB

6 мин

32K

DevOps * Go * Системное администрирование *

Из песочницы

Первый Docker-образ для моего Go-приложения весил 1.92 GB. Для микросервиса на 100 строк — абсурдно. Решил разобраться, куда именно уходит место и как добиться максимально лёгкого образа.

+81

@Shannon 1 ноя в 10:58

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

10 мин

30K

Искусственный интеллект

Всё больше выходит больших MoE моделей с малым числом активных параметров. У MoE совсем другой сценарий нагрузки и использования ресурсов нежели у Dense моделей, достаточно немного VRAM. Большие MoE модели устроит 1 GPU и много обычной RAM. О том, как устроены MoE и как ускорить работу одним параметром не меняя железо.

+95

@ZaMaZaN4iK 15 фев 2023 в 14:51

Vector: руководство по уходу за граблями

14 мин

30K

Системное администрирование *

Из песочницы

Казалось бы простая задача - переместить логи из пункта А в пункт Б, что тут сложного. Но даже для такой пустяковой задачи придумали множество ПО: как более популярных Rsyslog, Logstash, fluentd, fluentbit, так и менее известных как file.d, недавно принудительно-опенсорснутая Пилорама (спасибо, Яндекс!).

Сегодня хотелось бы поговорить про ещё один из сего семейства - Vector. Так получилось, что в последнее время я достаточно плотно имел с ним дело с разных сторон и собрал хорошую коллекцию "граблей" на любой вкус и цвет. "Перекладывалка" точно интересная, определённо достойная рассмотрения, но имеющая множество, кхм, особенностей. Вот про эти аккуратно разложенные особенности и как с ними жить я и хочу рассказать.

Разбежаться и прыгнуть

+18

@Alex_Anderson 28 окт в 12:31

BuildKit в Kubernetes: мануал по быстрой и автомасштабируемой сборке проектов

Средний

16 мин

7.8K

Блог компании KTSDevOps * Kubernetes *

Туториал

Всем привет! Я Алексей Босенко, DevOps-инженер в компании KTS. В этой статье я покажу, как комплексно настроить быструю и эффективную сборку проектов в Kubernetes с использованием BuildKit, которая учитывает не только производительность, но и стоимость ресурсов.

Под этой громкой фразой я подразумеваю целый комплекс решений: как создать и настроить экономичный кластер Kubernetes для сборок (ведь цена вопроса всегда важна), как настроить GitLab Runners и как сделать эффективное масштабирование сборок. Особый акцент будет на том, почему мы выбрали BuildKit, какие варианты использования он предлагает, и как непосредственно настроить один из них.

Будет много подробностей о том, почему мы принимали эти решения и как внедряли их у себя, так что статью можно использовать в качестве Production-ready-мануала.

+16

@slivka_83 24 окт в 17:03

Краткий обзор 10 локальных UI для LLM

4 мин

16K

Машинное обучение * Natural Language Processing * Искусственный интеллектData Mining *

Обзор

На просторах интернета можно найти множество интерфейсов для LLM. Все они довольно разношерстные и обладают разным функционалом: от простых чатов до почти энтерпрайз-приложений.

Я установил и опробовал 10 них (на самом деле больше, но нормальных только 10 :) В этой статье найдете их краткий обзор.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

+12

@dmitrifriend 18 окт в 09:07

Как подключить к LibreChat RAG-систему, чтобы загружать .pdf, .docx, .xlsx и .pptx

Простой

13 мин

12K

Блог компании BotHubИскусственный интеллектDIY или Сделай самСофтБазы данных *

Туториал

Помню тот момент, когда я в очередной раз пытался вытащить конкретную спецификацию из стопки PDF‑отчетов. «Вот бы ИИ мог сам в этом покопаться», — подумал я. Это чувство знакомо многим, кто работает с большими массивами текстовой информации.

Тогда я и решил, что хватит это терпеть. Последующий день превратился в марафон по установке и настройке RAG (генерация с дополнением извлеченной информацией). Это был путь проб и ошибок, который в итоге увенчался успехом. И теперь я хочу поделиться этим опытом с вами.

В этом материале мы:
• Пошагово установим rag_api в уже развёрнутый LibreChat;
• Воспользуемся Python 3.12, PostgreSQL 17;
• В командной строке соберём PostgreSQL‑аддон pg_vector через x64 Native Tools Command Prompt for VS 2022;
• Протестируем RAG‑систему 20 вопросами к вымышленной документации, сгенерированной в Gemini 2.5 Pro;
• Узнаем, во сколько раз медленнее запускать через CPU, чем через GPU.

+15

@lexband 16 окт в 08:47

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

Простой

8 мин

4.5K

Системное администрирование * DevOps * Микросервисы * Высоконагруженные системы *

Из песочницы

Uptrace v2.0 использует новый JSON-тип ClickHouse для хранения observability-данных. Результат: запросы по трейсам ускорились в 10 раз.

Делюсь практическим опытом внедрения: установка за 5 минут через Docker, настройка data transformations для обработки данных на лету, гибкие retention policies для экономии на хранении.

В статье:

Пошаговая инструкция от установки до production

Примеры кода на Node.js с OpenTelemetry

Кейсы настройки: снижение cardinality URL, парсинг данных, удаление PII

Чеклист для продакшена

Подходит для микросервисных архитектур на 5+ сервисов, где нужна скорость поиска по атрибутам трейсов.

Читать про 10x ускорение

@Magvai69 8 окт в 05:54

Все лгут: почему не стоит слепо доверять данным в Prometheus и что важно учитывать при их интерпретации

Средний

15 мин

6.9K

Блог компании ФлантDevOps * Системное администрирование * IT-инфраструктура *

Туториал

Мы все пользуемся системами мониторинга. Но сами по себе метрики не приносят пользы — куда важнее то, как мы их интерпретируем. А для верной интерпретации нужно понимать особенности отображения данных, которые не всегда очевидны.

Де-факто стандартом мониторинга стал Prometheus. В статье мы разберёмся, всегда ли можно доверять информации, которую он предоставляет. Посмотрим, в каких случаях его данные не соответствуют реальности, и погрузимся в тонкости работы Lookback-delta, оконных функций и Federation API. В итоге вы глубже поймёте внутреннее устройство Prometheus и других систем мониторинга на базе TSDB и сможете корректно интерпретировать данные с учётом их особенностей.

+30

@randall 28 сен в 14:37

Полезный проект — ещё полдела: инструменты для оформления README и документации

Простой

4 мин

11K

Блог компании MWSБлог компании МТСПодготовка технической документации * Программирование * Open source *

Обзор

База знаний помогает пользователям быстро понять, какие возможности есть у облачных сервисов — так же, как качественный README объясняет назначение open source‑проекта.

В этом материале мы собрали несколько интересных бесплатных инструментов для подготовки README.

+27

@beeline_cloud 27 сен в 12:21

GitOps для начинающих: от открытых материалов для чтения с примерами — к open source-инструментам по теме

6 мин

9.9K

Блог компании Beeline CloudУчебный процесс в ITIT-инфраструктура * Open source * DevOps *

Обзор

GitOps — широко известен и востребован, поэтому по теме регулярно появляются новые материалы для начинающих, а также специализированные инструменты. Мы в Beeline Cloud подобрали примечательные вводные статьи, гайды и open source-решения, которые интересно изучить и потестировать: от управления DNS-зонами и секретами до GitOps-инструментов от энтузиастов и крупных фирм-разработчиков.

@smirnoff_ai 29 авг в 08:15

Умный вайб-кодинг или семь раз отмерь, один раз сгенерь

Простой

10 мин

26K

Искусственный интеллектАнализ и проектирование систем * Будущее здесьТекстовые редакторы и IDE * Data Engineering *

Из песочницы

Помните старую поговорку про семь раз отмерь? В мире AI-кодинга она обрела новый смысл.

Сегодня расскажу о практике AI-Driven разработки (AIDD), которую мы у себя в команде ежедневно применяем для разработки ИИ-решений. Она успешно зарекомендовала себя в различных проектах и задачах — будь то стартапы или легаси, приложения на Python, Java или даже 1C.

Разбирать методику будем в AI редакторе Cursor, но повторить ее вы сможете в любом кодовом ассистенте. Поехали...

+59

100

@TrueTechArch 22 сен в 12:00

Arch Kata: игра-тренажер для тех, кто хочет проверить свое архитектурное мышление

6 мин

8.2K

Блог компании МТСАнализ и проектирование систем * Проектирование и рефакторинг * Управление разработкой * Хакатоны

Архитектура — основа любого IT-продукта. Для ее создания нужно видеть систему целиком, понимать требования бизнеса и учитывать бюджет. Но вот проблема: научиться думать как архитектор непросто. Нужно держать в голове десятки взаимосвязей и находить решения, которые будут жить годами.

Меня зовут Арина Николаева, я занимаюсь развитием архитектурного сообщества в MWS. Вместе с коллегами мы придумали Arch Kata — игру, которая позволяет попробовать свои силы: участники должны решить сложный бизнес-кейс, а наши эксперты оценят проект и объяснят, что в нем хорошо или не очень.

Сегодня расскажу, откуда взялась Arch Kata, чем она отличается от привычного хакатона, как проходит и почему в ней стоит участвовать не только архитекторам, но и разработчикам, аналитикам и менеджерам. А в конце покажу пример, который мы давали участникам последней игры.

+25

@Heruvimka 16 сен в 09:00

Трейсинг в hh.ru: как мы выросли от 1 тысячи до 1 миллиона событий в секунду без семплирования

12 мин

5.3K

Блог компании Конференции Олега Бунина (Онтико)Блог компании hh.ruDevOps * Java *

В каждой компании есть необходимость выстроить систему observability. В hh.ru мы перестраивали архитектуру под большее количество данных несколько раз — сейчас имеем на входе 24к RPS, 1 миллион спанов в секунду, 5к инстансов сервисов. Если вы — инженер, который находится в процессе построения или перестройки собственной системы трейсинга, этот доклад — для вас.

Привет, Хабр! Я — Александр Казанцев, уже более десяти лет в разработке. Когда-то был инженером на пивзаводе и могу рассказать, из чего делают пенное; но сегодня — о другом.

+12

@Anna_sokol22 15 сен 2022 в 07:18

5 типичных ошибок при использовании Apache Kafka

10 мин

38K

Блог компании СлёрмСистемное администрирование * Apache * DevOps *

Даже если у вас большой опыт работы с Apache Kafka, время от времени наверняка случается зайти в тупик. Например, когда вы конфигурируете и изучаете клиенты или настраиваете и отслеживаете брокеры. Попробуй за всем уследить, когда в конвейере Kafka столько компонентов. В этой статье описано пять частых ошибок и советы по тому, как их избежать на всех этапах — от конфигурирования клиентов и брокеров до планирования и мониторинга. Эти рекомендации сэкономят вам время и силы.

+35

@infracoder 12 сен в 10:38

Как мы вшили нагрузочное тестирование в CI/CD, чтобы не хоронить фичи в проде глубокой ночью

3 мин

9.2K

DevOps * Управление разработкой * Системное администрирование * JavaScript * Программирование *

Привет Хабр! Я Дима, DevOps-инженер в IT-компании.

Эпик-фейлы бывают разные. Можно забыть закоммитить config.json. А можно так упаковать новый эндпоинт, что всё апи ляжет костьми в час-пик и будет тихо плакать под лавиной реквестов. Ручные нагрузочные тесты — это как проверять тормоза на уже летящем с горы автомобиле. Сегодня говорим о том, как автоматизировать эту магию — вшивать проверку производительности прямо в CI/CD, чтобы не краснеть перед продом и спокойно спать по ночам.

Запускайте свои пайплайны, щупальцы в руки — погнали!

@mkv_rinat 9 сен в 08:05

Canary-деплой в Kubernetes с использованием Argo Rollouts и Istio

Средний

12 мин

7.6K

Блог компании ФлантDevOps * Kubernetes * IT-инфраструктура *

Туториал

Мы не раз разбирали в своём блоге теорию и практику по разным стратегиям развёртывания новой версии приложения в Kubernetes. Сегодня рассмотрим ещё одну реализацию канареечного деплоя: с пассивными healthcheck и использованием Argo Rollouts и Istio. Этот вариант подойдёт, если к вашему приложению обращаются не через Ingress, а ходят внутри кластера по адресу service. Или если вы хотите видеть, что происходит с пользовательским трафиком на каждом из этапов обновления.

+31

@beget_com 3 сен в 07:05

10 любопытных картографических сервисов для тех, кто не поехал в отпуск

4 мин

12K

Блог компании BegetГеоинформационные сервисы * Веб-аналитика * Визуализация данных * Научно-популярное

Дайджест

Июль‑август традиционно считаются периодом отпусков. Но если отдельные отрасли могут себе позволить временно сбавлять темп, то хостинг (особенно, надежный) требует работы постоянно. Поэтому часть наших коллег, не любящих жару и физическую многолюдность, летом путешествуют виртуально.

Сегодня мы бы хотели поделиться десятком любопытных картографических сервисов, позволяющих открыть что‑то новое в окружающем мире. В нашей подборке: карты плотности населения и наложенные на существующие карты тысячелетней давности; поиск знаменитостей по географии и наложение статей Wiki на города; карты контроля территорий городскими бандами и даже способ написать свое имя природными объектами. Небольшая ремарка — большую часть карт лучше рассматривать на экране десктопа или ноутбука (и желательно с диагональю побольше), так как мобильные браузеры могут плохо справляться с визуализацией.

Раскручиваем глобус

+36

@rearranged 28 авг в 09:31

Как работает DNS в Linux. Часть 3: Разбираемся с resolv.conf, systemd-resolved, NetworkManager и другими

Средний

15 мин

20K

Блог компании К2ТехОблачные сервисы * Серверное администрирование * DNS * Linux *

Туториал

Теоретическую основу кэширования DNS в Linux мы разбирали в первой части, где говорили про работу процесса разрешения имен — от вызова getaddrinfo() до получения IP-адреса. Вторая часть была посвящена различным уровням кэшей самой системы, приложений и языков программирования, контейнеров, прокси - а также их мониторингу и сбросу. Теперь самое время перейти к практике.

Если вы когда-либо запускали подряд команды ping, curl, dig и получали разные IP-адреса, вы не одиноки. Поведение DNS в Linux — не просто вызов getaddrinfo(). Это взаимодействие множества слоёв: от glibc и NSS до NetworkManager, systemd-resolved, dnsmasq и облачных конфигураций. В этой части разберем практические аспекты DNS:

почему одинаковые запросы дают разные IP

как реально контролируется разрешение имен: что вызывает кого и зачем

как проводить диагностику: strace, resolvectl, tcpdump

+87

2 3 ...

16 17

Kafka для начинающих: гарантии доставки на практике и настройка идемпотентности

Как мы освободили 7 ТиБ памяти

Как я уменьшил Docker-образ Go-приложения с 1.92 GB до 9 MB

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Vector: руководство по уходу за граблями

BuildKit в Kubernetes: мануал по быстрой и автомасштабируемой сборке проектов

Краткий обзор 10 локальных UI для LLM

Как подключить к LibreChat RAG-систему, чтобы загружать .pdf, .docx, .xlsx и .pptx

Uptrace v2.0: как новый JSON-тип ClickHouse ускорил запросы по трейсам в 10 раз

Все лгут: почему не стоит слепо доверять данным в Prometheus и что важно учитывать при их интерпретации

Полезный проект — ещё полдела: инструменты для оформления README и документации

GitOps для начинающих: от открытых материалов для чтения с примерами — к open source-инструментам по теме

Умный вайб-кодинг или семь раз отмерь, один раз сгенерь

Arch Kata: игра-тренажер для тех, кто хочет проверить свое архитектурное мышление

Трейсинг в hh.ru: как мы выросли от 1 тысячи до 1 миллиона событий в секунду без семплирования

5 типичных ошибок при использовании Apache Kafka

Как мы вшили нагрузочное тестирование в CI/CD, чтобы не хоронить фичи в проде глубокой ночью

Canary-деплой в Kubernetes с использованием Argo Rollouts и Istio

10 любопытных картографических сервисов для тех, кто не поехал в отпуск

Как работает DNS в Linux. Часть 3: Разбираемся с resolv.conf, systemd-resolved, NetworkManager и другими

Информация

Специализация