Все потоки

Базы данных *

Все об администрировании БД

193,85

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Legal-UP 1 час назад

Шаблоны документов из Интернета: добьют медицинскую организацию или реально помогут сэкономить на штрафах

Простой

5 мин

2.6K

ТелемедицинаИнформационная безопасность * ЗдоровьеБазы данных * Подготовка технической документации *

Обзор

«Хлебом не кормите – дайте разработать новые документы и внести правки в старые!»

Слова, которые за 10+ лет юридической практики я не слышала от бизнеса ни разу.

И крупная компания, и ИП воспринимают работу над документами как не самую приятную, но неотъемлемую часть ведения деятельности. Даже небольшая ошибка может привести к серьезной ответственности и колоссальным рискам. В статье рассказала, где взять шаблоны документов, за которые не будет стыдно перед Роскомнадзором, Минздравом и пациентами

Узнать, где скачать шаблоны документов

-4

Analytiq 2 часа назад

Как объединить данные Яндекс Метрики и CRM: от загрузки данных до дашборда в DataLens

Простой

6 мин

3.2K

SQL * Data Engineering * Анализ и проектирование систем * Визуализация данных * Базы данных *

Кейс

Всем привет!

На одном из проектов я настраивал дашборд в Yandex DataLens, который объединяет данные о трафике из Яндекс Метрики с данными о заказах из CRM и позволяет анализировать доход в разрезе источников трафика.

В этой статье расскажу, как был выстроен процесс обработки данных и к какому результату в итоге пришёл.

Читать далее

0

pileyan 5 часов назад

Доступность товара в «Магните»: от эвристик до CUSUM и GEE-тестов

Средний

13 мин

4.4K

Блог компании Magnit TechМашинное обучение * Big Data * Базы данных * Повышение конверсии *

Привет, Хабр! Меня зовут Ян Пиле, руковожу в MAGNIT TECH направлением развития алгоритмов доступности товаров. Задача моей команды: сделать так, чтобы в магазине, куда вы зашли за своим любимым майонезом, он с большей вероятностью оказался на полке. А если не оказался — чтобы сотруднику магазина как можно быстрее прилетело задание: «проверь, почему именно этой позиции сейчас нет, и, если возможно, верни её обратно».

Мы уже дважды писали про OSA (On-Shelf Availability — уровень доступности товара на полке). В статье «Как OSA превращает пустые полки в полные корзины?» рассказывали про продуктовый контекст: зачем эта история нужна бизнесу и почему «товар числится в системе» и «товар реально лежит на полке» — это два совершенно разных утверждения. А в статье «Когда 0 в продажах — аномалия? CUSUM для поиска проблем в ритейле» мы подробно разбирали один из рабочих алгоритмов команды. В этот раз я хочу пройтись по всему стеку детекции целиком — от самых простых правил до А/Б-тестов, в которых приходится бороться с зависимыми наблюдениями.

Читать далее

+11

jatitaeva 5 часов назад

Как мы строили MVP data lineage системы в ЮMoney

Средний

4 мин

3.9K

Блог компании ЮMoney.NET * Big Data * Data Engineering * Базы данных *

Кейс

Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других.

В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы.

Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.

Читать далее

0

SergeyKardapoltsev 10 часов назад

OpenSearch Dashboards и как веб‑интерфейс упрощает работу с кластером

15 мин

7.9K

Блог компании SelectelBig Data * Data Engineering * Визуализация данных * Базы данных *

Туториал

Мы уже рассказывали, что такое OpenSearch как сервис в Selectel и как легко и быстро начать им пользоваться. Если коротко — это managed-решение, где кластер развертывается за несколько минут, а все заботы берет на себя провайдер: обслуживает кластеры, настраивает СУБД, обеспечивает отказоустойчивость, беспокоится о бэкапах и масштабировании, предоставляет поддержку.

Но дальше возникает вопрос — как с этим кластером работать? Как настроить мониторинг, визуализировать данные и метрики, работать с бэкапами, управлять пользователями и доступами? Можно, конечно, отправлять curl-запросы к API. Можно подключать сторонние инструменты, вроде Grafana. Но есть способ проще и удобнее — OpenSearch Dashboards.

Привет, Хабр! Меня зовут Сергей Кардапольцев, я технический писатель в Selectel. В этой статье расскажу, как можно упростить работу с кластером OpenSearch с помощью OpenSearch Dashboards.

Читать далее →

+29

natalia_ostapenko вчера в 10:47

Эти три буквы никого не оставляют равнодушными

Простой

5 мин

6.5K

SQL * Базы данных * Карьера в IT-индустрииУчебный процесс в IT

Туториал

Разберем топ вопросов на знание SQL, которые чаще всего задают на собеседованиях. Я собрала в этот топ свой опыт и опыт коллег, которые недавно проходили собеседования.

Читать далее

-5

nickneustroev вчера в 08:05

Как создать базу данных на своём сервере с помощью Coolify

Простой

15 мин

5.7K

Блог компании Timeweb CloudХостингOpen source * Базы данных * Веб-разработка *

Туториал

Coolify это бесплатный инструмент, который позволяет легко запускать приложения на ваших серверах и управлять ими через визуальный интерфейс.

В прошлых статьях мы уже разобрались, как подготовить сервер, затем установить на нём Coolify и запустить простые приложения из GitHub.

А сегодня посмотрим, как с помощью Coolify создать базу данных на своем сервере и какие преимущества это даёт.

Читать далее

+11

leborchuk вчера в 06:00

Apache Cloudberry — преемник Greenplum?

Средний

9 мин

4.8K

Блог компании Yandex Cloud & Yandex InfrastructureБазы данных * Open source * Apache * PostgreSQL *

Мнение

Greenplum много лет был в опенсорсе на GitHub под лицензией Apache 2.0. Казалось бы, лицензия Apache 2.0, что может пойти не так? Осенью 2023 года репозиторий неожиданно перестал принимать наши пул‑реквесты. Все наши CLA отозвали, а новые не подтвердили без каких‑либо пояснений.

А в мае 2024-го репозиторий был закрыт. Да, к опенсорс‑проекту могут потерять интерес — и он окажется заброшен. Но здесь, по сути, присвоили наши пул‑реквесты, изменив лицензию у кода, который мы написали, просто потому, что «ничего личного, это бизнес». Обстоятельства менялись, и вот — новые правила использования БД. Твои опыт и достижения либо присваиваются корпорацией, либо обнуляются.

В этой статье попробую проанализировать, где вчерашние пользователи и контрибьюторы в Greenplum могут найти решения, у которых есть будущее.

Читать далее

+11

Oksana_Nedvigina 21 апр в 14:21

Коммерческая тайна и промышленный шпионаж: вспоминаем кражу кода у Google и другие знаковые американские кейсы

Простой

4 мин

7.7K

Блог компании Online patentИнформационная безопасность * Законодательство в ITБазы данных * Финансы в IT

Ретроспектива

В крупных корпорациях большинство инновационных разработок защищены даже не столько патентами, сколько внутренней документацией, относимой к категории «коммерческой тайны». Если сотрудник заберет для своих целей эти материалы и использует их, то его точно привлекут к ответственности. Примеров — масса. Вспоминаем самые громкие процессы.

Читать далее

+6

A1exMa 21 апр в 09:50

Распределенное KV-хранилище на базе etcd

Средний

6 мин

4.9K

IT-инфраструктура * Базы данных *

Обзор

Recovery Mode

Я постараюсь, не углубляясь в технические дебри, в научно-популярном ключе рассказать о распределенных KV-хранилищах: что это вообще такое, где применяется и почему мы выбрали именно etcd.

Читать далее

+1

Eustass 21 апр в 07:01

Minisystem: сервисный режим, который может пригодиться каждому, кто работает с СХД

Средний

15 мин

6.8K

Блог компании ГК ЛАНИТСистемное администрирование * Базы данных *

Туториал

Если вы администрируете системы хранения данных, наверняка сталкивались с ситуациями, когда стандартных средств Device Manager оказывается недостаточно. Может потребоваться более глубокая диагностика, сбор расширенных логов или подготовка компонента к замене. Именно для таких случаев предусмотрен режим Minisystem — специальная сервисная среда с расширенным набором команд. В этой статье в блоге ЛАНИТ мы собрали наиболее полезные из них.

Читать далее

+21

select_zvezdo4ka_from 20 апр в 06:44

ClickHouse не тормозит, но заставляет глаз дергаться. Materialized Views

Простой

4 мин

5.7K

Data Engineering * Big Data * Базы данных * Карьера в IT-индустрииУчебный процесс в IT

FAQ

Вы пришли из мира PostgreSQL, Oracle или MSSQL. Вы знаете: материализованное представление — это «замороженный» результат запроса. Удобно. Предсказуемо.

Вы открываете документацию ClickHouse. Видите знакомые слова. Радуетесь. Пишете свой первый MATERIALIZED VIEW. Запускаете. И... получаете не то, что ожидали.

Потому что в ClickHouse материализованные представления работают СОВСЕМ не так, как везде.

Читать далее

0

dashaalexandrova 19 апр в 17:15

Cказ о том, как мы с Oracle на PostgreSQL переехали

Средний

18 мин

13K

Java * PostgreSQL * Oracle * Базы данных * Программирование *

Из песочницы

Привет, Хабр! Меня зовут Даша Александрова, я Java‑разработчик. Хочу поделиться опытом миграции данных из Oracle в PostgreSQL без простоя сервисов.

Причина миграции — импортозамещение.

Теперь немного про сам проект. В его основе — микросервисная архитектура на Java 11/17 и Spring Boot 2/3. В качестве основной базы данных использовалась Oracle с несколькими схемами. В коде сочетаются нативные SQL‑запросы и Hibernate, вся бизнес‑логика живет на уровне приложения — без процедур, триггеров и другой логики в базе. Идентификаторы генерируются через sequence. Проект активно развивается, регулярно выпускаются релизы. Система ориентирована на клиентские приложения — мобильное и веб, при этом нагрузка остается умеренной и не относится к highload‑сценариям.

Ключевое нефункциональное требование — выполнить миграцию без простоя системы и без заметного влияния на пользователей.

Может возникнуть логичный вопрос: если такие миграции уже делались не раз, почему просто не взять готовое решение? На практике универсального подхода не существует.

Где‑то допустим простой на несколько часов, где‑то — нет. В одних системах хватает простого переноса, в других приходится использовать сложные стратегии вроде двойной записи. Многие статьи подробно разбирают инструменты, но их применение в конкретном проекте — это отдельная инженерная задача. К тому же у каждой системы есть свои ограничения и нюансы. Поэтому дальше я разберу конкретный кейс и те решения, которые были приняли по ходу миграции.

Читать далее

+20

OlegIct 19 апр в 13:02

Конфликты при закреплении блоков (BufferPin) в PostgreSQL

Сложный

13 мин

5.2K

PostgreSQL * Базы данных *

Обзор

Ожидания получения BufferPin включают в себя:

1) Конфликты BufferPin на репликах (recovery conflict). Процесс на реплике startup должен получить блокировку на буфер, чтобы проиграть (replay, apply, накатить журнальную запись) HOT cleanup блока, для этого startup должен дождаться pincount=0. Быстрая очистка (HOT cleanup) выполняется на мастере серверными процессами очень часто и процесс startup, если столкнется с блоком, закреплённым запросом на реплике, полностью приостановит накат и будет ждать снятия закреплений блока. Накатом занимается только один процесс startup и в один поток. Из-за частых ожиданий BufferPin отставание реплики растёт и кажется, что startup не справляется. Мониторинг таких ситуаций затруднён, так как в представлении pg_stat_database_conflicts отражаются только конфликты, которые привели к прерыванию запросов на реплике, то есть, когда startup приостанавливал работу более, чем на max_standby_streaming_delay (по умолчению, 30 секунд), а в pg_stat_activity поймать ожидание BufferPin, которое длится доли секунды, почти невозможно. Из-за таких конфликтов, компаниии выделяют одну реплику, которая не обслуживает запросы, чтобы она только синхронизировалась и не отставала от мастера. Например, OpenAI, помимо 50 реплик, обслуживающих запросы на чтение, использует реплику, не обслуживающую никакие запросы, чтобы можно было на неё быстро переключиться (упомянута в 6 пункте в статье)

2) конфликты с автовакуумом при заморозке страниц. Такие конфликты есть и на мастере и на реплике и начинаются через 100 миллионов транзакций (по умолчанию, до 18 версии PostgreSQL). При недолгих тестированиях приложений не отлавливаются, проблемы начинаются при эксплуатации. Это одна из причин, по которой нагрузочные тесты длятся долго. Зная, как работает PostgreSQL, можно использовать недолгие тесты и оптимизировать приложение и параметры экземпляра, используя результаты недолгих тестов для обратной связи при настройке.

Читать далее

+4

Igor_Le 17 апр в 15:42

PGConf.Россия 2026

Простой

11 мин

5.7K

Блог компании Postgres ProfessionalPostgreSQL * КонференцииБазы данных * IT-компании

Мнение

Конференция прошла 23-24 марта в московском Центре Международной Торговли, а на днях для участников выложили видео, презентации и фото. В этом году конференцию посетило примерно 1300 очно и 800 заочно. По сравнению с прошлой конференцией она немного подросла: на PGConf.Russia 2025 было 1120 очных, в сумме около 2 тыс. человек. Конференция претерпела лёгкий ребрендинг: PGConf.Russia => PGConf.Россия (переход плавный: PGConf.СПб 2025, а не SPb). Доклады на этот раз проходили в 4 залах (на прошлой - в 3): главный - сдвоенный и 3 зала поменьше. Один из них был отдан целиком Postgres Pro. Ещё в 2 залах проходили мастер-классы.

Читать далее

+15

kmoseenk 17 апр в 15:05

Как читать BUFFERS в EXPLAIN ANALYZE и находить I/O-узкие места в PostgreSQL

Средний

11 мин

6.9K

Блог компании OTUSБазы данных * SQL * PostgreSQL *

Туториал

Перевод

EXPLAIN ANALYZE часто воспринимается как инструмент, который показывает план выполнения запроса. Но если посмотреть внимательнее на блок BUFFERS, он начинает отвечать на более прикладной вопрос — где именно запрос упёрся в I/O и почему это произошло. В этой статье разберём, как читать эту статистику на уровне отдельных узлов плана, как интерпретировать hit/read в контексте нагрузки и почему сами числа почти ничего не значат без сравнения во времени.

Читать далее

+15

boris_p 17 апр в 13:12

Терабайты данных из Teradata в Trino — эффективный способ передачи

Средний

11 мин

5K

Блог компании Data SapienceBig Data * Data Engineering * Высоконагруженные системы * Базы данных *

Обзор

Архитектурный принцип Lakehouse предполагает, что вы оперируете всеми данными, загруженными в систему. Но иногда нужно выполнить ad hoc анализ за ее периметром, потому что необходимых данных по каким-либо причинам нет в Lakehouse-платформе. В этом случае на помощь приходит федеративный доступ. Стандартом для такой задачи является движок Trino. Он умеет извлекать данные из внешних СУБД и даже в некоторых случаях может делать push-down определенных вычислений на сторону системы-источника. Главное, чтобы под рукой был подходящий connector для нужной СУБД, который умеет эффективно с ней работать.

Недавно в состав Data Ocean Nova был добавлен новый Trino Teradata Connector. Он позволяет пользователям «подтягивать» необходимые срезы данных из Teradata в рамках ad hoc запросов и решает задачу эффективной передачи данных: можно передавать терабайты в несколько потоков без существенного увеличения нагрузки на источник.

В данной статье разберем:
• Как организовать эффективную многопоточную работу с Teradata: где часто допускают ошибки, как должно выглядеть правильное решение;
• Какие возможности дает Nova Trino Teradata Connector: многопоточная передача, push-down оптимизации.

Читать далее

+5

grozauf 16 апр в 17:20

Фитнес план для PostgreSQL своими руками: как похудеть, когда нет доступа к pg_repack и pgcompacttable

Средний

13 мин

12K

Блог компании AvitoTechSQL * PostgreSQL * Базы данных *

Кейс

Привет! В этой статье мы, Павел Лобанов — старший инженер в платформе отправлений и Дмитрий Сидоренко — старший инженер в логистической платформе доставки Авито, расскажем, как решили проблему раздувания размера данных в хранилище без прерывания работы сервиса, сохранив лояльность пользователей и деньги компании.

Эта история о том, как мы придумали и реализовали свой собственный метод, когда никакие другие сторонние инструменты не позволяли сохранять работоспособность сервиса и гарантировать надёжность. Его можно применять во всём мире, где используются платформы на базе PostgreSQL.

Читать далее

+33

ManticoreSearch 16 апр в 12:03

Почему важно мониторить поисковую систему: Manticore → Prometheus → Grafana

4 мин

5.5K

Open source * Поисковая оптимизация * Поисковые технологии * SQL * Базы данных *

Один из наших пользователей недавно пришёл к нам со знакомой проблемой: поиск внезапно стал заметно медленнее, хотя внешне ничего явно не ломалось.

Сервис работал, ошибок в логах не было, загрузка CPU выглядела нормально, но пользователи уже начали жаловаться, что поиск тормозит.

Так обычно и проявляются проблемы с поиском в продакшене. Не как драматичный сбой, а как медленное, ползучее ухудшение. Чуть больше трафика здесь, чуть больше индексации там, и прежде чем вы это заметите, производительность уже просела.

К тому моменту, когда пользователи это замечают, настоящая проблема нередко копится уже несколько часов. Без хорошей видимости остаётся только гадать: система перегружена? Одна таблица съедает ресурсы? Или незаметно что-то идёт не так?

Вот почему мониторинг важен. С ним расплывчатое «поиск стал медленным» превращается в проблему, которую можно диагностировать и исправить.

Читать далее

+2

kmoseenk 16 апр в 11:20

Укрощение «диких» CSV: продвинутые техники DuckDB для инженеров данных

Средний

11 мин

5K

Блог компании OTUSБазы данных * Хранение данных * Data Engineering *

Туториал

Перевод

CSV-файлы редко бывают такими простыми, какими кажутся на первый взгляд. За внешней структурой часто скрываются проблемы с типами, разделителями, схемами и «сломанными» строками, из-за которых загрузка данных превращается в цепочку костылей и ручной предобработки. В этой статье — практический разбор того, как DuckDB позволяет диагностировать и обрабатывать такие случаи прямо в SQL: от понимания того, как система интерпретирует файл, до устойчивой загрузки и работы с неконсистентными данными.

Разобраться в CSV

+11

1

2 3 ...