Хранение данных *

Что имеем, то храним

СтатьиПостыНовостиАвторыКомпании

Denbackyard 2 сен в 16:14

Как быстро сделать Low-Code RAG для своей компании?

Простой

7 мин

Блог компании Cloud.ruХранение данных * Машинное обучение * Искусственный интеллектОблачные сервисы *

Допустим, у вашей организации есть внутренний сервис с большим объемом накопленных документов, тикетов и комментариев, и все это ведется в Jira. Представьте, если при клиентском запросе или взаимодействии с контрагентом, можно было бы обращаться к AI-ассистенту и получать максимально релевантные ответы, дополняя существующую в вашей системе информацию данными из внешних источников. Очевидно, что это позитивно отразилось бы на конверсии в продажи за счет персонализированного подхода, увеличило бы уровень удовлетворенности сервисом у клиентов, да и менеджерам бы облегчило жизнь!

Если вы руководитель отдела или ведете собственный бизнес, вы наверняка подумаете «наверное, это дорогая технология, которая требует больших затрат и найма техспециалистов для разработки». Когда-то это было так, но теперь нет.

В этой статье я опишу короткую инструкцию, как реализовать что-то похожее на описанный функционал без особых навыков. Лучшие умы человечества могут уличить меня в том, что моя предлагаемая реализация максимально проста и наивна. И да, это так. Целью я ставил — показать массовому читателю прикольную штуку, а не задушнить ;-)

aton4eg 2 сен в 10:34

Что такое снапшоты в СХД и как мы их реализовали в TATLIN.BACKUP

Средний

8 мин

6.7K

Блог компании YADROIT-инфраструктура * Хранение данных * Резервное копирование * Высоконагруженные системы *

Обзор

Еще год назад мы считали, что снапшоты без репликации не являются приоритетом для нашей команды. Но практика показала обратное: вирусы-шифровальщики, сбои и ошибки могут повредить резервные копии и нарушить их целостность. Чтобы защитить данные и дать возможность быстро восстановить их в неизменном виде, мы реализовали поддержку снапшотов в TATLIN.BACKUP. Новый функционал уже доказал свою эффективность и получил положительные отзывы клиентов.

Меня зовут Ростислав, я эксперт по разработке ПО отдела систем обработки данных в YADRO. Сегодня разберемся, как устроены наши снапшоты и какие у них особенности. Для этого совершим экскурс в мир систем хранения данных (СХД) и рассмотрим их устройство.

+15

BiktorSergeev 31 авг в 08:00

UltraRAM: память, которая меняет правила игры

5 мин

18K

Блог компании МТСКомпьютерное железоIT-стандарты * Хранение данных *

Память в компьютерах и гаджетах много лет делится на два направления. DRAM — быстрая, но требует постоянного питания. NAND-флеш — надежная и долговечная, зато ощутимо медленнее. Инженеры десятилетиями мечтали о «золотой середине», которая объединит лучшее из обоих подходов.

И похоже, такая технология наконец появилась. UltraRAM обещает скорость на уровне DRAM, энергонезависимость и долговечность, в разы превосходящую NAND, причем с расчетным сроком хранения данных до тысячи лет. Давайте разбираться, как она устроена, какие возможности открывает и почему способна перевернуть рынок вычислений.

+60

beeline_cloud 31 авг в 06:51

От многопоточности в ОС до «простукивания портов»: избранные материалы у нас на DIY-площадке

Простой

8 мин

1.6K

Блог компании Beeline CloudИнформационная безопасность * Программирование * Хранение данных * Базы данных *

Дайджест

Мы в Beeline Cloud развиваем площадку для обмена опытом между ИТ-специалистами — «вАЙТИ». Делимся техническими материалами, которые могут быть полезны хабражителям: как перекинуть два терабайта данных между дата-центрами за шесть часов, как перевести почту на локальный сервер Postfix, а также — какие SQL-запросы могли бы помочь Остапу Бендеру найти заветные стулья... (и другие материалы).

herodream 30 авг в 17:43

Уровни изоляции транзакций для собеседования и работы

Средний

10 мин

3.4K

Базы данных * Анализ и проектирование систем * Хранение данных * SQL * Microsoft SQL Server *

Уровни изоляции транзакций — один из частых вопросов на собеседовании. Есть мнение, что один раз настроил и не вмешиваешься, но на практике не всегда так. Участвовал в нескольких проектах, где незнание уровней изоляции привело к трудноуловимым ошибкам и искажениям данных. В какой ситуации какой уровень изоляции лучше — разбираем в статье.

nicetrygg 28 авг в 09:33

Как мы устроили эпический BI Challenge: 80 героев, 1000 дашбордов и море данных в Уралсиб x FineBI

Простой

3 мин

797

Блог компании УралсибBig Data * Визуализация данных * Учебный процесс в ITХранение данных *

Кейс

Привет, Хабр! 👋 Меня зовут Семён Юников, я Head of BI в банке Уралсиб. Сегодня расскажу о том, как наш отдел собственными силами превратил масштабную задачу по улучшению аналитических артефактов в захватывающее и геймифицированное приключение под названием BI Challenge. Более 80 участников (внутренних разработчиков нашего Банка), свыше 1000 дашбордов, десятки внутренних обновлений и одно большое профессиональное сообщество.

Читать далее 😎

Alena_Les 27 авг в 19:47

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Простой

6 мин

3.1K

Аналитика мобильных приложений * Хранение данных * Открытые данные * Управление проектами *

Кейс

Recovery Mode

Привет, Хабр! Хочу поделиться своей историей того, как я пришла к GitHub Actions в попытках автоматизировать сбор аналитики для личного использования.

Статья будет полезна аналитикам, которые хотят автоматизировать сбор и анализ данных для своих небольших пет‑проектов.

timeforlaw 27 авг в 12:15

Свежее судебное дело о не подаче уведомления в Роскомнадзор

3 мин

2.8K

Хранение данных *

Кейс

До начала обработки персональных данных оператор должен подать уведомление в Роскомнадзор. В сегодняшних реалиях по факту 99.9% самозанятых, ИП и организаций являются операторами и должны подать уведомление.

За неподачу или за несвоевременную подачу уведомления о намерении осуществлять обработку персональных данных предусмотрены штрафы.

И вот первые судебные ласточки по этому поводу...

abbb03 27 авг в 11:19

Увеличиваем дисковое пространство физического сервера за одну минуту

9 мин

8.1K

Блог компании Cloud.ruIT-инфраструктура * Go * Хранение данных * SAN *

Можно ли подключить сетевой диск к железному серверу за минуту, при этом не выключая его, сохраняя отказоустойчивость и не привлекая инженеров?

Я Беляков Алексей — Go-разработчик в Cloud.ru, в статье расскажу, как нам удалось это сделать. Сначала поделюсь кейсами, которые натолкнули на создание такой фичи, затем расскажу, как мы реализовали ее интеграцию со стороны сервиса Bare Metal, а в конце покажу, как всего за минуту можно расширить дисковое пространство физического сервера.

ANkulagin 27 авг в 06:00

Автоматизация конспектов для ленивых: Obsidian + Zotero

Простой

5 мин

33K

Блог компании Банки.руСофтЛайфхаки для гиковУчебный процесс в ITХранение данных *

Туториал

Привет! Меня зовут Андрей, я разработчик из команды контента в Банки.ру.

Как человек, который постоянно изучает новые технологии и читает тонны документации, я давно устал тратить часы на ручное конспектирование. Перепробовал кучу способов — от блокнотов до сложных систем управления знаниями, пока не наткнулся на идеальную связку Obsidian + Zotero.

В этой статье поделюсь своим решением для автоматизации конспектов, которое экономит мне кучу времени и нервов. Если вы тоже много читаете и устали переписывать цитаты руками — эта статья для вас. Расскажу, как за 10 минут настроить систему, которая будет сама создавать красивые конспекты

+61

EvgenyVilkov 26 авг в 19:30

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе c ними

Средний

10 мин

4.1K

Блог компании Data SapienceХранение данных * Big Data * Data Engineering * Базы данных *

Не так давно в блоге компании Arenadata был опубликован материал тестирования поведения различных распределенных файловых систем при работе с маленькими файлами (~2 Мб). Краткий вывод: по результатам проверки оказалось, что лучше всего с задачей маленьких файлов справляется старый-добрый HDFS, деградируя в 1.5 раза, S3 на базе minIO не тянет, замедляясь в 8 раз, S3 API над Ozone деградирует в 4 раза, а наиболее предпочтительной системой в при работе с мелкими файлами, по утверждению коллег, является Greenplum, в том числе для компаний «экзабайтного клуба». Коллеги также выполнили огромную работу по поиску «Теоретических подтверждений неожиданных показателей».

Результаты тестирования в части S3 minIO показались нашей команде неубедительными, и мы предположили, что они могут быть связаны с:

• недостаточным практическим опытом эксплуатации SQL compute over S3 и S3 в целом;

• отсутствием опыта работы с кластерами minIO. В частности в высоконагруженном продуктивном окружении на 200+ Тб сжатых колоночных данных Iceberg/parquet, особенно в сценариях, где проблема маленьких файлов быстро становится актуальной.

• особенностями сборок дистрибутивов;

Мы благодарны коллегам за идею и вдохновение провести аналогичное тестирование. Давайте разбираться.

discodum 26 авг в 15:49

Библиотека Asio для начинающих: работаем с корутинами без сегфолтов

15 мин

6.8K

Блог компании YADROC++ * Хранение данных *

Когда я начал работать с Asio и изучал документацию библиотеки, прочитал мнение, что доку писали «для роботов». Описание каждого концепта, функции или особенности приводится лишь однажды, без перекрестных ссылок и других удобных для разработчика деталей. Документация составлена так, что понять ее может разве что машина, «просканировав» текст целиком.

Я подумал, что было бы здорово написать статью, которая служила бы введением в библиотеку. Статью, которая помогла бы начать пользоваться Asio, даже если раньше вы с ней не работали. Что получилось, читайте под катом.

+22

paper_pilot 26 авг в 09:00

Как найти свой путь в дата-инженерии и управлять петабайтами данных

9 мин

1.1K

Блог компании Конференции Олега Бунина (Онтико)Базы данных * Хранение данных * КонференцииOpen source *

На первый взгляд работа с данными может показаться скучной, состоящей из перетаскивания данных из одного хранилища в другое. В этом действительно есть часть правды :) но не вся правда… Если присмотреться, мы увидим, что дата-инженеры помогают компаниям сокращать время на поиск инсайтов, обучение моделей и понимание нужд пользователей. Данные — это новая нефть, поэтому важно понимать, как правильно их организовывать и какие сложности в работе могут повлиять на успешность бизнеса.

Привет, Хабр! Меня зовут Алёна Катренко, и я уже больше 10 лет работаю с данными. Сейчас занимаю позицию руководителя платформы данных в Циане, но начинала как BigData-инженер в Неофлексе. Сегодня расскажу, как мы приручали петабайты данных, искали призраков забытых таблиц и нашли инструмент, который сделал работу с метаданными понятной, безопасной и полезной для бизнеса. А ещё о том, как сейчас развиваться дату-инженеру, чтобы успевать за тенденциями на рынке.

daniil_dzheparov 25 авг в 12:30

Построение потока данных в облаке с использованием serverless сервисов

Простой

9 мин

607

Хранение данных * Python * Облачные сервисы * Базы данных *

Привет!

У бизнеса на практике часто встречается задача построить полноценную аналитику, используя данных из excel, csv файлов. Разнообразие подходов к заполнению и образованию таких файлов может быть разное:

yvorobjeva 25 авг в 10:59

Никакого наития, только полный контроль. Как построить эффективную стратегию бэкапа с Хайстекс Акура и S3-хранилищем

Средний

9 мин

947

Блог компании ХайстексРезервное копирование * Облачные сервисы * Хранение данных *

Кейс

Привет Хабр! Меня зовут Юлия Воробьева, и уже больше 10 лет я занимаюсь тестированием. За это время успела поработать в проектах, связанных с восстановлением, миграцией и резервным копированием данных. Я много занимаюсь облачными технологиями и получаю от этого настоящее удовольствие. Последние 6 лет я работаю в компании Хайстекс, где продукт и задачи позволяют мне не просто тестировать, а прокачивать экспертизу и при этом сохранять интерес к облачным решениям.

В этой статье расскажу, как мы настроили, внедрили и протестировали резервное копирование с решением Хайстекс Акура и S3-хранилищем от Selectel, на основе реальных требований и возможностей компании-клиента. Покажу, как это выглядит на практике глазами QA.

Не претендую на универсальный рецепт, но подробно опишу, как мы упростили восстановление тестовой среды, сэкономили время и перестали бояться, что важные данные потеряются после очередного сбоя. Разберу всё по шагам: как настраивали, что сработало, где пришлось доработать и какие выводы сделали в итоге. Если вам интересно, как внедрить надежный бэкап всех данных у себя в компании, встретимся под катом. Там же ссылка на вебинар для тех, кому ближе видеоформат.

Разбор по шагам

Pavel_EKB 25 авг в 09:38

Запускаем Kafka в режиме KRaft на Windows через WSL

Простой

16 мин

2.4K

Высоконагруженные системы * Apache * Учебный процесс в ITХранение данных *

Туториал

Пошаговое руководство по установке и настройке кластера Apache Kafka с тремя брокерами в режиме KRaft (без ZooKeeper) на Windows — без виртуальных машин и Confluent Cloud.

Чтобы сделать кластер удобнее в использовании и приблизить его функциональность к облачным решениям, мы добавим веб-интерфейс на основе Kafka UI.

В результате получится гибкая система, которую можно масштабировать и настраивать под свои задачи.

Для кого эта статья?

Для тех, кто только начинает работать с Kafka и хочет разобраться в её устройстве на практике.

Для тех, кто работает на Windows, но не хочет ставить виртуальную машину.

Для тех, кто хочет понять внутреннее устройство Kafka, а не просто запустить «чёрный ящик».

mipt_digital 25 авг в 09:01

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 3. Retrieval-Augmented Generation (RAG) на службе GenAI

8 мин

6.3K

Блог компании Центр «Пуск» МФТИМашинное обучение * Data Engineering * Визуализация данных * Хранение данных *

Роадмэп

Это третья статья специалиста по архитектуре ИТ-систем и трансформации ИТ-ландшафта Дениса Прилепского из серии «Строим корпоративную GenAI-платформу: от концепции до ROI». Автор разбирает, что такое RAG и зачем он нужен, как устроена архитектура retrieval-уровня и почему он критически важен для достоверных ответов. В статье — пример генерации юридической справки, практические проблемы (задержки, кеширование, актуальность) и подготовка к следующей теме — guardrails.

romanova_ase 25 авг в 08:37

Геоданные в PostgreSQL: зачем нужен PostGIS и как он работает

11 мин

7.5K

Блог компании SelectelPostgreSQL * Базы данных * Облачные сервисы * Хранение данных *

PostgreSQL известна как надежная и универсальная СУБД. Но если нужно хранить координаты, строить маршруты или анализировать границы районов, ее базовых возможностей уже не хватает. Здесь на помощь приходит PostGIS. Под катом разберемся, что умеет расширение и как его использовать.

+58

TrexSelectel 23 авг в 08:00

Карта размером с SIM, а скорость как у NVMe — что такое Mini SSD

6 мин

13K

Блог компании SelectelХранение данных * НакопителиКомпьютерное железоГаджеты

Гаджеты становятся всё меньше, а вот требования к памяти только растут. Смартфоны, консоли, ноутбуки, дроны и даже AR-гарнитуры нуждаются в хранилищах, которые одновременно компактные и быстрые. Китайская компания Biwin представила новый формат — Mini SSD. Он чуть больше microSD-карты, но по скорости близок к настольным NVMe-дискам. Идея быстро привлекла внимание: быстрый накопитель в формате, похожем на SIM-карту, звучит как настоящий прорыв. Попробуем разобраться, что это за технология, как она устроена и есть ли у неё шанс стать новым стандартом.

+61

dev_flex 22 авг в 09:01

Как мы оптимизировали сбор данных для отчёта маркетологов и придумали новую Google Analytics

Средний

5 мин

412

Блог компании SM LabАнализ и проектирование систем * Google API * Хранение данных * Базы данных *

Кейс

В этой статье — история о том, как мы вместе с командой Аналитики цифровых продуктов работали над одной небольшой фичей и в процессе создали собственную альтернативу известной платформе для сбора статистики пользователей сайтов.

Пару слов о нашей команде и о том, чем мы занимаемся. У нас 6 инженеров данных и 5 аналитиков — вместе мы помогаем продуктовым командам (тем, кто развивает сайты и приложения) создавать дашборды и отчёты. Они нужны для того, чтобы коллеги видели, как их изменения влияют на бизнес-метрики и поведение пользователей.

Вторая часть нашей работы — поддержка маркетологов. Мы помогаем им анализировать эффективность продвижения Спортмастера и других наших брендов: где увеличивать бюджеты, где сокращать и как быстро оценивать результат. В общем, мы те, кто превращает данные в понятные решения.

Как появилась задача

Наши пользователи — маркетологи — каждую неделю сталкивались с одной проблемой. По вторникам у них проходят планёрки с руководством, где они разбирают результаты прошлой недели: что сработало, что можно улучшить. Им критично важно к этому времени уже иметь готовый отчёт, чтобы успеть проанализировать данные и принять решения по рекламе.

Однако наш продукт выдавал отчёты только к 16:00. Кому-то хватает часа на подготовку, кому-то трёх, но пользователи жаловались: они просто не успевают осмыслить данные и сформулировать выводы.

Коллеги обратились к нам с запросом: перенести формирование отчетов на 12:00, чтобы оставалось больше времени на анализ. И мы стали думать, как это сделать своими силами без увеличения команды.

1 2 3 4

6 7 ...

165 166

Хранение данных *

Как быстро сделать Low-Code RAG для своей компании?

Что такое снапшоты в СХД и как мы их реализовали в TATLIN.BACKUP

UltraRAM: память, которая меняет правила игры

От многопоточности в ОС до «простукивания портов»: избранные материалы у нас на DIY-площадке

Уровни изоляции транзакций для собеседования и работы

Как мы устроили эпический BI Challenge: 80 героев, 1000 дашбордов и море данных в Уралсиб x FineBI

Автоматизация аналитических процессов с помощью GitHub Actions: практический гайд

Свежее судебное дело о не подаче уведомления в Роскомнадзор

Увеличиваем дисковое пространство физического сервера за одну минуту

Автоматизация конспектов для ленивых: Obsidian + Zotero

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе c ними

Библиотека Asio для начинающих: работаем с корутинами без сегфолтов

Как найти свой путь в дата-инженерии и управлять петабайтами данных

Ближайшие события

Построение потока данных в облаке с использованием serverless сервисов

Никакого наития, только полный контроль. Как построить эффективную стратегию бэкапа с Хайстекс Акура и S3-хранилищем

Запускаем Kafka в режиме KRaft на Windows через WSL

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 3. Retrieval-Augmented Generation (RAG) на службе GenAI

Геоданные в PostgreSQL: зачем нужен PostGIS и как он работает

Карта размером с SIM, а скорость как у NVMe — что такое Mini SSD

Как мы оптимизировали сбор данных для отчёта маркетологов и придумали новую Google Analytics

Вклад авторов