Все потоки

Хранение данных *

Что имеем, то храним

192,55

Рейтинг

СтатьиПостыНовостиАвторыКомпании

ideavi 6 часов назад

Не дали ИИ-агенту соврать — его же памятью

Средний

8 мин

4.9K

Искусственный интеллектМашинное обучение * Natural Language Processing * Программирование * Хранение данных *

Кейс

На днях наш агент собрался дежурно отчитаться об успехе. Прежде чем нажать «готово», он сверился с собственной памятью — и нашёл там запись из прошлой сессии: эту идею он уже проверял на реальных данных, и она провалилась. Он остановил сам себя, до ложного отчёта.

Это не рекламная зарисовка, это лог из жизни. Ниже — два таких лога подряд, и во втором память заставила нас выбросить фичу, которой мы гордились.

Хватай за цифровой хвост

+3

Arenukvern 12 часов назад

Основы Knowledge Management в разработке

Средний

18 мин

5.6K

Хранение данных * Развитие стартапаРазработка мобильных приложений * Управление разработкой * Искусственный интеллект

Туториал

Перевод

основные идеи по организации, структурированию и системному управлению знаниями и потоками знаний внутри компании / проекта / стартапа с учетом активного взаимодействия AI и людей в ежедневной рутине.

Читать далее

+3

IlyaEvstifeev 13 часов назад

CI/CD для данных и моделей на Airflow: как мы деплоим прогноз спроса в «Магните»

Средний

12 мин

41

Блог компании Magnit TechData Engineering * DevOps * Машинное обучение * Хранение данных *

Кейс

Артефакт нашей сборки — не бинарник, а код вместе с терабайтами рассчитанных таблиц. Рассказываем, как из штатных фич Airflow, Spark и Delta Lake у нас собрался настоящий CI/CD для данных и моделей — с релизами, стейджем и откатами. И почему кнопку «выкатить в прод» жмёт дежурный data scientist, а не инженер данных.

Выкатить в прод

0

Qusi 16 часов назад

Лучшие российские VPS/VDS-хостинги в 2026 году: сравниваем популярные конфиги. Часть 2

Простой

8 мин

8.7K

ХостингСерверное администрирование * Системное администрирование * Хранение данных * Облачные сервисы *

Обзор

Привет, Хабр!

До этого я сравнивал интересные мне хостинги примерно раз в год — не видел смысла делать это чаще. После недавнего сравнения российских VPS/VDS-хостингов прошло не так много времени, но появился повод вновь вернуться к этой теме. А именно, в комментариях вполне ожидаемо спросили «а где остальные крупные игроки?», да и в личку написало несколько представителей компаний с предложением протестировать их услуги. Поэтому пока старые цифры не остыли, по просьбам трудящихся решил добавить к результатам тестов ещё несколько компаний, которые мне показались интересными.

Под катом — результаты тестирования уже 9 серверов от следующих компаний: трёх новых (FirstVDS, AdminVPS, Рег.ру) и 6 старых (Timeweb, RUVDS, CLO, AEZA, VDSina и Selectel). Теперь, когда результатов стало больше, можно не только посмотреть на новичков, но и оценить, насколько они меняют в целом общую картинку.

Читать далее

+19

akrivyakov 18 часов назад

ClickHouse: сценарии, сильные стороны, лучшие практики работы в 2026 году

9 мин

8.8K

Блог компании VK TechБлог компании VKОблачные вычисления * Хранение данных * Big Data *

Туториал

ClickHouse — один из самых востребованных инструментов для хранения и анализа больших объемов данных, обеспечивающий высокую производительность и наблюдаемость сервисов и приложений. Благодаря этим параметрам многие компании внедряют его в свои ИТ-инфраструктуры для решения задач аналитики, логирования и мониторинга. Однако, несмотря на широкое распространение, практика показывает, что далеко не все команды до конца осознают все особенности и нюансы работы с этой системой, что может приводить к неэффективному использованию ресурсов, ошибкам в проектировании и снижению общей производительности.

Привет, Хабр. Меня зовут Александр Кривяков. Я пресейл-архитектор VK Data Platform, VK Tech. В этой статье я расскажу об основных принципах работы ClickHouse, а также покажу возможные архитектурные решения и типичные сценарии применения системы.

Читать далее

+23

JetHabr 20 часов назад

Третья копия — это хорошо. А где четвёртая, с блэкджеком и AD?

Средний

10 мин

7K

Блог компании Инфосистемы ДжетРезервное копирование * Информационная безопасность * Хранение данных * Восстановление данных *

Мнение

Привет, Хабр! На связи команда инфраструктурного центра «Инфосистемы Джет».

Давайте договоримся сразу — мы любим, применяем и верим в правило «3-2-1», оно работает. Как базовая гигиена. Но важно то, что после «но». Правило «3-2-1» подробно отвечает на вопрос, как хранить резервные копии. Но почти ничего не говорит о том, что делать, если целью атаки становятся сами резервные копии.

Поэтому теперь мы считаем, что ему не хватает четвертого элемента — мы называем его «Бункер».

Читать далее

+9

EreminMaxim 20 июл в 14:30

Как переработать архитектуру хранилища и мигрировать часть нагрузки в Data Lakehouse

Простой

8 мин

9.5K

Блог компании Cloud.ruХранение данных * IT-инфраструктура * Базы данных *

Мнение

У корпоративных хранилищ есть одна особенность: чем дольше они живут, тем больше задач на них пытаются навесить.

Сначала туда попадают предсказуемые вещи: CRM, ERP и внутренняя отчетность. Но потом добавляются документы, записи разговоров, данные для ML, генеративный ИИ и еще десяток сценариев, о которых никто не думал, когда проектировал DWH десять лет назад.

Что тогда делать? Сейчас расскажу.

Читать далее

+5

Black_Triangle_Habr 20 июл в 07:30

Заметки Note: P2P-синхронизация, локальное шифрование и режим «под принуждением»

8 мин

8.1K

Искусственный интеллектИнформационная безопасность * Open source * Хранение данных * Flutter *

Кейс

По-настоящему важные данные нельзя держать в одном единственном месте — их нужно диверсифицировать.
Можно хранить всё дома и однажды вернуться с прогулки, а вместо дома и драгоценного компьютера — одни обугленные руины.
Можно носить всё с собой в телефоне, но лишиться его в первом же кафе, где аппарат вытащит у вас из кармана воришка.
Можно загрузить всё на надёжный сервер крупной корпорации, но в один прекрасный день эта корпорация введёт против вас санкции или просто заблокирует доступ к вашему же аккаунту.
У каждого отдельного хранилища есть свой собственный способ вас подвести.

Вот ровно эту проблему я и попытался решить.

Читать далее

+5

PatientZero 18 июл в 07:25

Кража памяти: как я заставил Claude рассказать личные секреты пользователя

Простой

8 мин

20K

Искусственный интеллектИнформационная безопасность * Хранение данных *

Перевод

Посмотрите на эту беседу с Claude. Заметили что-нибудь подозрительное?

Выглядит вполне невинно, но когда Claude закончил свой ответ, он уже отправил нападающему моё полное имя, текущего работодателя и ответы на мои контрольные вопросы, при этом никак не сообщив мне о происходящем.

$ bun dev

Exfiltrating data...

Name: Ayush Paul

Company: Beem

Hometown: Charlotte, NC

Я уже долго время изучаю системы памяти ИИ, и заметил, что о безопасности в них никто не думает, хотя они содержат больше информации, чем менеджеры паролей. ИИ-помощники наподобие Claude собрали профили самой подробной информации о миллионах людей. Пользователи доверяют им всё, от конфиденциальных рабочих ресурсов до личных секретов и проблем в отношениях. Со временем история бесед превращается в высокоточное воссоздание индивида, которое можно использовать для шантажа, подделки личности или ответа на контрольные вопросы.

Учтя всё это, я решил присмотреться к Claude, и в частности к основному повседневному помощнику (claude.ai, не Claude Code). Claude имеет функциональную, но наивную систему памяти из двух частей. Первая — это генерация сводки за день: недавние беседы кратко излагаются в нескольких параграфах о пользователе и вставляются в каждую беседу, чтобы Claude не приходилось каждый раз начинать с нуля. Вторая — это инструмент извлечения conversation_search, позволяющий по запросу выполняют поиск по всей истории бесед.

Там хранится невероятно ценная информация. Сама система памяти безопасна; вопрос заключается в том, что происходит, когда мы связываем её с агентом, способным ходить по вебу.

Читать далее

+74

sviridov_aa 16 июл в 12:32

Как Immich помогает в работе с корпоративным фотоархивом

Простой

7 мин

12K

Блог компании InfoWatchОбработка изображений * Облачные сервисы * Хранение данных * Open source *

Кейс

Привет, Хабр!

Меня зовут Алексей Свиридов, в InfoWatch я уже 12 лет, начинал как инженер, теперь отвечаю за проекты внедрения на территории СЗФО. В этой статье расскажу о том, как Immich помогает мне в работе с корпоративным фото/видеоархивом.

Мануалов по установке не будет, но расскажу про пару технических приёмов, которые лично мне показались интересными. Возможно, пригодятся и вам.

При чём тут вообще фотоархив?

Как и в любой другой компании, отдел внутрикома у нас отвечает за проведение всевозможных мероприятий — от больших корпоративов и празднований дня рождения компании до профильных праздников а-ля «День тестировщика» и прочего. Я — региональный сотрудник, так что стараюсь ходить на каждое такое мероприятие: и себя показать, и коллег вживую увидеть.

Так вот, про фото. После любого такого события появляется пара сотен фотографий. А иногда и тысяч, если фотограф попался выносливый, а мероприятие было масштабным. Немного спойлерну — сейчас в архиве компании насчитывается более 50 000 фотографий и 1000+ видеороликов.

Само собой, когда мероприятие проходит, фотограф присылает внутрикомам все фотографии, которые они затем и размещают на внутренних ресурсах. А потом присылают ссылку в рабочий чат — мол, спасибо всем, кто пришёл, вот тут ваши фото.

И всё бы ничего, если бы не один нюанс. Фотографии лежат на сетевой шаре в виде файлов, для их просмотра есть простенькая галерея. Что хочется сотруднику после получения ссылки? Правильно, быстренько забрать все свои фоточки и сохранить куда-то в домашний архив, либо поделиться ими в соцсетях. И вот с «быстренько» возникают проблемы

Читать далее

+21

psheno322 16 июл в 06:37

Система для научного исследования в Obsidian и Zotero: база знаний из сотен источников и анализ данных

Простой

5 мин

9.3K

GTD * Управление проектами * Хранение данных * Профессиональная литература *

Кейс

Ко мне обратилась исследовательница — социолог, изучающий, как на самом деле устроена жизнь коллективов: репутация, доверие, признание внутри команд. Работа устроена так: клиентка каждый день отсматривает и конспектирует по десятку новых научных статей и соотносит их с собственными эмпирическими данными. Ей нужна была система, которая свяжет весь этот разнородный материал воедино и позволит с ним работать, а не просто складывать.

Читать далее

+9

ph_piter 15 июл в 08:51

Предзаказ на книгу: «Высоконагруженные приложения. Программирование, масштабирование, поддержка. 2-е изд.»

2 мин

9.8K

Блог компании Издательский дом «Питер»Профессиональная литература * Высоконагруженные системы * Хранение данных * Базы данных *

Привет, Хаброжители! «Книга с кабанчиком» — вы наверняка слышали о ней? Бестселлер Мартина Клеппмана, изданный почти 10 лет назад, знают и любят все, кому приходится строить высоконагруженные системы, обрабатывающие огромное количество запросов.

Хотим сообщить всем заинтересованным: мы открыли предзаказ на книгу «Высоконагруженные приложения. Программирование, масштабирование, поддержка. 2-е изд.». Новое издание значительно переработано под современные реалии. Наибольшие технические изменения связаны с развитием ИИ и облачных архитектур. Хотите узнать, что в нем изменилось? Расскажем коротко.

Читать далее

+16

gudrymudving 15 июл в 08:24

Десять с лишним лет теряю заметки

Простой

6 мин

7.1K

Управление проектами * Хранение данных * Лайфхаки для гиковGTD *

Кейс

Из песочницы

Недавно мне понадобилась старая заметка. Я точно помнил, что записывал её: там былы креды от сервиса (да, знаю надо хранить все в пароехарилках, но я записал как записал).

Не помнил я только, где именно это записал(

В Notepad++? В Obsidian? В сообщении самому себе? В папке проекта? Минут двадцать я перебирал места, и к концу уже не столько искал заметку, сколько пытался воскресить в памяти тот день что бы понять ход собственных мыслей

Нашлась она в OneNote. В том самом OneNote, про который я уже и забы, что он у меня вообще есть и более того хранить что то ценное.

Вот тогда до меня и дошла обидная вещь: за десять с лишним лет я ~~неплохо~~ научился записывать информацию и довольно плохо получать её обратно. Мест для записи у меня было столько, что одно из них выпало из моей собственной памяти.

Читать далее

+6

gurov_v 14 июл в 08:07

Как решаются оптимизационные задачи в масштабе. Декомпозиция и инженерия

Средний

12 мин

7.5K

Блог компании Magnit TechМашинное обучение * Big Data * Хранение данных * Базы данных *

Кейс

Всем привет. Меня зовут Василий Гуров, я занимаюсь задачами оптимизации в ML Research Lab MAGNIT TECH. В этом материале разберу два промышленных кейса из крупного ритейла – планирование смен сотрудников магазинов и сглаживание нагрузки на распределительные центры.

На поверхности это разные задачи. В первой нужно построить график работы сотрудников по ролям и временным интервалам. Во втором кейсе стоит задача перераспределения логистических потоков так, чтобы снизить пики нагрузки на распределительные центры (РЦ). Но инженерная проблема у них оказалась общей. Прямая time-indexed постановка быстро раздувала модель до сотен тысяч и миллионов бинарных переменных, давала нестабильные рекомендации и плохо укладывалась в SLA.

В этой статье я покажу, как мы решали эту проблему на практике с помощью простого приёма, который должен одним из первых рассматриваться при решении таких объёмных задач. Ключевым оказалось не выбрать самый мощный солвер или алгоритм, а взглянуть на задачу с другой стороны – изменить саму единицу решения. Вместо выбора на уровне слотов, мы стали заранее генерировать валидные кандидаты смен и дальше решали задачу выбора из этих кандидатов. В планировании графиков сотрудников таким кандидатом стала допустимая смена, в сглаживании нагрузки на РЦ – допустимый перенос потока.

Читать далее

+7

notdepot 14 июл в 06:00

Как я при помощи фрагментации решал одни проблемы и создавал другие

Простой

9 мин

6.5K

Информационная безопасность * Криптография * Базы данных * Хранение данных *

Некоторые подходы к хранению данных, при которых одному исходному файлу соответствует один зашифрованный, защищают сами данные, но оставляют открытой часть метаданных. Расскажу, как я столкнулся с такой проблемой, какие ошибки совершил при этом столкновении, и при чем тут фрагментация.

Читать далее

+3

legendasofizma 13 июл в 14:54

Почему HDD стучит?

Средний

7 мин

19K

Хранение данных * Высоконагруженные системы * Базы данных *

Обзор

В последние недели много искал разные детали о внутренней работе механики и логики HDD и показалось, что неплохо было бы поделиться показавшимися мне интересными нюансами в этой сфере, которые тайной хоть и не являются, но редко мелькают в статьях. Статьёй хочется скорее пробудить интерес к бесконечно глубокой теме этих замечательных точных механических устройств и свежих трендов в их внутреннем устройстве, которые заставляют нервно курить в углу любой швейцарский часовой завод.

Не будем объяснять базу, но все знают, что магнитные головки HDD, прицепленные с одного конца "коромысла", приводятся в движение магнитной катушкой "Voice Coil" зажатой между двух неодимомых магнитов с другой стороны (а в современных дисках есть ещё и точный "доворот" пьезоэлементами на конце, недалеко от самих головок). Когда HDD надо переместить БМГ (Блок Магнитных Головок) на другую далёкую дорожку, он подаёт на Voice Coil резкий импульс тока, чтобы сорвать массивную металлическую конструкцию с места в нужном направлении, а потом ещё один обратный импульс тока для резкого торможения. Если посмотрите на фото БМГ, то поймёте как велика Voice Coil во всей этой конструкции и что ускорения и торможения происходят с довольно большими перегрузками. Это как если бы автомобиль весом 1.5 тонны разгонялся до 100 км/ч за 0.05...0.1 сек, а тормозил со скорости 100 км/ч на дистанции 1 метр и человек массов 80 кг потяжелел бы до 4 тонн. Если головки нужно перемещать в диапазоне до 50 дорожек, то Voice Coil не работает, достаточно пошевелить кончиком с головками с помощью пьезо-актуатора, который умеет гнуть металлический конец "коромысла" на 1...5 микрометров. И прыгать за 8 миллисекунд нужно не между тысячами дорожек, а по всей поверхности блина от края до края.

Читать далее

+73

devpew 13 июл в 09:50

Я протестировал TerraMaster F4-425 Pro. Зачем современному NAS одновременно HDD и NVMe

Средний

12 мин

8.2K

Облачные сервисы * Хранение данных * Системное администрирование * Компьютерное железо

Год назад я уже делал обзор на девайс TerraMaster F8 Pro, если интересно то эта статья есть в моем профиле. Это довольно необычный NAS, полностью построенный вокруг NVMe-накопителей. Устройство получилось действительно быстрым, но после публикации обзора многие читатели задали вполне закономерный вопрос:

Читать далее

+6

xitren 13 июл в 09:31

Интендант Императора, или Как обеспечить ваше GPU данными при помощи СХД

Средний

13 мин

6.9K

Блог компании АЭРОДИСКХранение данных * Серверное администрирование * Сетевые технологии * Искусственный интеллект

Мнение

«СХД для ИИ» - маркетинг. На деле у склада три потребителя с конфликтующими требованиями: обучение (полоса и p99 потока), инференс/RAG (хвосты латентности) и чекпоинты (burst-запись). На примере реальной HA-пары NVMe-oF/TCP и арифметики тракта данных ответим на главный вопрос.

Почему RDMA и Gen5 часто не дают эффекта?

Где микросекунды протокола реально съедают SLA?

В каком порядке апгрейдить: сначала ворота фронта, потом плазму, и только потом реликвии бэкенда?

Узнать, кому плазма, а кому лазган

+4

sokolovps 11 июл в 10:17

Краткая история создания электронных таблиц: от древних шумеров и до BCL на языке Fortran

Простой

12 мин

11K

Блог компании Online patentИстория ITБазы данных * Визуализация данных * Хранение данных *

Ретроспектива

Что такое электронная таблица, объяснять не надо. Все знают Excel, и многие хоть раз им пользовались. История создания электронных таблиц тоже, на первый взгляд, незамысловатая и сравнительно недолгая: как только появились первые ПК, сразу началась разработка ПО для выведения на экран их монитора интерактивной таблицы, которая сильно облегчила бы работу бухгалтеров и менеджеров. IT-инженеры уложились в 15 лет, с конца 60-х до середины 80-х, чтобы создать электронную таблицу от начала и до конца – от разработки самого принципа ее программирования до появления первых электронных таблиц (от VisiCalc до Excel) на экране ПК, сильно порадовав тем самым белых воротничков (и не только их). Дальше шло лишь усовершенствование электронных таблиц.

С чего вдруг IT-инженеры и изобретатели озаботились бухгалтерскими проблемами, тоже понятно. Люди старшего поколения помнят, что можно было делать на первых ПК 70-х и 80-х годов, еще до эпохи интернета. Если оставить в стороне возможность самостоятельно заняться программированием и обмениваться файлами с такими же энтузиастами, что сейчас часто ставят в заслугу первым ПК (для этого все-таки надо было в душе быть айтишником), то на этих ПК можно было играть в интерактивные игры (правда, на игровых приставках к телевизору это обходилось дешевле) и можно было использовать ПК как пишущую машинку, при пользовании которой не надо было замазывать белилами ошибки и ждать, когда те высохнут, чтобы напечатать поверх правильную букву. Сказать, что это сильно порадовало писателей и редакторов бумажных СМИ значит ничего не сказать, это была настоящая революция в писательском и издательском деле, сравнимая разве что с изобретением печатного станка Гутенбергом в XV веке. А когда к этому добавились еще электронные таблицы для сведения дебета с кредетом в интерактивном режиме, это была еще одна революция в бухгалтерии того же масштаба, если не большего.

Читать далее

+13

Imil_Valiullin 9 июл в 12:51

От legacy до промышленной платформы: инженерная эволюция OSA в «Магнит»

Средний

15 мин

8.7K

Блог компании Magnit TechBig Data * Data Engineering * Машинное обучение * Хранение данных *

Ретроспектива

Как мы провели проект через четыре «эпохи» — от ручных запусков на Windows‑планировщике до Spark + k8s на масштабе сети

Привет, Хабр! Меня зовут Имиль Валиуллин, я тимлид команды разработки платформы OSA. В предыдущих статьях цикла On Shelf Availability (OSA) уже разбирали с разных сторон: что такое OSA как продукт, как устроен алгоритм детекции аномалий и весь конвейер генерации сигналов — эвристики, ML‑модели, фильтры, обратная связь, A/B и оценка эффекта (ссылки на предыдущие статьи: 1, 2, 3). В этой статье мы раскрываем следующий слой — инженерный. Потому что всё перечисленное было бы невозможно без большой работы под капотом: данных, транспорта, оркестрации, SLA, мониторинга, качества данных, обратной связи, API и доставки сигналов в торговые точки. Многие забывают, что даже самая крутая ML‑модель — это только верхушка айсберга. Результат появляется только тогда, когда под ней есть надёжный фундамент: чистые данные, стабильный транспорт и бесперебойная доставка. Как говорится, garbage in — garbage out, и наоборот: качественный фундамент позволяет получить качественный результат.

Главная мысль, которую мы хотим донести: алгоритмы сами по себе не создают эффект. Эффект появляется только тогда, когда вокруг них построена инженерная система, которая каждый день стабильно считает, доставляет, проверяет и масштабирует результат.

Показать это мы хотим через эволюцию продукта — от legacy и ручных запусков до промышленной платформы, работающей на масштабе сети. С точки зрения пользователя это всё тот же продукт — сигналы на торговых точках (ТТ), помощь сотрудникам магазина, рост доступности товара. Но под капотом OSA прошёл несколько серьёзных инженерных перерождений, которые мы для удобства назвали «эпохами»: каменный век, бронзовый, железный и индустриальная эпоха.

Читать далее

+9

1

2 3 ...