Обновить
154.42

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Превращение в «жука»: эволюция IT-оборудования в дата-центрах Яндекса

Время на прочтение8 мин
Количество просмотров912

Меня зовут Владимир Аксёнов, я работаю в Yandex Infrastructure и руковожу IT‑поддержкой в том самом дата‑центре Яндекса, который стал первой площадкой в собственности компании. Это определило его судьбу первопроходца: именно здесь мы тестируем множество технологий, которые затем распространяются на другие дата‑центры.

За 13 лет на этой площадке мы наблюдали радикальные изменения форм‑фактора сетевого и серверного оборудования, что повлекло за собой серьёзные метаморфозы во всём дата‑центре. Мы прошли путь от стандартной 19-дюймовой стойки до четвёртого поколения стоек собственного дизайна, а от холодных коридоров с доохлаждением — пришли к энергоэффективному фрикулингу. 

В этой статье покажу, как за это время поменялось IT‑оборудование, как это повлияло на облик дата‑центров, и что интересного ждём в наших дата‑центрах в 2026 году.

Читать далее

Новости

Гайд по здравому смыслу: Как защитить корпоративные данные в эпоху нейросетей

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров294

Обычно я пишу о том, что нейросети — это круто, но было бы нечестно не говорить и об обратной стороне монеты.

Сегодня я хочу порассуждать о том, как нечистые на руки люди могут использовать ИИ для манипуляции с данными, и о том, какие способы защиты от потенциальных уязвимостей я смог для себя выделить.

Если есть что добавить — пишите в комменты!

Читать далее

SFP не определяется системой: как мы решали проблему

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров471

Всем привет! Я руковожу группой технической поддержки и сопровождения в компании «Онланта». Мы занимаемся поддержкой оборудования различных вендоров. Сегодня расскажу о кейсе по решению проблемы с СХД Dell: система не определяет SFP.

Читать далее

Полезные фишки iCloud, Google Drive и Яндекс Диска, о которых многие не знают

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.9K

Облачные хранилища стали настолько привычными, что большинство из нас использует их тупо на автопилоте – для хранения фотографий или бэкапов. Из-за этого, кстати, часть функций, которые есть в облаках, для многих остаются в тайне. А ведь внутри этих сервисов спрятаны возможности, способные реально изменить подход к работе с данными.

Читать далее

Становятся ли жёсткие диски лучше? Спросим кривую отказов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров7.8K

Если вы уже давно знакомы с Backblaze (особенно, если следите за обзорами Drive Stats), то наверняка читали наши обсуждения кривой отказов. В статье «Drive Failure Over Time: The Bathtub Curve Is Leaking» мы писали о том, как проверяли истинность старого инженерного принципа, гласящего, что сбои в работе привода, представленные в виде временного графика, демонстрируют предсказуемую U-образную кривую, иначе называемую кривая «ванны».

Но тест этого не подтвердил. В результате анализа нашей коллекции приводов были зафиксированы всплески и плато, которые никак не вписывались в предсказуемый паттерн. Теперь, спустя 13 лет непрерывного сбора данных, удалось получить более ясную картину, но и более странную.

И «ванна» в этом случае не просто «потекла» (отсылка к leak в названии вышеупомянутой статьи, — прим. пер.), её форма больше напоминает бордюр при входе в душевую кабину. Складная история о том, что вначале идут сбои, а потом спокойный средний период с плавным повышением отказов, больше не вписываются в реалии жизни наших приводов. Они становятся лучше. Говоря точнее, датасет Drive Stats указывает на повышение их качественных показателей конкретно в дата-центрах.

Давайте же посмотрим, как выглядит полученная нами кривая отказов, и как она соотносится с прежними поколениями анализа.

Если коротко, то жёсткие диски становятся лучше.

Читать далее

dbt 101: что нужно знать на старте и лучшие практики

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.1K

dbt — это фреймворк для трансформации данных внутри хранилища и отличный инструмент для аналитиков и дата-инженеров на больших проектах, где число SQL-скриптов может переваливать за сотни. Мы с командой много работаем с dbt, и в этой статье хочу поделиться своим опытом: расскажу о его ключевых элементах и некоторых лучших практиках на примере одного кейса.

Это не гайд, как развернуть dbt и создать проект, а знакомство с тулом для тех, кто пока с ним не работал и хочет разобраться, что это вообще такое.

Читать далее

Spark, DataSphere и немного магии: как мы строим аналитическую платформу в облаке для банка

Время на прочтение7 мин
Количество просмотров242

Для решения классических аналитических задач в банке дата‑специалисты обрабатывают миллиарды транзакций. Поэтому создание единого информационного пространства для работы с большими объёмами данных потребует решить как задачи оптимизации производительности и обеспечения безопасности, так и задачи удобства для пользователей — и найти баланс между ними. 

Сергей Виноградов на конференции Data&ML2Business рассказал про разработку и построение DWH для задач Яндекс Пэй. В этой статье — дополненный рассказ о том, как устроена аналитическая платформа на базе Greenplum® и ClickHouse®, которую решили строить на базе managed‑сервисов в облаке. А также о том, как жизнь аналитиков облегчает связка Apache Spark™ и Jupyter‑ноутбуков в Yandex DataSphere.

Читать далее

HTTP и HTTPS: Разница

Время на прочтение5 мин
Количество просмотров7.4K

Очень часто на собеседованиях кандидаты слышат вопрос: «В чем разница между HTTP и HTTPS?» И так же часто делают задумчивое лицо, не зная, что ответить. Мы даже как-то писали об этом пост.

Сегодня пришло время рассказать, в чем же разница между HTTP и HTTPS, а также разобрать механику HTTP-запроса и ответа и ключевые принципы работы обоих протоколов. В общем, прочитав эту статью, вы точно сможете дать правильный ответ на собеседовании.

Читать далее

Больше чем просто данные в S3. Iceberg как основа архитектуры Next-Gen КХД

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3.2K

Традиционные форматы хранения данных постепенно перестают удовлетворять требованиям современных распределенных вычислений и аналитики больших данных. Каскадные обновления метаданных, проблемы консистентности и высокая стоимость поддержки вынуждают искать альтернативы. Ответом на запросы стало появление формата Iceberg, который предложил новую парадигму организации структурированных данных, позволяющую эффективно управлять петабайтами информации даже в распределенных средах. 

Привет, Хабр. Меня зовут Алексей Белозерский. Я руководитель профессионального сервиса VK Data Platform, VK Tech. В этой статье я расскажу, что стало предпосылкой появления нового формата данных и что скрывает Iceberg «под толщей воды».

Читать далее

5 ключевых улучшений нового поколения однофазных ИБП Systeme Electric

Время на прочтение6 мин
Количество просмотров729

Недавно мы анонсировали выход на российский рынок нового поколения однофазных источников бесперебойного питания серии Smart-Save Online SRT G2. Да, звучит, вероятно, достаточно длинно, но данное название лучше всего отражает саму суть новинки – это следующее поколение уже давно представленной на рынке линейки SRT и, как полагается, улучшенное поколение! В рамках данного обзора постараемся сформулировать ключевые улучшения, которых нам удалось добиться, а также пояснить, как это может помочь нашим клиентам и партнерам.

Предлагаем посмотреть на сами ИБП – в линейке доступны две серии, соответствующие мощностным диапазонам 1-3 кВА и 5-10 кВА. На текущий момент это устоявшаяся традиция делить однофазные ИБП именно так, то есть на те, которые можно воткнуть в обычную розетку 16 А, и на более мощные устройства, требующие уже клеммного подключения входного питания.

Начнем с меньшей мощности 1-3 кВА.

Читать далее

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

Время на прочтение7 мин
Количество просмотров1K

В сегодняшней, уже третьей по счету, публикации я продолжу делится результатами нагрузочных испытаний вычислительных технологий массивных параллельных вычислений (на Habr уже представлены мои материалы, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS). В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

Читать далее

Непопулярный вариант развертывания хранилища Nextcloud

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров9.5K

Привет, Хабр. У меня тут такая история случилась: накопился массив фотографий с путешествий, всяких документов, семейных архивов и учебных материалов по всяких курсам — всего где-то гигов 300. Все важное, ценное, и, конечно, это все очень не хочется потерять.

Я почитал статьи здесь на Хабре, погуглил и понял, что многие покупают себе физические серверы с дисками и на них устраивают хранилища, например, Nextcloud. Звучит удобно: можно настроить синхронизацию со всех устройств, не надо переживать за безопасность, потому что на сервере уже есть защита, и я полностью управляю своими данными. Одно «но» — для меня это дороговато. Получается, что на средний вариант такого сервера и пары дисков, чтобы настроить рейд-массив, нужна приличная сумма. Плюс по комментариям к статьям понял, что придется заморочиться с установкой Nextcloud на сервер. Не уверен, что хочу ввязываться в такие сложности.

Пока изучал тему, увидел, что есть и другой вариант — более дешевый и вроде такой же простой по установке и настройке. Решил протестировать и рассказать, что же у меня в итоге получилось.

Читать далее

Где до сих пор используют дискеты и другие устаревшие носители, которые не умирают даже в 2025 году

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров25K

В это может быть непросто поверить, на наших глазах уже выросло целое поколение, которое дискету не то что не использовало, а даже в глаза не видело. В целом, все логично. Технология давно умерла и предана забвению. Так, по крайней мере, принято считать. Но есть категория людей, которым об этом почему-то не рассказали, и они продолжают полагаться в своей работе даже не на диски DVD-RW, а на старые добрые дискеты. Разных форматов, конечно, но все-таки дискеты. И таких историй больше, чем кажется.

Читать далее

Ближайшие события

Документный хаос? RAG-система придёт на помощь

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.3K

Статья описывает практическую реализацию системы Retrieval-Augmented Generation (RAG) для превращения документов в интерактивную базу знаний. Показано, как хранение эмбеддингов в Qdrant и интеграция с языковой моделью (LLM) позволяют быстро получать точные ответы на вопросы. Рассматриваются архитектура, ключевые компоненты и внутренние механизмы работы системы, полезные для разработчиков и новичков в области RAG.

Читать далее

Я выполнил реверс-инжиниринг веб-обфускации Amazon, потому что приложением Kindle пользоваться невозможно

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров12K

TL;DR

• Я впервые купил на Amazon электронную книгу

• Android-приложение Kindle самой компании Amazon было очень забагованным и часто вылетало

• Попробовал скачать мою книгу, чтобы читать её в реально работающем приложении для чтения

• Осознал, что Amazon больше не позволяет этого делать

• Решил назло выполнить реверс-инжиниринг её системы обфускации

• Обнаружил множество слоёв защиты, в том числе рандомизированные алфавиты

• Победил их все при помощи колдунства с сопоставлением шрифтов

Читать далее

Что выгоднее и безопаснее для хранения фото, видео и других данных: облако или собственный NAS

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров27K

Думаю, не будет большой ошибкой предположить, что ваш смартфон имеет накопитель минимум на 128 ГБ, больше половины из которых почти наверняка занимают фотографии, какие-то случайные видео и, конечно, скриншоты. Держать это все во встроенной памяти, конечно, можно. Но тогда есть риск, что оставшегося пространства банально не хватит для новых приложений и Телеграма с Ватсапом, которые имеют свойство разрастаться очень и очень сильно. Значит, все это добро надо куда-то деть. Вопрос в том – куда. Облако – ненадежно. Свое железо – надежно, но дорого. Или наоборот… В общем, давайте посмотрим на вещи объективно и постараемся понять, где лучше всего хранить свои данные.

Читать далее

Гид по Cloudberry ч.2: advanced-возможности, дорожная карта и планы развития

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров499

В прошлый раз, в первой части нашего гида по Apache Cloudberry™, мы поговорили об истории проекта, его архитектуре, ядре СУБД и функциях платформы. 

Но помимо ядра СУБД, мы также хотим использовать data‑lakehouse‑запросы. В Data Lakehouse есть некоторые проблемы: мы не можем получать данные оттуда напрямую. В Cloudberry разработана технология, с помощью которой можно это делать, так что поговорим об этом подробнее. А также рассмотрим ещё несколько интересных возможностей и расскажем о планах проекта.

Читать далее

Toshiba разработала HDD с 12 пластинами: до 40 ТБ в одном корпусе. Что за новинка?

Время на прочтение4 мин
Количество просмотров6K

В октябре 2025 года Toshiba представила жесткий диск, который сразу привлек внимание рынка. Дело в том, что разработчикам удалось разместить двенадцать пластин в стандартном 3,5-дюймовом корпусе, где раньше помещалось не больше десяти. Более того, это решение открывает путь к появлению моделей емкостью до 40 ТБ уже в ближайшие пару лет — при тех же размерах и уровне энергопотребления.

Стоит отметить, что во втором квартале 2025 года доля Toshiba на рынке жестких дисков была около 17 % — меньше, чем у Seagate и Western Digital. Компания развивается и продолжает развивать собственные технологии, делая ставку на повышение плотности записи и надёжности носителей. Последняя разработка с двенадцатью пластинами стала следующим шагом в этой стратегии. Новинка рассчитана прежде всего на дата-центры, где особенно важны высокая ёмкость, стабильная работа и низкая цена за гигабайт. 

Читать далее

Как повысить качество клиентских данных

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров477

Привет, Хабр. В этой статье делюсь опытом повышения качества клиентских данных в онлайн-обучении и выводами, к которым я пришел по итогам.

Узнать, как улучшить качество данных

Как формат VideoDisc стал основой для SCM‑микроскопа

Время на прочтение11 мин
Количество просмотров1.1K

В 70–80-е годы развернулась настоящая «битва видеоносителей»: Betamax, VHD (Video High Density), LaserDisc и VHS. Победителем, как известно, стал последний. Но в этой гонке участвовал и американский гигант Radio Corporation of America — со своим форматом CED (Capacitance Electronic Disc), также известным как VideoDisc.

Проект обошёлся компании почти в 500 миллионов долларов и закончился крахом: в 1987 году RCA прекратила существование. Казалось бы, точка. Но одна из технологий, созданных для CED, неожиданно обрела вторую жизнь — и привела к появлению сканирующего ёмкостного микроскопа.

Читать далее
1
23 ...

Вклад авторов