Обновить
176.47

Хранение данных *

Что имеем, то храним

Сначала показывать
Порог рейтинга
Уровень сложности

Интеграция Kafka с Manticore Search: пошаговое руководство по обработке данных в реальном времени

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.8K

Kafka — это популярный брокер сообщений, который используется в самых разных проектах: от обработки логов и управления очередями задач до персонализации контента и аналитики в реальном времени. Например, его можно использовать для индексирования изменений в Википедии или поиска товаров в интернет-магазинах. Manticore Search, в свою очередь, поддерживает интеграцию с Kafka, что позволяет автоматически импортировать данные и использовать их для полнотекстового поиска, аналитики, векторного поиска и многого другого.

При импорте данных в Manticore вы можете гибко их обрабатывать:

Читать далее

Как писать запросы для табличных моделей с помощью DAX

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

В этой статье мы погрузимся в мир запросов DAX для табличных моделей данных. ДAX (Data Analysis Expressions) — это мощный язык запросов, который используется для анализа и обработки данных в Power BI и других продуктах Microsoft. Мы рассмотрим, как с помощью DAX можно выполнять эффективные запросы к данным, начиная с простых операций, таких как получение всех строк из таблицы, и заканчивая более сложными задачами, например, использованием локальных мер и фильтрации данных.

Статья будет полезна как новичкам, так и опытным пользователям, стремящимся глубже понять возможности DAX и научиться использовать его для быстрой и точной аналитики.

Читать далее

Тестируем скорость SSD 1993 года выпуска. На КПК Psion Series 3c, с операционной системой SIBO 16, на языке OPL

Время на прочтение7 мин
Количество просмотров2.2K

В середине 2000 я купил Psion 3c для коллекции. Лет через 10 увидел, что его комплектный диск называется SSD — Solid State Disk. На волне тестирования NVME возникла идея, а не протестировать ли скорость SSD-1993? И спустя 20 лет после покупки на этой машинке была написана первая программка.

Что вышло…

Контролируем качество данных с помощью Python

Время на прочтение6 мин
Количество просмотров5.4K

В работе с данными одной из самых больших трудностей является обеспечение их качества. В процессе анализа и обработки информации приходится сталкиваться с множеством проблем, таких как отсутствие нужных значений, неправильно отформатированные данные или ошибки, появляющиеся при сборе данных с веб-ресурсов.

В этой статье мы рассмотрим, как с помощью Python можно автоматизировать процесс проверки и очистки данных, используя популярные библиотеки, такие как pandas и pyspark. Мы исследуем практические подходы к подготовке данных для анализа, включая поиск аномалий, постобработку и работу с пустыми значениями, что поможет обеспечить высокое качество данных для дальнейших исследований и принятия решений.

Читать далее

Отвечает ли CRM за сохранность ПД и как не нарушить закон при хранении ПД в обычной таблице

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.7K

Сегодня утром вы открыли глаза и четко осознали: бизнесу нужно развиваться!  Отлично, используйте все легальные доступные инструменты.

Только, пожалуйста, не развивайте свое дело, пренебрегая обязательными пунктами ведения бизнеса, которые установило законодательство. Я о работе с персональными данными. Не устаю напоминать, потому что это действительно важно.

Сегодня разбираю законность хранения ПД в обычных таблицах и CRM-системах. Вам нужно это знать, даже если в вашей компании работает три человека

Узнать про хранение ПД в таблицах и CRM

Варианты усиления фальшпола для ЦОД

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.1K

Современные потребности в Центрах Обработки Данных достигли невероятных масштабов, превратив их проектирование и строительство в практически рутинный процесс. Каждый заказчик стремится получить больше, чем просто стандартное решение: им нужны ЦОД, которые соответствуют принципу «Больше, выше сильнее». Больше машзалов, выше потолки, мощнее охлаждение. Иногда эти запросы доходят до экзотических решений, таких как размещение ЦОД в регионах с холодным климатом, например, в Скандинавии, где естественная вечная мерзлота используется для охлаждения серверов, или даже подводные дата-центры, которые погружаются на дно океана для снижения затрат на охлаждение.

Однако, несмотря на такие необычные подходы, большинство проектов ЦОД остаются довольно типичными. Тем не менее, каждый из них имеет свои уникальные особенности и нюансы, которые возникают из-за классической дилеммы: «Быстрее, лучше, дешевле — выбери только два». При разработке проекта часто приходится выбирать между тем или иным решением, обосновывая свою позицию экономией средств или большей надежностью. Эта проблема становится ключевой при разработке любого проекта, заставляя инженеров и архитекторов постоянно искать компромиссы. Например, приходится выбирать между более дорогим, но надежным оборудованием и бюджетными решениями, которые могут сэкономить средства, но потребуют дополнительных усилий для обеспечения стабильной работы. Каждый выбор требует тщательного обоснования, будь то экономия ресурсов или повышение надежности инфраструктуры.

Читать далее

Obsidian: автоматизация простыми Шаблонами

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров31K

В этой статье я расскажу про то, как можно автоматизировать некоторые задачи с помощью встроенного плагина Шаблоны и подготовлю себя и вас к самому крупному и исчерпывающему руководству по плагину Templater , который я выпущу следующей публикацией. 

Читать далее

Зачем Switch построила ЦОД в пустыне, а IBM — в бывшей рудной шахте: 10 необычных локаций дата-центров

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров5.7K


Спрос на услуги дата-центров растёт. По прогнозам, к 2030 году мировой рынок ЦОДов достигнет $409,1 млрд. Это обусловлено тем, что всё больше компаний переводят операции в облаках, работают с ИИ, большими данными и требуют от инфраструктуры скорости, надёжности и энергоэффективности.

Именно поэтому дата-центры появляются не только в привычных индустриальных зонах, но и в самых неожиданных местах — от подземных шахт до дна океана. Рассмотрим необычные локации и попытаемся выяснить, почему компании выбрали такие базы для серверов.
Читать дальше →

Книга: «Elasticsearch для разработчиков: индексирование, анализ, поиск и агрегирование данных. 2-е изд.»

Время на прочтение5 мин
Количество просмотров3K
Привет, Хаброжители!

Вы знакомы с Elasticsearch? Это мощный инструмент для работы с большими объемами данных. Его гибкость, масштабируемость и высокая производительность делают его незаменимым в современных IT-решениях. Книга Анурага Шриваставы «Elasticsearch для разработчиков» — это подробное руководство, которое шаг за шагом раскрывает все аспекты работы с этой технологией: от базовых принципов до сложных сценариев использования.

Шривастава начинает с основ, постепенно погружая читателя в мир Elasticsearch, и к концу книги даже новичок сможет уверенно работать с индексами, запросами, агрегациями и геоданными. Практические примеры и четкие объяснения помогают закрепить знания, а структура книги позволяет изучать материал в удобном темпе.
Читать дальше →

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.1K

Аналитика по скидке: когда клиенты готовы платить только впечатлениями

Если данные новая нефть, то почему за нее не готовы платить?

Как измерить ценность внедрения аналитики?

Читать далее

Создаем картотеку людей в Obsidian максимально лениво или «Тронул мышку — проиграл»

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров16K

Я уже писал на Хабре статью, что такое СДВГ и как он влияет на жизнь. Жизнь с СДВГ создаёт свои трудности и я (как имеющий этот синдром) ненавижу и максимально стараюсь избегать любую рутину.

Иногда это доходит до крайности — мне необходимо заполнить какие-то заметки, но они все одинаковые. Ты их копируешь, вставляешь, опять поднимаешь руку к мышке, пытаешься попасть в нужную строку иии... глючит при прокрутке ролик, ты промазываешь и эмоции такие, что хочется выкинуть всю технику в окно.

Поэтому я сделал для себя кучу шаблонов заметок, которые очень быстро заполняются по правилу игры «Тронул мышку — проиграл». Эти шаблоны сильно облегчили мою жизнь и одним таким шаблоном я и хочу поделиться.

Читать далее

(Почти) идеальный мини-NAS для мини-стойки

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров24K

Мини-ПК GMKtec G9  N150 с четырьмя  отсеками NVMe стоит 240  долларов — практически идеальное NAS-устройство для домашней мини-стойки. Он оснащен четырехядерным процессором Intel N150  с интегрированной графикой Intel UHD среднего уровня, 12  ГБ оперативной памяти LPDDR5, двумя портами Ethernet 2,5  Гбит/с, WiFi  6  и, что самое приятное, четырьмя  встроенными слотами M.2  NVMe.

Казалось бы, что не так?
Читать дальше →

Делиться знаниями — значит расти. 6 шагов к построению базы знаний на основе Data Warehouse (DWH)

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.2K

Этот текст — эссенция практического опыта креативного специалиста, который помогает бизнесу находить технические решения в области построения базы знаний. Решил поделиться своими заметками об архитектуре хранилища данных (DWH) и написать, почему важно хранить корпоративные данные в едином хранилище, как преодолеть внутренние барьеры (вроде страха критики и синдрома самозванца) для начала обмена знаниями и какими техническими и организационными решениями можно сделать этот процесс удобным и полезным. В статье — живой опыт, конкретные советы и немного вдохновения для тех, кто только начинает делиться знаниями внутри команды.

Читать далее

Ближайшие события

Как сделать компьютерную память из ржавых гвоздей и нейросети — из медных проволок?

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров11K
Картинка — Kaboompics, Flatart, Freepik

Сегодня мы поговорим о таком интересном классе электронных компонентов, который носит название «мемристоры» и позволяет даже строить на их основе нейросети.

Их привлекательность заключается в том, что их вполне можно делать даже самостоятельно, из подручных компонентов.

В последнее время мы привыкли, что под понятием нейросетей подразумеваются определённые программные структуры. Однако мемристоры позволяют строить нейросети на физической основе! О_о

Аппаратные физические нейросети… Как вам такое? :-) Весьма близко к тому, что мы видим в природе, кстати говоря…
Читать дальше →

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

Время на прочтение11 мин
Количество просмотров7K

В статье рассказываем, что такое Ansible и как инструмент может применяться в проектах DWH: от автоматического развертывания и настройки компонентов до восстановления после сбоев и централизованного управления параметрами.

Сравниваем Ansible с другими инструментами для автоматизации управления инфраструктурой: Puppet, Chef, SaltStack.

Читать далее

Асинхронно копируем объекты между регионами S3 с помощью Python

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.3K

Привет, Хабр! Я Александр Гришин, отвечаю за развитие облачных баз данных и объектного хранилища в Selectel. В своей практике часто сталкиваюсь с разными задачами клиентов. Среди них, например: реализовать репликацию данных между удаленными друг от друга регионами, отработать домен отказа «Регион» и повысить уровень отказоустойчивости своих сервисов, убрав привязку к одному городу и инфраструктуре. Сегодня я расскажу, как легко реализовать асинхронную репликацию данных в инфраструктуре Selectel, используя Python и boto3. Погнали!
Читать дальше →

7 опорных функций, которые должны быть в вашей системе Data Governance

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.2K

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance.

Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения.

Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.

Читать далее

В Европе снова заговорили об отказе от американских платформ и суверенном облаке — анализ ситуации

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.3K

Разбираемся, в чем заключается проблема с точки зрения европейских регуляторов, какие попытки уже были предприняты и что в ЕС планируют делать дальше.

Читать далее

NVRAM из EEPROM

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3K

Дана функция чтения и записи EEPROM dword.

Запись и стирание возможно только по выровненному адресу и пословно.

Надо поверх EEPROM API сделать функцию чтения, записи и стирания для произвольных массивов байт, по произвольному адресу (NVRAM).

Простыми словами надо состыковать Dword API с Byte API.

В этом тексте я представил простой наивный алгоритм решения данной задачи.

Читать далее

Погружение в ClickHouse: делаем первые и успешные шаги

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров15K

Привет! Меня зовут Андрей Дорожкин, и я руковожу командой администрации баз данных в Hybrid. В этом материале я поделюсь опытом работы с ClickHouse — колоночной БД, разработанной специально для аналитических запросов, которая позволяет получать результаты в разы быстрее традиционных решений. Также я подсвечу, как устроен этот продукт, чем он отличается от реляционных баз данных, и в каких сценариях его использование может дать бизнесу реальное преимущество.

Пара слов о компании Hybrid. Мы — независимая AdTech-экосистема с собственным стеком технологий и решений для любых рекламных целей. Развиваем собственные технологии благодаря in-house отделу разработки, который каждый день работает над их улучшением. ClickHouse — инструмент, который мы выбираем для хранения данных за высокую скорость обработки запросов, эффективное сжатие данных и масштабируемость.

Читать далее

Вклад авторов