Как стать автором
Поиск
Написать публикацию
Обновить
118.02

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Правда ли, что ленточные хранилища – самые надежные, и когда стоит покупать именно их, а не HDD

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров8.6K

Ленточные накопители сохраняют свою актуальность даже в эпоху SSD и облачных технологий. Благодаря высокой надежности, экономической эффективности и уникальным свойствам они остаются незаменимыми в решении задач архивного хранения и резервирования данных. В этой статье мы рассмотрим, почему ленточные хранилища превосходят HDD, изучим их ключевые преимущества и ограничения, а также определим сценарии использования, в которых они наиболее уместны.

Читать далее

Дата-контракты: как мы научили жить дружно источники и потребителей данных

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.1K

Всем привет! На связи Патрисия Кошман, руководитель группы по управлению данными и эксперт по управлению метаданными, и Аксинья Ласкова, эксперт по практикам качества данных из МТС.

В нашей компании порядка 400 разных продуктов, и мы часто сталкиваемся с проблемой синхронизации данных между ними. Легкое изменение в структуре источника может привести к тому, что сломается сразу несколько систем. Один из вариантов их синхронизации — дата-контракты. Они позволяют достичь взаимопонимания между участниками обмена данных, обеспечить их правильную передачу и интерпретацию. В этом посте мы расскажем, как мы пришли к идее внедрения дата-контрактов, что нам это дало и как их можно автоматизировать.

Читать далее

Как обмануть нейронную сеть

Время на прочтение16 мин
Количество просмотров6K

Привет, Хабр! 8 ноября отгремел очный финал МТС True Tech Champ 2024. В программе было много интересного — например, гонки роботов и конференция с докладами на главной сцене. Постепенно мы с вами ими делимся.

Сегодня публикуем пост на основе доклада «Как обмануть нейронную сеть» Алексея Зайцева — старшего преподавателя Сколтеха и руководителя лаборатории Центра прикладного искусственного интеллекта. Со своей командой он разрабатывает и исследует модели искусственного интеллекта, решает прикладные задачи и отвечает на фундаментальные вопросы. Что такое ИИ, как обучить нейросеть и как ее обмануть — об этом и не только прочитаете дальше. Полную видеоверсию можно посмотреть тут. Поехали!

Читать далее

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3K

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

Читать далее

Garak: инструмент Red-Team для поиска уязвимостей в LLM

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2K

«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах фишинга!». — Эти новостные заголовки раскрывают нам тёмную сторону больших языковых моделей. Да, они генерируют за нас контент и анализируют данные, но помимо удобства, приносят новые виды атак и уязвимостей, с которыми надо уметь бороться.

Меня зовут Никита Беляевский, я исследую аспекты безопасности LLM решений в лаборатории AI Security в Raft и хочу поделиться нюансами настройки и использования инструмента для выявления угроз в системах на основе LLM.

Читать далее

MCP: новая игра на рынке искусственного интеллекта

Время на прочтение14 мин
Количество просмотров15K

Всё, что нужно знать о Model Context Protocol (MCP)

«Даже самые продвинутые модели ограничены своей изоляцией от данных — они заперты в информационных силосах и легаси-системах».
Anthropic о важности интеграции контекста

Сегодняшние большие языковые модели (LLM) невероятно умны, но находятся в вакууме. Как только им требуется информация вне их «замороженных» обучающих данных, начинаются проблемы. Чтобы AI-агенты действительно были полезны, им нужно получать актуальный контекст в нужный момент — будь то файлы, базы знаний, инструменты — и даже уметь совершать действия: обновлять документы, отправлять письма, запускать пайплайны.

Так сложилось, что подключение модели ко всем этим внешним источникам данных было хаотичным и нестабильным: разработчикам приходилось писать кастомные интеграции или использовать узкоспециализированные плагины под каждый API или хранилище. Такие «сделанные на коленке» решения были хрупкими и плохо масштабировались.

Чтобы упростить это, Anthropic представила Model Context Protocol (MCP) — открытый стандарт, предназначенный для того, чтобы связать AI-ассистентов с данными и инструментами, подключая любые источники контекста. MCP был анонсирован в ноябре 2024 года. Тогда реакция была сдержанной. Но сегодня MCP — на волне: он уже обогнал LangChain по популярности и, по прогнозам, скоро обойдёт OpenAPI и CrewAI.

Крупные игроки AI-индустрии и open source-сообщества начали активно поддерживать MCP, видя в нем потенциально революционный инструмент для построения агентных систем на базе LLM.

Читать далее

Влияние маленьких файлов на Big Data: HDFS vs S3

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.3K

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).

Тесты, графики, инсайды

Self-Service BI: как сделать, чтобы он полетел

Уровень сложностиПростой
Время на прочтение29 мин
Количество просмотров2.3K

«Спасение утопающих — дело рук самих утопающих». Иногда это звучит не так уж и плохо.

Привет, Хабр! Меня зовут Юлий Гольдберг, работаю в GlowByte (занимаюсь платформами данных, BI, аналитическими решениями больше 20 лет). Сегодня хочу поделиться некоторыми наблюдениями о том, про что нужно не забывать, чтобы Self‑Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием.

Читать далее

Геоинтерполяция от А до Я: как создать карту покрытия сети

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров1.4K

Привет, Хабр! Меня зовут Даулет Курмантаев, я дата-сайентист в крупной казахстанской телеком-компании. Работаю в отделе Customer Experience Management. Мы анализируем качество связи и автоматизируем решения по строительству и модернизации базовых станций. 

В этой статье расскажу, как мы использовали геоаналитику и интерполяцию для создания карты покрытия сети. Поделюсь методами, с которыми работали; проблемами, с которыми столкнулись; и результатами, которых добились. 

Читать далее

Эпилог. Создание ботов для торговли криптовалютами и акциями (часть третья, заключительная)

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров11K

Предыдущий пост: https://habr.com/ru/articles/677290/

Ильф и Петров оживили Остапа, и по их примеру, оказавшись в определенной точке своей жизни, я решил написать продолжение своих заметок. Спойлер для тех кому лень читать дальше  - у меня нет яхты, я ищу работу на заводе, и если повезет, то это будет завод по выращиванию медицинского каннабиса.

В этой статье не будет технических решений или алгоритмов, я хочу рассказать о своем опыте, который приобрел с момента опубликования предыдущего текста и перемещения меня в другую жизнь.

Читать далее

Как собрать ETL-процессы в Apache Airflow и перестать страдать

Время на прочтение10 мин
Количество просмотров6.9K

Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?

Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.

Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом.

Читать далее

Киберэкономика. Пределы роста

Уровень сложностиСредний
Время на прочтение24 мин
Количество просмотров2.2K

В современном мире цифровая киберэкономика становится неотъемлемой частью глобальной экономики, трансформируя способы ведения бизнеса, взаимодействия и обмена информацией. С развитием технологий, таких как искусственный интеллект и нейросети, открываются новые горизонты для инноваций и оптимизации процессов. Однако с этими возможностями приходят и серьезные вызовы, среди которых одной из наиболее актуальных проблем является фальсификация цифровой информации. Нейросети, обладая способностью генерировать убедительные тексты, изображения и даже видео, которые с каждым днем становятся все более реалистичными даже для экспертов, ставят под угрозу достоверность данных, доверие к цифровым ресурсам и репутацию лиц, принимающих решения.

Читать далее

Модели BERT для машинного обучения: гайд для начинающих

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров13K

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.

Читать далее

Ближайшие события

Как создать датасет для машинного обучения за 6 шагов

Время на прочтение9 мин
Количество просмотров8.6K

Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.

Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.

Читать далее

Как Лента формирует эффективный ассортимент на основе данных

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.9K

Привет, Habr!

Меня зовут Катя, я продакт-менеджер BigData в группе компаний «Лента», отвечаю за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажу про путь к управлению ассортиментом на основе данных и наш флагман – приложение Deli – рабочее место, в котором менеджер анализирует матрицу своих категорий и вносит в нее изменения на основе рекомендаций алгоритма.

Читать далее

Современная Lakehouse-платформа данных Data Ocean Nova

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров5.9K

Привет. Меня зовут Евгений Вилков. Я занимаюсь системами управления и интеграции данных с 2002 г., а конкретно системами анализа и обработки данных — с 2007 г. Технологии, с которыми я имел дело на протяжении моего профессионального пути, стремительно развивались. Начиная с решений, основанных на стеке традиционных СУБД, таких как Oracle, MS SQL Server, Postgres, постепенно эволюционируя в ставшие уже классическими (а некоторые даже и закрытыми) MPP-системы, такие как Teradata, GreenPlum, Netezza, Vertica, IQ, HANA, Exadata, ClickHouse, в различные решения на базе экосистемы Hadoop, облачные сервисы и платформы. Меняется мир, меняются технологии, меняются подходы к проектированию, меняются и требования к задачам аналитического ландшафта данных.

Уверен, что многие, кто уже знаком с терминами Data Mesh и Data Lakehouse, задаются вопросом: что может предложить рынок аналитических систем в этих методологиях проектирования и архитектурных подходах. Я хочу рассказать об аналитической платформе данных Data Ocean Nova, владельцем и технологическим идеологом которой я являюсь.

Читать далее

«Магнит» совершенствует сервис доставки: новые алгоритмы определяют лучший магазин для вашего заказа

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.7K

Когда вы заказываете товары на сайте и в приложении, сервис доставки привозит их из магазинов «Магнит». Раньше для сборки заказов выбирался ближайший к покупателю магазин. Причём ближайший в буквальном смысле — по прямой. Это позволяло экономить на курьерах, но во всех магазинах разное количество сотрудников и ассортимент: где-то заказы собирали дольше, а где-то, из-за отсутствия определенных товаров, позиции в заказе меняли на аналоги. Поэтому мы решили поменять логику выбора магазинов, провели в нескольких городах пилотный проект и делимся первыми результатами.

Читать далее

Преимущества DAX на примерах

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров5.4K

Популярным языком запросов от Microsoft является DAX. В отличие от диалектов SQL, DAX позволяет аналитикам сфокусироваться на решении задач бизнес-аналитики, вместо того, чтобы заниматься рутинными техническими задачами (например, вопросами производительности).

Безусловно, DAX не является панацеей для решения любых задач, но, если честно, ознакомление с этим функциональным языком может быть своего рода открытием, что создать единый язык для всех SQL диалектов - это вообще "doable", причем поддерживаются практически все имеющиеся базы данных многих видов (например, реляционные, колоночные), а также обеспечивается высокая производительность запросов.

В этой статье рассматриваются преимущества DAX на конкретных примерах, таким образом, если Вам интересен Business Intelligence на DAX - добро пожаловать :)

Читать далее

Массивы вместо self-join: как писать быстрые запросы в ClickHouse

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.6K

Привет, Хабр! Я — Максим Шитилов, продуктовый аналитик в каршеринг-сервисе Ситидрайв. Каждый день мы обрабатываем большие объёмы данных, и ClickHouse — один из наших ключевых инструментов. Если вы когда-либо пытались связать события с временными интервалами или рассчитать метрику за определённое окно после события, то наверняка сталкивались с типичной конструкцией на self-join. Вроде бы работает, но запрос становится громоздким, ресурсоёмким и плохо масштабируется.

В этой статье я расскажу, как решать такие задачи проще и эффективнее — с помощью массивов, arrayFilter и arrayMap. Покажу, как отказаться от self-join’ов без потери точности, ускорить обработку и упростить код. Примеры — из реальных бизнес-кейсов: телеметрия, аренды, GMV и события, которые нужно связать между собой по времени. Так как схожих решений на просторах интернета я не нашёл, предлагаю назвать этот подход «Array Join Pattern». Если метод окажется полезным для сообщества, то такой паттерн легко будет найти другим аналитикам и девам.

Читать далее

Как OSA превращает пустые полки в полные корзины?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.8K

Вы когда-нибудь сталкивались с разочарованием перед пустой полкой, где должен быть ваш любимый майонез? А что если я вам скажу, что майонез в магазине есть. Помимо разочарования, это приводит еще и к потере выручки магазина.

Понять, почему товар числится в магазине, но не покупается посетителем, практически детективная задача. Так что наша команда занимается настоящими расследованиями: данные – наши улики, с помощью которых необходимо понять, почему вы не можете купить свой любимый майонез в ближайшем магазине. Именно здесь выходит на сцену команда проекта OSA. В этой статье погружу вас в детали работы нашего детективного бюро.

Читать далее

Вклад авторов