Обновить
65.17

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

WAP паттерн в data-engineering

Время на прочтение4 мин
Количество просмотров2.5K

Несмотря на бурное развитие дата инжиниринга, WAP паттерн долгое время незаслуженно обходят стороной. Кто-то слышал о нем, но не применяет. Кто-то применяет, но интуитивно. В этой статье хочу на примере детально описать паттерн работы с данными, которому уже почти 8 лет, но за это время ни одна статья не была написана с принципом работы.

Читать далее

7 взаимозаменяемых решений, которые мгновенно ускорят ваши рабочие процессы Data Science на Python

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.7K

Хотите сделать свои Python-скрипты для анализа данных быстрее без переписывания кода? NVIDIA предлагает 7 простых замен стандартных библиотек, которые позволяют значительно ускорить выполнение задач анализа данных без изменения кода. В статье рассматриваются готовые решения для замены Pandas, NumPy и других библиотек, использующие GPU для повышения производительности.

Приведены примеры кода и сравнительные тесты, демонстрирующие рост скорости обработки данных. Материал будет полезен специалистам в области Data Science и разработчикам, работающим с большими объемами информации.

Читать далее

Выбираем архитектуру данных для компании: руководство от дата-инженера

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров7.2K

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов. 

Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.

Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

Читать далее

ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления

Время на прочтение7 мин
Количество просмотров3.5K

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

ИИ под контролем: Guardrails как щит от рисков в агентных системах

Время на прочтение18 мин
Количество просмотров1.9K

Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.

Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.

В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!

Читать далее

Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.8K

Привет, Хабр! На связи Марк — ведущий архитектор группы компаний «ГлоуБайт». В этой статье я поделюсь результатами нагрузочного тестирования, которое мы с коллегами провели для сравнения Greenplum 6 с Greenplum 7 и Cloudberry.

Читать далее

Hybrid RAG: методы реализации. Часть 1 — Поиск

Время на прочтение13 мин
Количество просмотров4.5K

С ростом популярности Retrieval-Augmented Generation (RAG), как архитектуры для построения систем генерации контента на основе извлечённых данных, стало очевидно, что односложный подход к выбору источников знаний ограничивает качество результатов. В этой связи особый интерес представляют Hybrid RAG подходы, сочетающие различные методы поиска и представления данных, в целях улучшения полноты, точности и релевантность ответа.

В данной статье я поделюсь своим опытом в реализации Hybrid RAG систем, его архитектуры и практических методов реализации.

Читать далее

Как мы делаем SOC as a service: привлекаем большие данные и собственный SIEM на помощь клиентам

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3.5K

В работе с публичными облаками много плюсов, но с точки зрения ИБ — есть свои риски по сравнению с on‑premises. Минимизировать их помогает выделенный Security Operation Center (SOC). При этом создать его у себя не так просто: для эффективной работы SOC в Yandex Cloud понадобилось несколько лет разработки, а также технологии и мощности Яндекса, которые развивались годами.

Поскольку у клиентов облака не всегда есть ресурсы и экспертиза, чтобы создать подобный SOC у себя, мы не только строили свой центр, но и параллельно делали на его основе управляемый сервис Yandex Cloud Detection & Response (YCDR). В процессе разработки мы должны были позаботиться о том, чтобы даже привилегированные учётные записи не могли обойти семь слоёв облачной безопасности, — и в итоге многие компоненты написали самостоятельно.

Первая часть статьи для тех, кому важны механизмы безопасной изоляции ресурсов. Покажем, как мы строили SOC c учётом особенностей облачной защиты.

Вторая часть для тех, кто интересуется большими данными. Продемонстрируем, что скрывает под капотом сервис, обрабатывающий более полумиллиона событий в секунду. А также расскажем, почему нам потребовалось создать для него собственную SIEM‑систему.

Читать далее

Как AI-редактор Cursor меняет процесс разработки — и стоит ли ему доверять

Время на прочтение19 мин
Количество просмотров33K

Одним из крупнейших сдвигов в современном софтверном девелопменте стало стремительное распространение AI-инструментов для написания кода. Эти решения помогают как разработчикам, так и людям без технического бэкграунда быстрее писать код, запускать прототипы и готовые приложения. Среди таких инструментов достаточно быстро привлёк внимание Cursor, почти сразу он занял позицию одного из лидеров рынка.

В этой статье я подробнее рассмотрю Cursor, его сильные и слабые стороны, а также сравню его с другими AI-редакторами кода. Это будет практический гайд, в котором я поделюсь своим опытом использования Cursor для создания to-do приложения. К концу материала у вас сложится четкое представление о том, подходит ли Cursor для вашего собственного девелоперского workflow.

Поехали.

Читать далее

Поисковые подсказки: подход «генератор-дискриминатор»

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров886

Всем привет! Меня зовут Федор Курушин, я занимаюсь машинным обучением в поиске Wildberries. Прямо сейчас я работаю над развитием сервиса персональных поисковых подсказок.

Недавно вместе с коллегой мы представляли нашу совместную работу Product Search Prompts: Generator-Discriminator Approach на конференции FICC 2025.

О подходе, который мы разработали для создания поисковых подсказок и для поиска релевантных похожих запросов для разных бизнес-сценариев, и пойдет речь в этой статье.

Читать далее

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров527

StarRocks 3.5 приносит точечные улучшения по надёжности, производительности и безопасности: кластерные Snapshot для DR в архитектуре shared-data (разделение хранения и вычислений), оптимизацию пакетной загрузки (Load Spill) для сокращения мелких файлов и пропуска Compaction, более гибкое управление жизненным циклом партиций (слияние по времени и автоматический TTL), многооператорные транзакции для ETL, ускорение запросов по озеру данных через автоматические глобальные словари, а также поддержку OAuth 2.0 и JWT.

Читать далее

Разработка DWH с нуля – особенности архитектуры

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.3K

Проект по построению DWH с нуля был запущен по инициативе Заказчика в рамках крупной трансформации управленческой отчетности и аналитики. 

В статье расскажу, как мы выстроили архитектуру DWH, какие подходы использовали на каждом уровне, с какими подводными камнями столкнулись и как обеспечили стабильную поставку данных для аналитики.

Читать далее

От GreenPlum к Mirrorship: Кейс трансформации Bank of Hangzhou Consumer Finance на основе архитектуры Lakehouse

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров713

Bank of Hangzhou Consumer Finance, являясь лицензированной организацией потребительского финансирования, всегда сохраняла сильный дух технологических инноваций, занимая второе место в отрасли по количеству патентов. Столкнувшись с вызовами, связанными с быстрым ростом бизнеса, компания начала трансформацию своей инфраструктуры данных, кульминацией которой стало создание платформы GLH Lakehouse на базе Mirrorship.

Читать далее

Ближайшие события

Мгновенный доступ к данным для 1 000 + директоров с помощью ИИ. Кейс ритейлера

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров498

В этой статье расскажем о том, как компания Лэтуаль столкнулась с необходимостью организовать быстрый доступ к аналитике для управленческого состава, с какими сложностями столкнулась и к чему пришла в итоге (и как пригодился ИИ).

Одной из ключевых задач компании является ускорение реакции на изменения показателей в течение дня для всех уровней управленческой вертикали — от топ-менеджмента до управляющих оффлайн-магазинов. Для этого нужен быстрый и удобный доступ к оперативным показателям деятельности каждого магазина.

В компании был реализован механизм рассылок отчетности, однако он не удовлетворял всем требованиям.

Читать далее

Будущее, в котором ИИ — герой, а не злодей

Время на прочтение24 мин
Количество просмотров1.6K

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике.

К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти.

Для начала короткое описание того, что такое AI: это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией.

А теперь коротко о том, чем AI не является: это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах.

И еще короче о том, чем AI может стать: способом сделать лучше всё, что нам действительно важно.

Читать далее

Стратегия успеха: ключи к развитию карьеры в Data Science. Часть 2

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров3.3K

Привет! Я Анна Ширшова, руководитель Кластера моделирования для CRM и оптимизации в ВТБ. Это вторая часть моего материала о карьерном росте в Data Science. В первой мы говорили о том, как правильно ставить карьерные цели, избегать типичных ошибок и добиваться высоких результатов. А в этой статье поговорим о важности самопрезентации и самосовершенствования.

Читать далее

Планировщики процессов для необычных областей знаний

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

Продолжаем обсуждать примечательные инструменты для автоматизации и управления рабочими процессами (и напоминаем про MWS Tables — платформу для командной работы, включающую таблицы, трекер задач, отчётность и другие инструменты, собранные в одном сервисе; можно с лёгкостью создать рабочее пространство для себя или небольшой команды).

Сегодня рассмотрим узкоспециализированные решения для различных областей знаний: Covalent, Cromwell, Cylc и Martian. Эти решения используются для высокопроизводительных вычислений, в работе с квантовыми алгоритмами, климатическом моделировании и анализе медицинских данных.

Читать далее

ClickHouse не тормозит, но теряет данные. Часть 2 — от буферных таблиц к Kafka Engine

Время на прочтение6 мин
Количество просмотров4.5K

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

Роль каталога данных в безопасности T Data Platform

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров621


Привет, Хабр! На связи Дима Пичугин, тимлид в направлении комплаенса и безопасности данных. В статье рассказываю о пользе, которую подразделение информационной безопасности Т-Банка получило от каталога данных Data Detective и процессов вокруг него. 

Как человек, который стоял у истоков появления каталога данных в Т-Банке и выстраивал процессы защиты чувствительных данных, я надеюсь, что статья поможет кому-то избежать некоторых наших ошибок. При желании можно творчески позаимствовать некоторые из наших наработок для решения своих задач.

Читать далее

AutismSmartDetector: Система для определения черт аутистического спектра

Время на прочтение11 мин
Количество просмотров687

Оригинал материала

Проект "AutismSmartDetector" представляет собой инновационную систему на основе искусственного интеллекта, предназначенную для автоматического определения черт аутистического спектра по фотографиям лиц. Система использует свёрточную нейронную сеть (CNN), обученную на большом наборе данных, чтобы классифицировать изображения на две категории: "Autistic" и "Non-Autistic".

Преимущества для различных отраслей

Для врачей и медицинских учреждений

Ранняя диагностика: Система позволяет врачам быстро и эффективно проводить предварительную оценку пациентов на наличие аутистических черт, что способствует ранней диагностике и своевременному началу лечения.

Улучшение качества обслуживания: Автоматизация процесса диагностики позволяет врачам сосредоточиться на более сложных случаях и уделить больше времени пациентам.

Повышение точности: Использование искусственного интеллекта снижает вероятность ошибок в диагностике, что повышает точность и надежность результатов.

Для финансовых организаций

Оценка рисков: Система может использоваться для оценки рисков при выдаче кредитов или страховых полисов, учитывая особенности поведения и состояния здоровья клиентов.

Персонализация услуг: Финансовые организации могут предлагать персонализированные услуги и продукты, учитывая индивидуальные особенности клиентов.

Для цифровых экосистем

Улучшение пользовательского опыта: Система может быть интегрирована в платформы для улучшения пользовательского опыта, предлагая персонализированные рекомендации и услуги.

Анализ поведения пользователей: Анализ черт аутистического спектра может помочь в понимании поведения пользователей и адаптации интерфейсов и сервисов под их потребности.

Для соцсетей

Безопасность и модерация: Система может использоваться для модерации контента и обеспечения безопасности пользователей, особенно тех, кто может быть уязвим из-за особенностей поведения.

Персонализация контента: Социальные сети могут предлагать персонализированный контент и рекомендации, учитывая индивидуальные особенности пользователей.

Для сервисов знакомств

Персонализация рекомендаций: Система может помочь в подборе партнеров, учитывая индивидуальные особенности и потребности пользователей.

Безопасность и защита: Сервисы знакомств могут использовать систему для защиты пользователей от мошенников и недобросовестных участников.

Основные возможности

Обучение модели: Обучение модели на основе данных, собранных из различных источников.

Предсказание по одному изображению: Возможность загрузки и анализа одного изображения для определения наличия аутистических черт.

Предсказание по множеству изображений: Анализ нескольких изображений одновременно.

Предсказание по URL: Возможность анализа изображений, загруженных по URL.

Читать далее

Вклад авторов