Обновить
88.7

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Федеративное обучение: потенциал, ограничения и экономические реалии внедрения

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров746

Федеративное обучение (Federated Learning, FL) становится всё более заметным элементом технологической повестки в условиях ужесточающихся требований к конфиденциальности данных и законодательных ограничений на их передачу. На прошлой неделе при поддержке канала @noml_community мы поговорили с коллегами (Дмитрий Маслов, Михаил Фатюхин, Денис Афанасьев, Евгений Попов, Роман Постников, Павел Снурницын) о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли. 

https://www.youtube.com/watch?v=JpApLfde38I&list=WL&index=1&t=12s

Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.

Читать далее

Пакетная репликация данных в аналитическом ландшафте ХД

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров984

Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и работы конечных пользователей. От эффективной реализации этой задачи зависят стоимость и длительность всего проекта по созданию хранилища данных и сроки предоставления отдельных data-сервисов.

В этой публикации я поделюсь опытом реализации пакетной загрузки больших данных в аналитические хранилища и расскажу, когда следует выбрать именно пакетную загрузку, а когда – онлайн-подход. Отдельно раскрою, как многолетний опыт решения подобных задач был воплощен в промышленном инструменте репликации данных.

Читать далее

Ну ты это, заходи если чё: как сделать единую систему авторизации в корпоративных ботах

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.5K

Привет, Хабр! На связи команда данных «МосТрансПроекта». Недавно мы рассказывали про бот «Информатум», в котором хранятся служебные презентации. При разработке системы мы уделили особое внимание защите чувствительной информации. Поэтому доступ к материалам предоставляется сотрудникам только после авторизации и подтверждения их данных. Но что, если появится еще несколько ботов? Неужели сотрудникам придется каждый раз проходить проверку для доступа к новым сервисам, а администраторам тратить время на верификацию? Для решения этой задачи мы разработали универсальное и экономящее время решение, о котором расскажем в данной статье.

Читать далее

Что такое MLFlow и как он помогает в разработке моделей

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2K

Многие начинающие в ML наверняка сталкивались с ситуацией: вы пробуете разные модели, меняете параметры, запускаете обучение снова и снова… и через пару дней уже не можете вспомнить, какой именно набор параметров дал тот самый лучший результат. Или, что еще хуже, вы получили отличную модель на своем ноутбуке, а у коллеги на его машине она не воспроизводится. На помощь придет MLflow.

Читать далее

База для аналитики данных. Как получать данные?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5.7K

Я убеждён в том, что аналитикам данных критически-важно иметь доступ без боли, искажений и рисков к наиболее детализированным данным проекта для исполнения своих обязанностей..
Нет данных - нет мультиков аналитики. Работа только с агрегированными и преобразованными по непрозрачной логике данными приводит к ошибкам и отсутствию доверия от бизнеса.
Статья может быть полезна к изучению при принятии решений о развитии аналитики с 0 в проекте.

К сожалению, вопросу получения данных часто не уделяется хоть какое-то внимание.
Бизнесу интересно не получение данных, а инсайты и рекомендации. Принято отдавать этот вопрос на откуп аналитикам и взаимодействию аналитиков и IT. Только у аналитиков редко есть опыт и понимание лучших практик по работе с данными и для IT задача использования данных аналитиками может быть чем-то чужеродным.

Тем не менее, как-то они договариваются. Не сталкивался с примерами, когда совсем не договорились и никакой аналитики нет.
Сталкивался с разными вариантами урона от реализации.

Что там за варианты

Join таблиц в реальном времени на Apache Flink ( Часть 2 )

Уровень сложностиСложный
Время на прочтение3 мин
Количество просмотров987

В данной статье приводится решение проблемы построения витрин данных в реальном времени с помощью Apache Flink. Рассказывается 2 часть подробной реализации решения этой задачи. В данной части рассмотрена проблема учета сообщений на удаление и частично операций update , в связи с чем достигается полная консистентность данных СИ с СП при условии гарантии, что ключ join условия не обновляется.

Читать далее

Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров8.8K

Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ.

Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее...

Читать далее

Join таблиц в реальном времени на Apache Flink

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров1.6K

Статья посвящена реализации join-операций в системах потоковой обработки данных на базе Apache Flink. Рассматриваются основные подходы к объединению потоков в реальном времени, включая inner join, а также паттерны дедупликации. Уделено внимание использованиюKeyedCoProcessFunction для построения отказоустойчивых и масштабируемых join-пайплайнов. Работа ориентирована на инженеров, строящих real-time витрины и сложные трансформации на Flink в продакшене.

Читать далее

DBT: трансформация данных без боли

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.3K

Привет! Меня зовут Кирилл Львов, я fullstack-разработчик в компании СберАналитика. В этой статье хочу рассказать про мощный инструмент трансформации данных — DBT (Data Build Tool).

Сегодня любой средний и крупный бизнес хранит множество данных в разрозненных источниках (CRM, ERP, HRM, базы данных, файловые хранилища и т.д.). Каждая из этих систем самодостаточна и закрывает определённую боль бизнеса, но собрав данные из таких источников и стандартизировав их, нам открывается возможность анализировать данные, строить модели машинного обучения и принимать на основе этих данных управленческие решения. Для того чтобы реализовать такой подход строятся ELT (или ETL) процессы. ELT (Extract, Load, Transform) — это процесс, состоящий из трех этапов:

Читать далее

Data-driven в одном iGaming проекте: когда культура работы с данными не приживается

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров616

Казалось бы, преимущества найма специалистов по данным сегодня очевидны — нанимай и принимай качественно лучшие решения. Однако на практике многие компании сталкиваются с трудностями. Предлагаю разобраться

Читать далее

Бизнес в эпоху LLM: успешные кейсы и дальнейшие перспективы

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров5.1K

Вокруг LLM идёт большой ажиотаж, но помимо шумихи и обещаний, языковые модели в последнее время действительно находят свою нишу, где их можно эффективно применять. В статье я бы хотел поделиться опытом реализации подобных проектов и перспектив, которые мы выделяем как перспективные, некоторыми инсайтами по их применению. Те, кому может быть интересен подобный опыт и для кого языковые модели ещё не превратились в рутину, добро пожаловать под кат :-)

Читать далее

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров5.3K

Всем привет! Меня зовут Диана Бутько, я студентка 3 курса, изучаю информационные системы и программирование. В InfoWatch я пришла на практику, и одной из моих задач стал сравнительный анализ различных методов поиска похожих векторов. Это один из ключевых аспектов машинного обучения и анализа данных, используемых в рекомендательных системах, кластеризации, семантическом поиске и других областях. Но чем больше объем данных, тем важнее становится выбор инструментов: полный перебор векторов требует больших вычислительных ресурсов, а в других алгоритмах порой необходимо балансировать между точностью и скоростью поиска.

В этой статье я сравниваю пять методов поиска похожих векторов:
— полный перебор по евклидову расстоянию с реализацией в Python;
— FAISS с индексами IndexFlatL2 (полный перебор, евклидово расстояние) и IndexIVFFlat (сегментирование по ячейкам, евклидово расстояние);
— векторный поиск в ClickHouse с индексом HNSW и метриками расстояния L2Distance (евклидово расстояние) и cosineDistance (косинусное сходство).

Читать далее

Что покажет бенчмарк? Оценка мультиагентных систем в действии

Время на прочтение6 мин
Количество просмотров559

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.

Читать далее

Ближайшие события

Процент лжи

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.8K

Всем привет, меня зовут Виталий, аналитик данных и автор телеграмм канала "Детектив данных" и тон поста во многом определяет этот факт.

Однажды на мой красивый дашборд пришёл руководитель одного из направлений с претензией что его направление в конкретном регионе дало минус 60 тысяч процентов - хотя на самом деле там должно быть плюс, так как показатель аналогичного периода прошлого ушёл в минуса по определённой причине.

Так и появилась, да и вскоре решилась, проблема со знаком и выявлена ошибка в элементарной формуле которую использовали все коллеги вокруг

Следующий фундаментальный вопрос который возник, и который еще предстоит решить - это как раз эти злополучные тысячи процентов - на верхних уровнях их не видно, но при накидывания фильтров в определенных разрезах эти значения ломают как и графики, так и гистограммы в таблицах. Да и кажется что такие значения - они и не нужны - все прекрасно понимают что тысячи процентов прироста - это скорее выбросы связанные с пересегментацией, возвратами и кривыми данными какого-нибудь иного вида. Мы же от нуля не можем посчитать прирост, тогда с какой стати мы должны его считать от отрицательного значения?

А пока решал проблему - сама собой и пришла идея обернуть этот "кейс" в детективный формат. Приятного чтения!

1 акт. «Минус на минус»

В один туманно-серый вечер понедельника к детективу данных в дверь постучал встревоженный дата аналитик. Он держал в руках старый учебник по математике весь исписанный формулами и процентами.
«Привет, детектив! Тут что-то не так. Я анализировал продажи по формулам из интернета и книг. Но они нас обманывали! Формула неправильная

Читать далее

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров4.8K

Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.

Будущее трансформеров

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров4.1K

Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать текст, превышающий определённое число токенов. Это накладывает ограничения на работу с длинными документами и обширным контекстом. Но что если бы мы могли упаковать длинный текст в один-единственный вектор и скормить его модели как обычный токен? Звучит фантастично, однако свежие исследования показывают, что это возможно – такие “mem-векторы” позволяют сохранить сотни и даже полторы тысячи токенов информации в одном эмбеддинге. Это принципиально иной подход, нежели классическое сжатие данных, и он сулит интересные применения.

Mem-вектор (от “memory vector”) – это специально обученный вектор, который хранит содержание целого текста. Идея в том, что если модель умеет предсказывать текст, то можно подобрать такой вектор на входе, при котором замороженная (неизменяемая) LLM сама декодирует исходный текст. Иначе говоря, mem-вектор играет роль «семени», из которого предобученная модель порождает заложенное в нём сообщение. В этой статье разберём, как это работает, почему вообще возможно “запихнуть” роман в один вектор и какие ограничения при этом появляются. Также сравним mem-подход с классическими алгоритмами сжатия (Huffman, арифметическое кодирование, zlib и др.), обсудим последние научные работы на эту тему и возможные применения: от Retrieval-Augmented Generation (RAG) до передачи новых знаний замороженным моделям. Центральная мысль: mem-векторы – это не просто компрессия текста, а способ напрямую скормить модели смысл и знания, минуя последовательное чтение токенов.

Разбираемся далее

Как мы разработали LLM-модель, которая генерирует описания товаров для пользователей Авито

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров28K

Привет! Я Сергей Кляхандлер, senior DS-инженер в команде LLM Авито

В статье рассказываю, как мы разработали ML-модель, которая автоматически генерирует описания для объявлений из категории Одежда и Обувь. Подробно расписываю, откуда мы брали данные для обучения, какую архитектуру использовали и как тренировали модель. А в конце говорю про важную часть работы — фейлы.

Статья будет полезна DS-инженерам, которые работают с мультимодальными LLM-моделями.

Читать далее

Искусственный интеллект в медицине: Революция в здравоохранении

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров8.8K

Медицина быстро адаптируется к достижениям в области искусственного интеллекта (ИИ). Благодаря ИИ появляются новые возможности для диагностики, хирургии, разработки препаратов, а также для персонализированного подхода к лечению. В этой статье мы рассмотрим ведущие проекты в медицине с использованием ИИ, их достижения и прогнозы на ближайшие годы.

Читать далее

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

Время на прочтение15 мин
Количество просмотров3.8K

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.

Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

Читать далее

Как из аналитики данных перейти в дата-сайентисты

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров5.2K

Перевели и дополнили статью Марины Уисс, applied scientist (дата-сайентист со специализацией в прикладной статистике) в Twitch. Когда-то Марина перешла в IT из не связанной с технологиями сферы деятельности, а потом помогла с этим переходом многим людям без IT-бэкграунда.

В этой статье она делится советами для дата-аналитиков, которым хотелось бы заниматься data science. А мы добавили мнение экспертов и рекомендации, актуальные для российских образовательных реалий.

Читать далее

Вклад авторов