Все потоки
Поиск
Написать публикацию
Обновить
96.98

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Стратегия успеха: ключи к развитию карьеры в Data Science. Часть 1

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров4.9K

Привет! Меня зовут Анна Ширшова, я уже 14 лет работаю в Data Science. В этом материале вы найдете мой личный чек‑лист по развитию карьеры: как ставить цели, где искать возможности, какие ошибки тормозят рост и как их обходить. 

Работу в ВТБ я начала в качестве лида команды, которую сама собирала с нуля. За время работы она была расширена до целого Кластера моделирования для СRM и оптимизации. В него вошли четыре команды из DE, DS, MLOPs, системных аналитиков и тестировщиков, руководителем которого являюсь. 

Некоторые коллеги, которые тогда вошли в команду в качестве junior DS, сейчас уже являются лидерами (product owner) команд Кластера. На основе своего опыта найма и развития сотрудников в сжатые сроки, в этой статье делюсь как стопперами, которые, на мой взгляд, мешают развитию карьеры, так и возможными путями по их устранению.

Читать далее

По ту сторону океана: как мы съездили на Databricks Data + AI Summit

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров637

Представьте, что вы ни разу не выступали на конференциях или митапах, а тут решились и едете на ваше первое выступление, да не куда-нибудь, а на Data + AI Summit в Сан-Франциско. «Так не бывает!» — скажете вы, а я отвечу: «бывает!»

Привет! Это Женя Добрынин, Senior Data Engineer в Dodo Engineering. Сегодня я расскажу о том, как мы с коллегой ездили на конференцию в США, а заодно и о том, во сколько вам обойдётся такая поездка, и что нужно сделать, чтобы она состоялась.

Читать далее

MWS Data Compass: как мы в МТС свой корпоративный BI построили

Время на прочтение10 мин
Количество просмотров2.4K

Привет, Хабр! Я Павел Шестаков, Product Owner BI в MWS. За последние годы цифровой трансформации в нашей компании многие команды прошли путь от хаоса и пересылаемых друг другу «экселек» до удобных выстроенных процессов. И инструменты BI (Business Intelligence) сыграли в этом не последнюю роль.

Сегодня расскажу, как и почему мы внедряли и развивали свой BI и как добились того, что сейчас он обслуживает тысячи пользователей и покоряет внешний рынок. Это будет история про энтузиазм, стартап внутри корпорации, импортозамещение и, конечно же, работу с пользователями. Поехали!

Читать далее

AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

Время на прочтение14 мин
Количество просмотров12K

AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.

В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.

В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.

Поехали!

Читать далее

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров1.2K

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические данные перестали быть лабораторным трюком — к 2030-му они превращаются в топливо, на котором летят банки, медицина и индустриальный IoT. GAN-ы научились соблюдать дифференциальную приватность, диффузионные модели вытягивают сигнал из шума лучше, чем биржевые трейдеры, а причинные графы заставляют базы данных «думать» о бизнес-логике. Мы собрали всё — от свежих метрик PrivEval до реляционной магии SCM и агентных симуляций, — чтобы показать: синтетика уже не копия реальности, а песочница для инноваций. Если вы ищете способ ускорить ML-проекты, избавиться от юридических цепей и заглянуть в будущее генеративного ИИ, эта статья станет вашим порталом.

Читать далее

BI: 5 трендов в сфере ИИ

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.8K

Привет, Хабр! Сегодня я предлагаю немного порассуждать на тему ИИ в сфере BI-аналитики. В последнее время тема искусственного интеллекта все чаще поднимается на конференциях, да и мне самому все больше приходится рассуждать про ИИ и даже делать доклады о методах его применения (например, как на конференции Data&AI). Совершенно точно вокруг очень много хайпа и хочется разобраться, где же на самом деле ИИ в контексте BI-аналитики даёт реальное преимущество, а где — всё ещё нет.

Читать далее

Data Lake 2.0: Iceberg и Parquet в бою за миллисекунды

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров4K

Привет, Хабр! Меня зовут Валерий Бабушкин, я CDO МТС Web Services. Если достаточно много занимаешься машинным обучением, то однажды начинаешь говорить про дата-инженерию — как герой, который много сражается со злом и в итоге сам переходит на темную сторону. Вот и моя очередь настала.

На последнем True Tech Day я рассказал, как Apache Iceberg и Apache Parquet позволяют построить современную инфраструктуру для больших данных. В этом материале я расскажу, какие задачи решает каждый инструмент, как они работают в связке, и сравню производительность Hive с Parquet-партициями против Iceberg с Parquet-таблицами.

Читать далее

Чат-бот с LLM в облаке: опыт Новосибирского государственного университета и инструкция по запуску

Время на прочтение10 мин
Количество просмотров2.4K

Сейчас мало кого удивишь чат-ботом в Telegram, даже если он на базе LLM. Но, согласитесь, таким умным решением может похвастаться не каждый университет.

На связи Роман Дерунец и Иван Бондаренко (@bond005) — научные сотрудники лаборатории прикладных цифровых технологий механико-математического факультета НГУ. В статье поделимся опытом разработки нашего университетского чат-бота: расскажем, зачем он понадобился НГУ, почему мы решили создать его с нуля и что важно знать тем, кто хочет такой же. А еще — поделимся инструкцией, как запустить похожее решение в облаке.

Читать дальше

Мы достигли пика в развитии ИИ!… или нет?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров7K

Вы, наверное, и сами заметили: в последние месяцы в мире ИИ не происходит ничего по-настоящему прорывного, особенно если сравнивать с предыдущими четырьмя годами. Похоже, возможности искусственного интеллекта уперлись в потолок. Особенно заметно, как гигантские корпорации — и даже целые страны — пытаются всеми силами преодолеть этот кризис. Кто как может.

Читать далее

Реализация правил IBCS в Power BI

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров387

Создание понятных и информативных отчетов — ключевая задача для аналитиков и специалистов по данным. В этой статье мы разбираем, как стандарты IBCS (International Business Communication Standards) могут помочь улучшить визуализацию данных в Power BI, повысив их читаемость и эффективность. Рассмотрим, как связать ClickHouse с Apache Superset для создания мощных аналитических дашбордов и какие практики помогут вам избежать избыточности и повысить точность представленных данных.

Читать далее

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.2K

Мне приходится тратить много времени на мониторинг арбитража, госзакупок и других документов: PDF на сотни страниц, новости с «водой», RSS при этом отсутствует.

Поэтому я решил разработать open-source инструмент, который сам проверяет сайты, скачивает документы и с помощью локального ИИ (GPT4All / DeepSeek) делает краткую смысловую выжимку по YAML-шаблону.

Он должен работать как конвейер: источник → шаблон → интерпретация → результат. Локально, без облаков. И объединять всё в единую ленту новостей.

Сейчас я дорабатываю MVP — и я хочу понять, какие шаблоны наблюдения наиболее востребованы: законопроекты, торги, релизы, или что-то ещё?

Читать далее

Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.4K

Алгоритмы для работы с большими данными

Всем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными  — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости.

Читать далее

Развёртывание боевого кластера Cassandra. Часть 2

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров2.8K

Это продолжение цикла, рассказывающего о практике развёртывания производственного кластера Cassandra. В первой части мы начали продвигаться вот по такому плану:

1. Анализ рабочей нагрузки и требований
2. Разработка схемы данных
3. Настройка хостовых машин
= ВЫ НАХОДИТЕСЬ ЗДЕСЬ =
4. Настройка конфигурации Cassandra
5. Настройка топологии кластера
6. Подключение Prometheus Cassandra Exporter
7. Подключение Prometheus Node Exporter
8. Вывод всех метрик в Grafana
9. Проведение нагрузочного тестирования
10. Дополнительный тюнинг по результатам теста

Продолжим?

Читать далее

Ближайшие события

Как уменьшить размер модели Power BI на 90%

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.8K

Вы когда-нибудь задумывались, что делает Power BI таким быстрым и мощным с точки зрения производительности? Настолько мощным, что он выполняет сложные вычисления над миллионами строк за мгновение.

В этой статье мы подробно рассмотрим, что находится «под капотом» Power BI: как данные хранятся, сжимаются, запрашиваются и, наконец, возвращаются в отчёт. После прочтения, надеюсь, у вас появится лучшее понимание того, что происходит в фоновом режиме, и вы сможете оценить важность создания оптимальной модели данных для достижения максимальной производительности с использованием движка Power BI.

Читать далее

Краткий обзор платформы данных Т-Банка

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров12K

Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может быть интересна не только нашим аудиторам, но и более широкой аудитории. Enjoy!

Платформа данных в Т-Банке существует более 18 лет и за это время прошла значительный путь эволюции. Она помогает более чем 17 тысячам пользователей извлекать из данных ценную информацию для бизнеса. За последние годы подходы к работе с данными заметно изменились: индустрия постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — Lakehouse-архитектур. Вместе с отраслью менялась и наша платформа.

В статье расскажу, как трансформировалась T Data Platform за 18 лет развития, и опишу ее текущее устройство — без погружения в технические детали, но с акцентом на общую архитектуру. Для тех, кому интересны отдельные инструменты или решения, оставлю ссылки на подробные материалы и выступления.

Читать далее

MCP: новая игра на рынке искусственного интеллекта

Время на прочтение13 мин
Количество просмотров16K

Всё, что нужно знать о Model Context Protocol (MCP)

«Даже самые продвинутые модели ограничены своей изоляцией от данных — они заперты в информационных силосах и легаси-системах».
Anthropic о важности интеграции контекста

Сегодняшние большие языковые модели (LLM) невероятно умны, но находятся в вакууме. Как только им требуется информация вне их «замороженных» обучающих данных, начинаются проблемы. Чтобы AI-агенты действительно были полезны, им нужно получать актуальный контекст в нужный момент — будь то файлы, базы знаний, инструменты — и даже уметь совершать действия: обновлять документы, отправлять письма, запускать пайплайны.

Так сложилось, что подключение модели ко всем этим внешним источникам данных было хаотичным и нестабильным: разработчикам приходилось писать кастомные интеграции или использовать узкоспециализированные плагины под каждый API или хранилище. Такие «сделанные на коленке» решения были хрупкими и плохо масштабировались.

Чтобы упростить это, Anthropic представила Model Context Protocol (MCP) — открытый стандарт, предназначенный для того, чтобы связать AI-ассистентов с данными и инструментами, подключая любые источники контекста. MCP был анонсирован в ноябре 2024 года. Тогда реакция была сдержанной. Но сегодня MCP — на волне: он уже обогнал LangChain по популярности и, по прогнозам, скоро обойдёт OpenAPI и CrewAI.

Крупные игроки AI-индустрии и open source-сообщества начали активно поддерживать MCP, видя в нем потенциально революционный инструмент для построения агентных систем на базе LLM.

Читать далее

Российский новый университет подключился к «РосНавыку»

Время на прочтение3 мин
Количество просмотров610

9 июля для ректората Российского нового университета (РосНОУ) при поддержке Университетского консорциума исследователей больших данных прошёл семинар сервиса «РосНавык». Этот мониторинговый сервис представила Дарья Олеговна Дунаева, менеджер проекта, ведущий аналитик научно-исследовательской лаборатории прикладного анализа больших данных Томского государственного университета.

Читать далее

ИИ-магия: фронтенд, который думает

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров3.1K

Автор: Кристина Паревская, Neoflex

Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные формы, но и игры, и даже запускать модели ИИ для выполнения задач, например, распознавания объекта. В данной статье будет рассказано, как на примере системы по распознаванию возгораний объекта в доме можно без backend части добавить в свое приложение модель для обнаружения пожара.

Погружаемся в тему пожаров и возгораний

Распознавание возгораний объектов на ранних стадиях является важной и актуальной проблемой в наши дни, решение которой снизит экономический риски и спасет жизни многих людей.

Такие компании, как Johnson Controls, Honeywell International, Inc., GENTEX CORPORATION, Siemens, Robert Bosch GmbH, Halmaplc, Eaton, Raytheon Technologies Corporation уделяют свое внимание исследованиям в области распознавания возгораний объектов и предлагают свои решения по устранению пожаров. Этими компаниями движут желание помочь людям, быстрое развитие беспроводных технологий и развитие строительной отрасли, охватившей весь мир.

Читать далее

Мотивация пациентов, экзоскелеты и одноразовые электроды. Главные вызовы и тренды в применении нейроинтерфейсов

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров760

Управлять устройствами силой мысли или реабилитировать пациентов с нарушениями двигательных функций — для всего этого нужны нейроинтерфейсы. Обсудить основные достижения и проблемы этого направления удалось участникам II Весенней школы «Нейроинтерфейсы нового поколения: Перспективы практического применения», которая состоялась с 21 по 23 мая 2025 года на базе Высшей школы экономики.

На третий день школы состоялся круглый стол «Практическое применение нейроинтерфейсов», в ходе которого ведущие специалисты осветили самые разные аспекты: от производства протезов и датчиков до особенностей реабилитации пациентов с их помощью. Модератором выступил д.ф.‑м.н., директор Центра биоэлектрических интерфейсов НИУ ВШЭ, руководитель группы «Нейроинтерфейсы» Института AIRI Алексей Осадчий.

В этом материале мы собрали главное из рассказанного на круглом столе.

Читать далее

Вот так подкрути геймификацию и мотивация болеть не будет

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров8.4K

В учебнике обществознания за 9 класс есть определение экономики как науки: «Экономика — наука о том, как люди удовлетворяют свои постоянно растущие потребности в условиях ограниченности ресурсов». Точно так и в разметке — нам нужно удовлетворить свои постоянно растущие потребности в объёмах и качестве разметки, а бюджет ограничен. Помочь нам в этом может система мотивации.

Привет! Меня зовут Кузнецов Роман. Я занимаюсь разметкой и модерацией данных в Альфа-Банке. В этой статье хочу поднять извечную задачу — как мотивировать разметчиков делать много и качественно, но при этом за те же деньги (вместо разметчиков поставьте своё). Расскажу, как мы в банке нематериально мотивировали ребят, ввели геймификацию и даже повысили их творческую активность!

Читать далее

Вклад авторов