Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

@kucev 3 дек 2024 в 10:34

Оценка приложений RAG с помощью RAGA

8 мин

1.5K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

@IT_Crow 2 дек 2024 в 16:13

Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке

Средний

3 мин

2.6K

Big Data * Машинное обучение *

Аналитика

Из песочницы

📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.

@koanse 2 дек 2024 в 15:27

Суперсилы «Виталика»: на что способен ViTalk GPT

5 мин

1.8K

Блог компании VisiologyИскусственный интеллектВизуализация данных * Big Data *

Кейс

Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.

@kucev 2 дек 2024 в 09:55

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

7 мин

3.3K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

@AntonSoroka 2 дек 2024 в 07:23

Что за распределение у выборочных квантилей?

Средний

6 мин

1.2K

Математика * Data Mining * Big Data * Python * Статистика в IT

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.

@Oleg_Dmitriev1 1 дек 2024 в 10:16

Миф о чистых данных: почему ваш аналитик похож на сапёра

Простой

4 мин

4.7K

Python * SQL * Big Data * Визуализация данных * Хранение данных *

Из песочницы

Миф о чистых данных: почему ваш аналитик похож на сапёра.

Как бороться с самым частым убеждением при работе с данными.

@evgeniatro 29 ноя 2024 в 13:30

Как организовать разметку данных для ML? Советы от Data Light

12 мин

733

Блог компании Data LightBig Data * Искусственный интеллект

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:

Дмитрий Рогальский, Special Projects Group Manager в Data Light

Алексей Корнилов, Moderation Group Manager в Data Light

@lux_nikpav 29 ноя 2024 в 09:29

В поисках потерянных данных: переход со StreamSets на Data Boring

5 мин

355

Блог компании Luxms BIХранение данных * Data Engineering * Big Data *

Кейс

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.

@k0rsakov 29 ноя 2024 в 06:00

Инфраструктура для Data-Engineer форматы файлов

Простой

6 мин

900

Data Mining * Big Data * Хранение данных * Data Engineering *

Туториал

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

@tsaregorodtsev 28 ноя 2024 в 16:36

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Средний

34 мин

1.3K

Data Engineering * Data Mining * Big Data * Python *

Интервью

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда‑нибудь задавали себе вопрос, в чём главное отличие дата инженера от «обычного» аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом? Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него — уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.

-2

@skillfactory_school 28 ноя 2024 в 15:08

Модели BERT для машинного обучения: гайд для начинающих

Простой

9 мин

12K

Блог компании SkillfactoryBig Data *

Обзор

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.

+11

@Kyroroluc 28 ноя 2024 в 11:07

Извлечение метаданных из Power BI

Простой

4 мин

2.1K

Big Data * Аналитика мобильных приложений * Веб-аналитика * Лайфхаки для гиковSQL *

Туториал

В статье исследуется использование DAX Studio, мощного инструмента, который помогает разработчикам Power BI извлекать и обрабатывать метаданные из дашбордов. Утилита позволяет оптимизировать рабочие процессы, делая задачи, такие как заполнение файлов метаинформацией, более эффективными.

@wingerv 28 ноя 2024 в 10:07

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Средний

22 мин

1.9K

Блог компании ИнгосстрахBig Data * Искусственный интеллектМашинное обучение * Data Engineering *

Из песочницы

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.

@truetechchamp 28 ноя 2024 в 08:13

Как обмануть нейронную сеть

16 мин

5.2K

Блог компании МТСМашинное обучение * Big Data * Информационная безопасность *

Привет, Хабр! 8 ноября отгремел очный финал МТС True Tech Champ 2024. В программе было много интересного — например, гонки роботов и конференция с докладами на главной сцене. Постепенно мы с вами ими делимся.

Сегодня публикуем пост на основе доклада «Как обмануть нейронную сеть» Алексея Зайцева — старшего преподавателя Сколтеха и руководителя лаборатории Центра прикладного искусственного интеллекта. Со своей командой он разрабатывает и исследует модели искусственного интеллекта, решает прикладные задачи и отвечает на фундаментальные вопросы. Что такое ИИ, как обучить нейросеть и как ее обмануть — об этом и не только прочитаете дальше. Полную видеоверсию можно посмотреть тут. Поехали!

+12

@kracko23 24 ноя 2024 в 13:52

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Средний

5 мин

12K

Data Mining * Big Data * Data Engineering * Apache *

Туториал

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).

+15

@kucev 24 ноя 2024 в 09:35

Полное руководство по оценке компонентов системы RAG: что необходимо знать

10 мин

3.8K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

@skillfactory_school 22 ноя 2024 в 17:07

Анализ временных рядов: полное руководство для начинающих

Простой

8 мин

19K

Блог компании SkillfactoryBig Data *

Recovery Mode

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке.

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым.

@EV12 22 ноя 2024 в 12:36

Саммаризация — Как помочь пользователям находить идеальный товар быстрее

6 мин

1.1K

Блог компании Data LightМашинное обучение * Data Mining * Big Data *

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.

@samaaria 22 ноя 2024 в 09:24

Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

Средний

15 мин

2.6K

Блог компании Альфа-БанкМашинное обучение * Big Data *

Ретроспектива

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Банкомат для банка — это источник и доходов, и расходов. Да, банкоматы приносят деньги, когда берут комиссии, принимая карты других банков, или выдают наличные с кредитных счетов. Но и содержание банкоматов — это регулярные расходы: устройства требуют сопровождения и страхования, они изнашиваются, их перемещение и чистка также требует вложений. Каждый выезд инкассаторов, каждый пересчёт кассет и их загрузка в устройство связаны с тратами.

Ко всему прочему, банк не может использовать деньги, которые находятся в банкомате, соответственно, не может на них зарабатывать: средства, залежавшиеся в устройстве, в итоге создают убыток. Список статей расходов у банкомата заметно более внушительный, чем список источников его дохода.

К чему это всё здесь описано? Рассчитать, сколько денег поместить в каждый конкретный банкомат — это задача с несколькими параметрами. Наскоком её не решить, например, не получится загружать все банкоматы деньгами по полной. Ведь иногда так бывает, что у двух рядом стоящих банкоматов к концу дня количество банкнот к концу дня отличается в разы!

Привет, меня зовут Мария, я работаю в Альфа-Банке на позиции Middle Data Scientist, и я вам расскажу, почему задача расчёта количества банкнот в банкомате не такая тривиальная, как кажется на первый взгляд.

+24

@eduopenbio 21 ноя 2024 в 18:37

Объединяем фреймы данных в pandas: две самые распространённые операции

Простой

3 мин

2.5K

Python * Big Data *

Туториал

Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.

Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:

1 2 ...

29 30

32 33 ...

204 205

Big Data *

Оценка приложений RAG с помощью RAGA

Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке

Суперсилы «Виталика»: на что способен ViTalk GPT

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Что за распределение у выборочных квантилей?

Миф о чистых данных: почему ваш аналитик похож на сапёра

Как организовать разметку данных для ML? Советы от Data Light

В поисках потерянных данных: переход со StreamSets на Data Boring

Инфраструктура для Data-Engineer форматы файлов

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Модели BERT для машинного обучения: гайд для начинающих

Извлечение метаданных из Power BI

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Ближайшие события

Как обмануть нейронную сеть

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Анализ временных рядов: полное руководство для начинающих

Саммаризация — Как помочь пользователям находить идеальный товар быстрее

Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

Объединяем фреймы данных в pandas: две самые распространённые операции

Вклад авторов