Обновить
85.47

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Оценка приложений RAG с помощью RAGA

Время на прочтение8 мин
Охват и читатели1.5K

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

Читать далее

Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели2.6K

📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.

Читать далее

Суперсилы «Виталика»: на что способен ViTalk GPT

Время на прочтение5 мин
Охват и читатели1.8K

Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей. 

Читать далее

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Время на прочтение7 мин
Охват и читатели3.3K

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

Что за распределение у выборочных квантилей?

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели1.2K

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.

Читать далее

Миф о чистых данных: почему ваш аналитик похож на сапёра

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.7K

Миф о чистых данных: почему ваш аналитик похож на сапёра.

Как бороться с самым частым убеждением при работе с данными.

Читать далее

Как организовать разметку данных для ML? Советы от Data Light

Время на прочтение12 мин
Охват и читатели733

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Организация самого процесса разметки зависит от многих факторов: целей проекта, объемов данных, требуемой точности и доступных ресурсов. В этой статье мы рассмотрим основные методики и инструменты для организации разметки данных с нашими экспертами:

Дмитрий Рогальский, Special Projects Group Manager в Data Light

Алексей Корнилов, Moderation Group Manager в Data Light

Читать далее

В поисках потерянных данных: переход со StreamSets на Data Boring

Время на прочтение5 мин
Охват и читатели355

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.

Читать далее

Инфраструктура для Data-Engineer форматы файлов

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели900

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Уровень сложностиСредний
Время на прочтение34 мин
Охват и читатели1.3K

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда‑нибудь задавали себе вопрос, в чём главное отличие дата инженера от «обычного» аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом? Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него — уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.

Читать далее

Модели BERT для машинного обучения: гайд для начинающих

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели12K

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера.

Читать далее

Извлечение метаданных из Power BI

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2.1K

В статье исследуется использование DAX Studio, мощного инструмента, который помогает разработчикам Power BI извлекать и обрабатывать метаданные из дашбордов. Утилита позволяет оптимизировать рабочие процессы, делая задачи, такие как заполнение файлов метаинформацией, более эффективными.

Читать далее

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Уровень сложностиСредний
Время на прочтение22 мин
Охват и читатели1.9K

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.

Читать далее

Ближайшие события

Как обмануть нейронную сеть

Время на прочтение16 мин
Охват и читатели5.2K

Привет, Хабр! 8 ноября отгремел очный финал МТС True Tech Champ 2024. В программе было много интересного — например, гонки роботов и конференция с докладами на главной сцене. Постепенно мы с вами ими делимся.

Сегодня публикуем пост на основе доклада «Как обмануть нейронную сеть» Алексея Зайцева — старшего преподавателя Сколтеха и руководителя лаборатории Центра прикладного искусственного интеллекта. Со своей командой он разрабатывает и исследует модели искусственного интеллекта, решает прикладные задачи и отвечает на фундаментальные вопросы. Что такое ИИ, как обучить нейросеть и как ее обмануть — об этом и не только прочитаете дальше. Полную видеоверсию можно посмотреть тут. Поехали!

Читать далее

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели12K

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).

Читать далее

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Время на прочтение10 мин
Охват и читатели3.8K

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

Читать далее

Анализ временных рядов: полное руководство для начинающих

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели19K

Временной ряд — это последовательность значений, которые протекают и измеряются в определенном временном промежутке. К бытовым примерам временного ряда можно отнести метеорологические наблюдения или колебания цен на рынке. 

Аналитикам такие наборы данных позволяют выявлять закономерности, прогнозировать будущее и предлагать бизнесу обоснованные решения. В этой статье разберемся, с чего начать осваивать анализ временных рядов, вместе с Team Lead Data Scientist в VK Максимом Кулаевым. 

Читать далее

Саммаризация — Как помочь пользователям находить идеальный товар быстрее

Время на прочтение6 мин
Охват и читатели1.1K

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.

Читать далее

Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели2.6K

Бывала у вас такая ситуация, когда хотели снять деньги в банкомате, а их там не оказалось, и приходилось искать банкомат рядом, про себя ругаясь на банк: «Неужели так сложно сделать, чтобы деньги в аппарате были всегда?» Да, это возможно, но есть нюанс.

Банкомат для банка — это источник и доходов, и расходов. Да, банкоматы приносят деньги, когда берут комиссии, принимая карты других банков, или выдают наличные с кредитных счетов. Но и содержание банкоматов — это регулярные расходы: устройства требуют сопровождения и страхования, они изнашиваются, их перемещение и чистка также требует вложений. Каждый выезд инкассаторов, каждый пересчёт кассет и их загрузка в устройство связаны с тратами.

Ко всему прочему, банк не может использовать деньги, которые находятся в банкомате, соответственно, не может на них зарабатывать: средства, залежавшиеся в устройстве, в итоге создают убыток. Список статей расходов у банкомата заметно более внушительный, чем список источников его дохода.

К чему это всё здесь описано? Рассчитать, сколько денег поместить в каждый конкретный банкомат — это задача с несколькими параметрами. Наскоком её не решить, например, не получится загружать все банкоматы деньгами по полной. Ведь иногда так бывает, что у двух рядом стоящих банкоматов к концу дня количество банкнот к концу дня отличается в разы!

Привет, меня зовут Мария, я работаю в Альфа-Банке на позиции Middle Data Scientist, и я вам расскажу, почему задача расчёта количества банкнот в банкомате не такая тривиальная, как кажется на первый взгляд.

Читать далее

Объединяем фреймы данных в pandas: две самые распространённые операции

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели2.5K

Предположим, что проводится большое исследование основных биохимических показателей крови у пациентов, проходивших обследование в нескольких клиниках. Все пациенты должны отказаться в одном наборе данных — но исходно каждая клиника поставляет свой датасет. Индексом в каждом из них будет номер паспорта пациента, а параметры будут сходны — для всех пациентов, помимо имени и даты рождения, будут доступны концентрации альфа-амилазы, креатинина, общего белка и т.п. Они будут представлять собой столбцы таблиц — но в каждой таблице они будут расположены в разном порядке, потому что у разных лабораторий были разные бланки.

Объединять такие таблицы, например, в Excel, ужасно долго и муторно. К счастью, если их удалось загрузить в pandas в виде фреймов данных, есть решение одной командой. Если вы импортировали pandas как pd, то команда объединения будет выглядеть так:

Читать далее

Вклад авторов