Как стать автором
Поиск
Написать публикацию
Обновить
31.46

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Task и Process Mining: с чего стартуют лидеры (по следам конференции ProcessTech)

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.4K

Меня зовут Артем Хван, я — руководитель центра аналитики процессов Департамента корпоративного развития Россельхозбанка. Сегодня расскажу, как мы изменили подход к нормированию массовых процессов внутри банка, отказавшись от ручного измерения в пользу технологий Task Mining и Process Mining, перевели в цифру все ключевые бизнес-процессы и нашли потенциал экономии более 400 млн рублей. Но обо всем по порядку.

Читать далее

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

Время на прочтение4 мин
Количество просмотров2.8K

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

Читать далее

Когда ИИ может в оптимизацию…

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3K

Способны ли имеющиеся архитекутры нейронных сетей составить конкуренцию классическим методам оптимизации в решении хорошо изученных задач таких как проблема коммивояжера? Я решил попробовать ответить на этот вопрос и опубликовать свои наработки.

Читать далее

Нам нужен RAG, вам нужен RAG: как встроить LLM туда, где она не нужна

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.5K

Когда хайп захватывает умы, кажется, что любое техническое решение должно строиться вокруг новой модной технологии и что теперь-то мы ух заживем! Сегодня у нас на хайпе RAG (Retrieval-Augmented Generation), вчера — NFT, позавчера — блокчейн везде и всюду.

Давайте попробуем разобраться, нужен ли RAG на самом деле, или это просто «новый блокчейн» и через год все набьют шишки и забудут о нем.

Читать далее

Обзор рынка Rotating Residential proxy — осень 2024

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.1K

Ссылка на полный обзор с графиками

Доброго времени суток, меня зовут Григорий, мне интересны сетевые технологии, производительность и добыча данных в public internet. Хочу поделиться исследованием, которое я недавно закончил для локации US.

Несколько базовых терминов активно используемых в индустрии:

GEO filler - описание локации в которой прокси сервис будет искать устройства.

Target - целевой ресурс, с которым мы работаем через Proxy.

Latency - в этом исследовании я использую 90 квантиль TTFB(от старта до получения первого байта от Target).

Residential IPs - адреса принадлежащие настоящим пользвательским устройствам: TV присатвкам, телефонам, лептопам, домашним роутерам через которые осуществляется доступ в public internet.

Tech SR(Technical Success Rate) - кол-во запросов с успешными ответами на уровне L7(Application layer) делить на общее кол-во запросов.

Сразу к выводам(TL; DR)

Читать далее

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

Время на прочтение7 мин
Количество просмотров1.8K

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

Читать далее

SpyderIDE: Твоя новая «восьмилапая» подруга для Python-разработки

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров11K

Дорогие друзья, порадуемся тому факту, что даже в мире IDE есть свои пауки. Не те, что заползают в ваш код, добавляя баги, а настоящие спасатели программного хаоса. Сегодня речь пойдет о SpyderIDE, любимице научного сообщества и тех, кто слишком увлечен pandas и numpy, чтобы замечать окружающий мир.

Читать далее

Оценка приложений RAG с помощью RAGA

Время на прочтение8 мин
Количество просмотров1.9K

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

Читать далее

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Время на прочтение7 мин
Количество просмотров4.6K

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

Что за распределение у выборочных квантилей?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.5K

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.

Читать далее

Инфраструктура для Data-Engineer форматы файлов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Уровень сложностиСредний
Время на прочтение34 мин
Количество просмотров1.8K

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда‑нибудь задавали себе вопрос, в чём главное отличие дата инженера от «обычного» аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом? Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него — уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.

Читать далее

Как мы провели ИИ-трансформацию стратегических процессов Сбера

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.1K

Привет, Хабр! Меня зовут Андрей, я технологический предприниматель, работаю CTO в ИИ-стартапах и помогаю внедрять ИИ в компаниях. Одним из громких кейсов для меня стала ИИ-трансформация Сбера. Сегодня хочу рассказать, как проходила ИИ-трансформация, и какие уроки стоит извлечь из этого опыта.

До ИИ-трансформации банка (2020 год) я работал в роли Chief Data Officer и Chief Data Scientist стратегического блока Сбера. Тогда ChatGPT еще не было, а об ИИ-революции всерьез почти не рассуждали. Конечно, в банках ИИ и ML активно использовались в кредитном скоринге и рекомендательных системах. 

В наши задачи входило макроэкономическое стресс-тестирование банка, анализ и прогнозирование банковских рынков, вывод новых продуктов на рынок, ресурсное планирование, анализ эффективности сотрудников, а также контроль над всеми процессами банка. Ежегодно наш блок формировал новую стратегию развития банка и экосистемы.

Одним из первых ИИ-проектов нашей команды до ИИ-трансформации была модель для прогнозирования эффективности сотрудников. Для обучения модели мы собрали большое количество данных из кадровых систем, систем контроля и учета доступов, социально-демографические показатели, психометрию, оценки сотрудников и другие данные. На тот момент это была единственная ИИ-модель в стратегическом блоке.

Направление было новым и использовалось для решения внутренних задач компании. Но все наработки пригодились, когда в компании объявили ИИ-трансформацию. 

Читать далее

Ближайшие события

Эпоха перемен: IFC уходит в прошлое или почему Autodesk готов отказаться от IFC ради USD в 14 ключевых фактах

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров10K

В 2024 году в сфере проектирования и строительства происходит значительный технологический сдвиг в области использования и обработки данных. Если вы считаете, что понимание основ BIM (openBIM и closedBIM) будет достаточно для работы с данными в строительстве в ближайшие годы, то вас вскоре может ждать сюрприз. Вместо свободного доступа к проектным данным, производители CAD-систем, сосредотачиваются на продвижении очередных новых концепций. Устаревающие подходы, такие как BIM (2002 год) и openBIM (2012 год), постепенно уступают место современным технологическим решениям, которые ожидают нас в ближайшем будущем:

Читать далее

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров14K

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).

Читать далее

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Время на прочтение10 мин
Количество просмотров4.7K

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

Читать далее

Саммаризация — Как помочь пользователям находить идеальный товар быстрее

Время на прочтение6 мин
Количество просмотров1.4K

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.

Читать далее

Введение в синтетические данные для ML: зачем они нужны?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2K

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

Читать далее

Сравнение бенчмарков LLM для разработки программного обеспечения

Время на прочтение11 мин
Количество просмотров3.1K

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать большие языковые модели для задач разработки программного обеспечения.

Читать далее

Big Data мертвы, да здравствуют Smart Data

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров7.9K

Big data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать далее