Все потоки
Поиск
Написать публикацию
Обновить
19.4

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор рынка Rotating Residential proxy — осень 2024

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.4K

Ссылка на полный обзор с графиками

Доброго времени суток, меня зовут Григорий, мне интересны сетевые технологии, производительность и добыча данных в public internet. Хочу поделиться исследованием, которое я недавно закончил для локации US.

Несколько базовых терминов активно используемых в индустрии:

GEO filler - описание локации в которой прокси сервис будет искать устройства.

Target - целевой ресурс, с которым мы работаем через Proxy.

Latency - в этом исследовании я использую 90 квантиль TTFB(от старта до получения первого байта от Target).

Residential IPs - адреса принадлежащие настоящим пользвательским устройствам: TV присатвкам, телефонам, лептопам, домашним роутерам через которые осуществляется доступ в public internet.

Tech SR(Technical Success Rate) - кол-во запросов с успешными ответами на уровне L7(Application layer) делить на общее кол-во запросов.

Сразу к выводам(TL; DR)

Читать далее

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

Время на прочтение7 мин
Количество просмотров2K

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

Читать далее

SpyderIDE: Твоя новая «восьмилапая» подруга для Python-разработки

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров12K

Дорогие друзья, порадуемся тому факту, что даже в мире IDE есть свои пауки. Не те, что заползают в ваш код, добавляя баги, а настоящие спасатели программного хаоса. Сегодня речь пойдет о SpyderIDE, любимице научного сообщества и тех, кто слишком увлечен pandas и numpy, чтобы замечать окружающий мир.

Читать далее

Оценка приложений RAG с помощью RAGA

Время на прочтение8 мин
Количество просмотров2.3K

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

Читать далее

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Время на прочтение7 мин
Количество просмотров4.9K

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

Что за распределение у выборочных квантилей?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.6K

Все знают про распределение выборочного среднего (его описывает Центральная предельная теорема), а что насчет выборочных квантилей?

В заметке я расскажу, как и зачем приближать распределения выборочных квантилей из данных с типичными распределениями: равномерное, экспоненциальное и нормальное, а также когда и какое приближение стоит использовать.

Читать далее

Инфраструктура для Data-Engineer форматы файлов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.7K

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Уровень сложностиСредний
Время на прочтение34 мин
Количество просмотров1.9K

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда‑нибудь задавали себе вопрос, в чём главное отличие дата инженера от «обычного» аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом? Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него — уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.

Читать далее

Как мы провели ИИ-трансформацию стратегических процессов Сбера

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.3K

Привет, Хабр! Меня зовут Андрей, я технологический предприниматель, работаю CTO в ИИ-стартапах и помогаю внедрять ИИ в компаниях. Одним из громких кейсов для меня стала ИИ-трансформация Сбера. Сегодня хочу рассказать, как проходила ИИ-трансформация, и какие уроки стоит извлечь из этого опыта.

До ИИ-трансформации банка (2020 год) я работал в роли Chief Data Officer и Chief Data Scientist стратегического блока Сбера. Тогда ChatGPT еще не было, а об ИИ-революции всерьез почти не рассуждали. Конечно, в банках ИИ и ML активно использовались в кредитном скоринге и рекомендательных системах. 

В наши задачи входило макроэкономическое стресс-тестирование банка, анализ и прогнозирование банковских рынков, вывод новых продуктов на рынок, ресурсное планирование, анализ эффективности сотрудников, а также контроль над всеми процессами банка. Ежегодно наш блок формировал новую стратегию развития банка и экосистемы.

Одним из первых ИИ-проектов нашей команды до ИИ-трансформации была модель для прогнозирования эффективности сотрудников. Для обучения модели мы собрали большое количество данных из кадровых систем, систем контроля и учета доступов, социально-демографические показатели, психометрию, оценки сотрудников и другие данные. На тот момент это была единственная ИИ-модель в стратегическом блоке.

Направление было новым и использовалось для решения внутренних задач компании. Но все наработки пригодились, когда в компании объявили ИИ-трансформацию. 

Читать далее

Эпоха перемен: IFC уходит в прошлое или почему Autodesk готов отказаться от IFC ради USD в 14 ключевых фактах

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров10K

В 2024 году в сфере проектирования и строительства происходит значительный технологический сдвиг в области использования и обработки данных. Если вы считаете, что понимание основ BIM (openBIM и closedBIM) будет достаточно для работы с данными в строительстве в ближайшие годы, то вас вскоре может ждать сюрприз. Вместо свободного доступа к проектным данным, производители CAD-систем, сосредотачиваются на продвижении очередных новых концепций. Устаревающие подходы, такие как BIM (2002 год) и openBIM (2012 год), постепенно уступают место современным технологическим решениям, которые ожидают нас в ближайшем будущем:

Читать далее

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров16K

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).

Читать далее

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Время на прочтение10 мин
Количество просмотров5.4K

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

Читать далее

Саммаризация — Как помочь пользователям находить идеальный товар быстрее

Время на прочтение6 мин
Количество просмотров1.5K

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.

Читать далее

Ближайшие события

Введение в синтетические данные для ML: зачем они нужны?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2K

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных?

В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

Читать далее

Сравнение бенчмарков LLM для разработки программного обеспечения

Время на прочтение11 мин
Количество просмотров3.2K

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать большие языковые модели для задач разработки программного обеспечения.

Читать далее

Big Data мертвы, да здравствуют Smart Data

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров8.1K

Big data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать далее

Предвзятость русскоязычных LLM: кого машина считает «обычным человеком»?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров10K

После прочтения зарубежного исследования предвзятости GPT, где автор генерировал людей большими языковыми моделями, решил повторить эксперимент с русскоязычными моделями.

Как выглядит типичный день человека: его пол, возраст, профессия и типичный распорядок дня по мнению нейросетей от Яндекса, Сбера, Т‑Банка и ещё одной зарубежной компании читайте в этой статье.

Читать далее

Как создать датасет для машинного обучения за 6 шагов

Время на прочтение9 мин
Количество просмотров9.2K

Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.

Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.

Читать далее

Оценка LLM: комплексные оценщики и фреймворки оценки

Время на прочтение10 мин
Количество просмотров1.3K

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности больших языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

Читать далее

Prompt Me One More Time. Учим LLM строить графы знаний из текстов

Уровень сложностиСложный
Время на прочтение10 мин
Количество просмотров9.5K

Привет, Хабр! Меня зовут Алла, я работаю младшим исследователем в команде Memory‑Augmented models в AIRI и занимаюсь ресерчем на пересечений графов знаний и языковых моделей. Потребность в таких изысканиях понятна любому, кто пытался добиться от ChatGPT точного ответа на конкретный вопрос: подобрать литературу для курсовой, вспомнить название фильма по описанию и тому подобное. Очень часто модель начинает галлюцинировать и выдумывать факты, которых не существует.

Один из способов решения этой проблемы — связать LLM с графом знаний, но сами графы тоже должен кто‑то наполнять. Мы с коллегами доказали, что эту задачу можно автоматизировать с помощью LLM и предложили своё решение, названное Prompt Me One More Time (фанаты Бритни тут?), о котором мне бы и хотелось сегодня здесь рассказать. За подробностями же можно обратиться к статье, представлена нами на воркшопе TextGraphs-17 конференции ACL-2024, недавно прошедшей в Тайланде.

Читать далее