Как стать автором
Обновить
121.08

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

MCP — новая эра в AI или просто модное слово?

Время на прочтение6 мин
Количество просмотров1.2K

TL;DR: MCP стремительно набирает обороты. Сейчас уже существуют тысячи MCP-"серверов", и хотя эту концепцию изначально предложила Anthropic, всего несколько дней назад к ней присоединилась и OpenAI. Серверы — это что-то вроде "приложений" для ИИ, но, что важно, они гораздо более гибко сочетаются между собой. Мы наблюдаем зарождение полноценной AI-экосистемы — аналогично тому, как это происходило с мобильными платформами десять лет назад.

Подробности:

MCP (Model Context Protocol) был представлен Anthropic в ноябре 2024 года как открытый стандарт. Хотя поначалу реакция сообщества была сдержанной, за последние месяцы протокол стал развиваться. В конце марта даже OpenAI — главный конкурент Anthropic — официально внедрила его.

Но что это такое и почему это важно?

Читать далее

Новости

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Уровень сложностиСложный
Время на прочтение18 мин
Количество просмотров1.2K

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
Общая информация о датасете
Стенд для тестирования
Результаты
Заключение

Читать далее

MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

Время на прочтение12 мин
Количество просмотров5.3K

Область искусственного интеллекта развивается, их работа теперь выходит за рамки простого ответа на вопросы и начинает напрямую взаимодействовать с нашими данными и инструментами. Если в последнее время вы слышали обсуждения MCP-серверов, вы не одиноки. MCP-серверы уже называют следующим крупным этапом в интеграции ИИ. Но что это такое, и почему вокруг них столько шума?

В этой статье мы разберемся в новом тренде, изложим суть простыми словами, рассмотрим примеры из практики, сравним с традиционными архитектурами ИИ и покажем, как начать работу с MCP. К концу материала вы будете понимать, что такое MCP-серверы, почему они важны и как они трансформируют текущий ландшафт AI.

Читать далее

Data Mesh: ожидания vs реальность

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.3K

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Читать далее

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.8K

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

Читать далее

Что скрывается за MCP-сервером и почему он может заменить RAG

Время на прочтение3 мин
Количество просмотров5.6K

Область искусственного интеллекта стремительно развивается, открывая новые способы повышения эффективности их работы и интеграции с данными в реальном времени. Одним из последних достижений стал Model Context Protocol (MCP) — открытый стандарт, позволяющий AI-моделям напрямую обращаться к файлам, API и инструментам без необходимости в промежуточных этапах, таких как создание эмбеддингов или векторный поиск. В этой статье мы рассмотрим, что такое MCP-сервер, как он работает и почему он может изменить будущее AI.

Читать далее

Финты справедливости

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров815

Очередной футбольной сезон заканчивается. Самое время вернуться к вопросам справедливости. Давайте попробуем её измерить? Ну хотя бы в футболе.

Какова роль случая в спорте? Действительно ли плей-офф - это лотерея? Портит ли нам впечатление от игры новая схема розыгрыша лиги чемпионов?

Давайте построим много-много графиков и закроем уже этот гештальт.

Читать далее

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Время на прочтение6 мин
Количество просмотров1.2K

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

Читать далее

ClickHouse как DWH: Производительность без боли и ловушки merge-таблиц

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.7K

Недавно перед нашей командой встала непростая задача: объем данных для аналитики вырос до 300 миллионов строк в день. Прежние решения перестали справляться с такой нагрузкой, отчеты строились слишком медленно, а масштабировать существующую систему было дорого и сложно. Нужно было срочно находить новое решение для хранилища данных (DWH), способное глотать миллионы строк ежедневно и отдавать результат аналитических запросов практически мгновенно.

После оценки различных вариантов (классические СУБД, облачные DWH и др.) мы остановились на ClickHouse. Эта колоночная база данных открытого кода изначально создавалась для работы с большими объемами потока событий. ClickHouse славится впечатляющей скоростью агрегаций и фильтрации на терабайтах данных и отлично подходит для аналитики при больших нагрузках. В этой статье расскажем, как мы выбрали и внедрили ClickHouse в нашем проекте, построив систему сбора и анализа данных с нагрузкой сотни миллионов строк в сутки.

Поговорим об архитектуре (как данные летят из Kafka в ClickHouse), о двух подходах загрузки данных (пакетная и стриминговая), о том, какие табличные движки ClickHouse мы использовали и зачем, как нам помогли материализованные представления, об оркестрации процессов через Airflow и dbt. Отдельно разберем типичные ошибки, с которыми столкнулись в процессе, и поделимся улучшениями, которые планируем учесть при следующей реализации подобного решения.

Читать далее

Теория мертвого 2GIS

Уровень сложностиПростой
Время на прочтение62 мин
Количество просмотров50K

Выбрали хороший ресторан (врача, СТО, юриста, риэлтора) по отзывам и высокому рейтингу в 2GIS, а оказалось, что там если не ужас-ужас-ужас, то как-то средне, явно не похоже на то, что вы бы ожидали от рейтинга 4.8 или даже 5 баллов. Знакомо?

Все знают, что в 2GIS могут быть накрученные фейковые отзывы (а их там всего 10-20 на весь город или там 99% фейковых? Есть ведь разница!), но не все умеют их легко опознавать. У 2gis, похоже, еще нет антифрода (что вполне нормально для пет-проекта, который делают веб-программисты в свободное время), но вы теперь можете различать ботов-зомби-инопланетян через мой антифрод af2gis, и выбирать себе те заведения, которые нравятся людям, а не ботам.

Статья будет длинная (она про все подряд о чем я думал и с чем разбирался последнее время), но тех, кто ее прочитает ждет фантастическая награда! Они смогут ходить в самые лучшие заведения города, их будут обслуживать самые красивые и шустрые официантки, еда будет очень вкусной, порции огромными и все это за довольно разумные деньги! Такие места есть, живые люди их любят и ставят им высокие оценки, а боты - любят другие заведения. Нужно только надеть волшебные очки чтобы увидеть, какие заведения хвалят люди, а какие - боты.

Прочитать и получить волшебные очки!

Поддержка RUTUBE 2.0: как мы научили бота не ломаться на сложных вопросах

Время на прочтение19 мин
Количество просмотров1.8K

Как у нас в RUTUBE ИИ и служба клиентского сервиса работают сообща, вместе справляются ростом сервиса и мгновенно адаптируются к изменениям — рассказываем в этой статье. Делимся рецептом RAG-системы, которая за первые три месяца эксплуатации уже отвечает почти на 70% запросов пользователей и никогда не врёт про «космических зайцев». 

Читать далее

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Уровень сложностиПростой
Время на прочтение30 мин
Количество просмотров4.4K

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете с PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.

В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях.

Почитать гайд →

Apache Kafka на слое Stage аналитической платформы: зачем, как и грабли на пути

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров857

Всем привет! В этой статье поделюсь нашим опытом использования Apache Kafka на слое Stage в аналитической архитектуре. Мы поговорим о том, что такое слой Stage и зачем он нужен, почему именно Kafka стала нашим выбором, как устроен процесс ingest (приёма данных) на базе Kafka, что можно и чего делать не стоит на этом этапе, какие грабли нас ждали и как мы их преодолели, а также дам практические советы из реального опыта. Спойлер: Kafka оказалась не просто очередным модным словом, а действительно упростила нам жизнь в аналитическом проекте. Поехали!

Читать далее

Ближайшие события

Заставляем ботов бесконечно играть в карты. Часть 2

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.4K

Продолжаем заставлять ботов бесконечно играть в карты в надежде вытрясти оптимальные настройки для нашей карточной игры. Первая часть эпопеи находится здесь. Очень рекомендуется ознакомиться с ней, иначе будет очень трудно быть с контексте.

Итак, в предыдущих сериях мы: познали боль и дисбаланс; написали логику карточной игры на питоне; внедрили в игру ботов и заставили их играть друг с другом тысячи и тысячи партий; описали метрики, которые мы собираем с игры; пообещали себе, что доведем дело до конца и получим оптимальные настройки карточной игры

Читать далее

Разведочный анализ данных (EDA) через тематическое моделирование и мягкую кластеризацию

Время на прочтение15 мин
Количество просмотров1.1K

Привет! Меня зовут Соня Асанина, я работаю в команде Центра технологий искусственного интеллекта Газпромбанка. В этой статье я расскажу, как тематическое моделирование и мягкая кластеризация помогают нам извлекать ценные инсайты из клиентских отзывов.

Каждый день мы получаем тысячи отзывов от клиентов. В каждом есть информация, которая помогает выявлять проблемы и дает понимание, как улучшать продукты и сервисы. Но часто очень сложно извлечь эти инсайты из огромного потока неструктурированных данных.

К примеру, мы получаем отзыв, в котором клиент недоволен кредитной картой и предлагает что-то изменить в приложении, но при этом выражает благодарность за вежливое обслуживание в отделении. К какой категории отнести отзыв? А если таких смешанных отзывов тысячи — как определить, какие продукты действительно требуют улучшения, а какие работают отлично?

Обрабатывать вручную такой поток сложно. А классические методы анализа часто не справляются с этой задачей, поскольку загоняют многогранные пользовательские отзывы в жесткие рамки одиночных категорий. Расскажу, как мы использовали для этого более гибкие инструменты — тематическое моделирование и мягкую кластеризацию.

Читать далее

LLM-судья: как LLM отсекает правду от лжи?

Время на прочтение27 мин
Количество просмотров1.2K

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM.

Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов.

Оценивать сгенерированные тексты сложно, будь то «простой» саммари или диалог с чат-ботом. Метрики типа accuracy плохо работают, поскольку «правильный» ответ может быть сформулирован множеством способов, не обязательно совпадающих с образцом. Кроме того, стиль или тон — субъективные характеристики, которые сложно формализовать.

Люди способны учитывать такие нюансы, но ручная проверка каждого ответа плохо масштабируется. В качестве альтернативы появилась техника LLM-as-a-judge: для оценки сгенерированных текстов используются сами LLM. Интересно, что LLM одновременно являются и источником проблемы, и её решением!

Читать далее

Концепция построения централизованной аналитики

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.5K

Централизованная аналитика — это фундамент эффективного принятия решений в компании. Чтобы данные действительно работали на бизнес, они должны пройти путь от извлечения до представления в понятной форме. Один из наиболее известных и проверенных временем подходов — архитектура, построенная на четырех ключевых модулях: интеграция, обработка, представление и управление. В этой статье мы познакомимся с каждым из них, а также рассмотрим один из рабочих вариантов реализации (DQ, BI, метаданные и др.).

Читать далее

Что покажет бенчмарк? Оценка мультиагентных систем в действии

Время на прочтение6 мин
Количество просмотров436

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.

Читать далее

Глубокое Q-обучение (DQN)

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров3.2K

Подходит к завершению серия моих публикаций про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP).

В этой заметке помогаю разобраться в авторской реализации Deep Q-learning для TSP.

Читать далее

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

Время на прочтение15 мин
Количество просмотров2.9K

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.

Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

Читать далее
1
23 ...

Работа

Data Scientist
45 вакансий