Как стать автором
Поиск
Написать публикацию
Обновить
46.53

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Кто, как и зачем внедряет Gen AI в 2025: опыт 100 CIO

Время на прочтение14 мин
Количество просмотров1.4K

Чуть больше года назад мы выделили 16 ключевых изменений в том, как компании подходили к разработке и закупке генеративных ИИ. С тех пор ландшафт продолжил стремительно эволюционировать, поэтому мы снова провели беседы с более чем двумя десятками корпоративных заказчиков и опросили 100 CIO из 15 отраслей, чтобы помочь фаундерам понять, как в 2025 в корпорациях используют, приобретают и закладывают бюджеты под generative AI.

Даже в такой динамичной сфере, где единственная постоянная — это перемены, структура рынка genAI изменилась куда сильнее, чем мы ожидали после прошлого исследования.

Читать далее

Вычисляем коэффициент популярности крейтов Rust для работы и для хобби-проектов

Время на прочтение5 мин
Количество просмотров2.5K

Твит, который подтолкнул меня к реализации описанного в статье мини-проекта.

Взявшись за эту задачу, я около двух часов ваял небольшой скрипт, который будет скрейпить данные из базы крейтов Rust crates.io и анализировать их для выяснения, какие пакеты чаще скачиваются для работы (то есть в будние дни), а какие для развлечения (то есть в выходные).

Читать далее

Проверка времени: действительно ли искусство дорожает с возрастом?

Время на прочтение13 мин
Количество просмотров1.6K

Недавно команда проекта MyInvest.Art обратилась к нашей ML-группе с амбициозной задачей: проверить, действительно ли возраст произведения искусства определяет его ценность. Как руководитель, я привык опираться на данные, а не на предположения. Поэтому я поручил команде глубоко погрузиться в аукционные данные — как российские, так и мировые, чтобы дать четкий ответ: стоит ли инвестировать в искусство, и если да, то как это делать с умом.

Общепринятое мнение гласит, что старые работы ценятся выше. Но подтверждается ли это реальными данными? Команда проанализировала 54 994 аукционные сделки (все сделки на российском рынке в базе данных, у которых была известна цена продажи). 

Уникальных произведений искусства: 49351 (Количество уникальных ID в БД) 

Количество повторных продаж (уникальных artwork_id, встречающихся более одного раза): 3925

То есть лишь 8% произведений выходят на рынок повторно. Уже на этом этапе становится понятно: вторичный рынок искусства в России работает не так уж активно.

Для точности анализа мы убрали из выборки работы с отсутствующими ценами, а также тиражную графику (medium_type != 'prints'). Кроме того, между двумя продажами одной и той же работы должно было пройти не менее года, иначе это, скорее всего, тоже будет относиться к тиражной работе.

В финальном датафрейме — 1 389 работ, которые реально перепродавались через аукционы. Именно их ценовая динамика поможет нам понять, действительно ли возраст влияет на стоимость произведений искусства.

Читать далее

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

Время на прочтение12 мин
Количество просмотров4.5K

(версия статьи актуальна на 26 июня 2025 года)

OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью.

Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

Читать далее

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7.8K

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

Читать далее

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

Время на прочтение11 мин
Количество просмотров7.9K

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.

Читать далее

Автоматизация сбора и анализа вакансий с сайта Хэдхантер

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.1K

Заинтересовался задачей автоматизации сбора и проведения небольшого анализа вакансий IT-специалистов в России. После беглого исследования пришел к выводу, что удобных бесплатных и расширяемых инструментов нет и решил написать свой на Python. В качестве источника идей, прежде всего для графиков, использовал проект hh_research Александра Капитанова.

HH Inspector получился универсальным и может быть использован широким кругом пользователей в качестве базы для решения своих задач, поэтому выкладываю его в качестве open-source проекта. Все подробности - ниже.

Читать дальше!

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Время на прочтение4 мин
Количество просмотров2.5K

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

Как мы обучали ML-модель для выявления подозрительных ставок в системе DoseSports

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров992

Привет, Хабр. Меня зовут Виктор, я Big Data Engineer в antifraud-направлении. В этом посте хочу рассказать о том, как мы выстраивали процесс обнаружения подозрительных паттернов поведения в ставках на зарубежной БК-платформе DoseSports — без воды и маркетинга. Только архитектура, фичи, модели и выводы.

Читать далее

Коротко о ETL: как эффективно управлять потоками данных в бизнесе

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров626

Сегодня данные являются ключевым ресурсом для любого бизнеса. Но прежде чем они превратятся в полезную информацию, пригодную для принятия решений, данные проходят длительный и многоступенчатый путь — от извлечения до представления конечному пользователю. Именно этот процесс получил название ETL (Extract, Transform, Load).

Процесс ETL включает:

Читать далее

Новые векторные СУБД и другие инструменты для эмбеддингов и RAG

Время на прочтение6 мин
Количество просмотров4.2K

Ранее в блоге beeline cloud мы рассказывали об открытых СУБД для систем ИИ. Продолжим тему и рассмотрим еще несколько находок в этой области — разносторонние инструменты, упрощающие работу с эмбеддингами, семантическим поиском и RAG.

Читать далее

Хочешь своего AI-бота? Пошаговый план для новичков и не только

Время на прочтение6 мин
Количество просмотров6.9K

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.

В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.

Читать далее

Когда Excel превращается из помощника во вредителя

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.6K

Мне всегда было интересно, как управляются разные бизнесы: как работает завод, ритейл, другие сферы. Я пытался изнутри наблюдать за бизнесом, где создаётся конечная ценность. Где-то работает автократия, в других компаниях уже есть зрелая бюрократия, а где-то все договариваются на словах, но нигде это не прописано.

Я видел, что даже в среднем бизнесе решения принимаются на основании чуйки хозяина. Тогда как в entreprise решения принимаются на основании процедур, отчётов. Люди страдают и ненавидят этот процесс, так как много времени уходит на оцифровку. Но при этом корпорации довольно эффективны, что показал мой дальнейший опыт. Они работают на 4-ку, но стабильно. Малый бизнес может сегодня сработать на 5, а завтра на 2.

Так у меня появилось убеждение, что в своих решениях нужно опираться на данные. Большой компанией можно стать только та, где есть система принятия решений. 

Читать далее

Ближайшие события

MCP — новая эра в AI или просто модное слово?

Время на прочтение6 мин
Количество просмотров5K

TL;DR: MCP стремительно набирает обороты. Сейчас уже существуют тысячи MCP-"серверов", и хотя эту концепцию изначально предложила Anthropic, всего несколько дней назад к ней присоединилась и OpenAI. Серверы — это что-то вроде "приложений" для ИИ, но, что важно, они гораздо более гибко сочетаются между собой. Мы наблюдаем зарождение полноценной AI-экосистемы — аналогично тому, как это происходило с мобильными платформами десять лет назад.

Подробности:

MCP (Model Context Protocol) был представлен Anthropic в ноябре 2024 года как открытый стандарт. Хотя поначалу реакция сообщества была сдержанной, за последние месяцы протокол стал развиваться. В конце марта даже OpenAI — главный конкурент Anthropic — официально внедрила его.

Но что это такое и почему это важно?

Читать далее

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Уровень сложностиСложный
Время на прочтение18 мин
Количество просмотров2K

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
Общая информация о датасете
Стенд для тестирования
Результаты
Заключение

Читать далее

MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

Время на прочтение12 мин
Количество просмотров23K

Область искусственного интеллекта развивается, их работа теперь выходит за рамки простого ответа на вопросы и начинает напрямую взаимодействовать с нашими данными и инструментами. Если в последнее время вы слышали обсуждения MCP-серверов, вы не одиноки. MCP-серверы уже называют следующим крупным этапом в интеграции ИИ. Но что это такое, и почему вокруг них столько шума?

В этой статье мы разберемся в новом тренде, изложим суть простыми словами, рассмотрим примеры из практики, сравним с традиционными архитектурами ИИ и покажем, как начать работу с MCP. К концу материала вы будете понимать, что такое MCP-серверы, почему они важны и как они трансформируют текущий ландшафт AI.

Читать далее

Data Mesh: ожидания vs реальность

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров3K

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Читать далее

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.3K

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

Читать далее

Что скрывается за MCP-сервером и почему он может заменить RAG

Время на прочтение4 мин
Количество просмотров7K

Область искусственного интеллекта стремительно развивается, открывая новые способы повышения эффективности их работы и интеграции с данными в реальном времени. Одним из последних достижений стал Model Context Protocol (MCP) — открытый стандарт, позволяющий AI-моделям напрямую обращаться к файлам, API и инструментам без необходимости в промежуточных этапах, таких как создание эмбеддингов или векторный поиск. В этой статье мы рассмотрим, что такое MCP-сервер, как он работает и почему он может изменить будущее AI.

Читать далее

Финты справедливости

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров876

Очередной футбольной сезон заканчивается. Самое время вернуться к вопросам справедливости. Давайте попробуем её измерить? Ну хотя бы в футболе.

Какова роль случая в спорте? Действительно ли плей-офф - это лотерея? Портит ли нам впечатление от игры новая схема розыгрыша лиги чемпионов?

Давайте построим много-много графиков и закроем уже этот гештальт.

Читать далее