Обновить
15.34

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

16 перемен, которые уже меняют корпоративный подход к генеративному ИИ

Время на прочтение11 мин
Охват и читатели1.1K

В 2023 году генеративные ИИ стремительно ворвались в потребительский сегмент, достигнув миллиарда долларов пользовательских расходов за рекордно короткий срок. В 2024-м, по нашим оценкам, потенциал выручки в enterprise-сегменте будет в несколько раз выше.

Пока в прошлом году потребители часами общались с новыми AI-компаньонами или создавали изображения и видео с помощью diffusion-моделей, корпоративное внедрение genAI, казалось, ограничивалось лишь очевидными кейсами и выпуском «GPT-оберток» в виде новых SKU. Скептики задавались вопросами: действительно ли genAI может масштабироваться в enterprise? Разве мы не застряли в трёх одинаковых сценариях? Способны ли стартапы вообще зарабатывать на этом деньги? А вдруг это просто хайп?

За последние несколько месяцев мы пообщались с десятками топ-менеджеров компаний из списка Fortune 500 и других лидеров enterprise-сегмента, а также провели опрос среди ещё 70 компаний, чтобы понять, как они используют genAI, как покупают решения и как планируют бюджеты. Мы были поражены тем, насколько сильно изменилась структура инвестиций и отношение к генеративным ИИ всего за полгода. Хотя у этих лидеров всё ещё остаются определённые опасения по поводу внедрения generative AI, они почти утроили бюджеты, расширили число рабочих кейсов, реализованных на меньших open-source моделях, и начали активно выводить задачи из стадии эксперимента в продакшн.

Для фаундеров это колоссальная возможность. Мы убеждены: те AI-стартапы, которые, во-первых, ориентируются на стратегические AI-инициативы корпораций с учетом их болевых точек, и, во-вторых, трансформируют сервисную модель в масштабируемые продуктовые решения, — именно они смогут захватить значительную долю нового инвестиционного потока и закрепиться на рынке.

Читать далее

Кросс-валидация на временных рядах: как не перемешать время

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели1.8K

Привет, Хабр!

Сегодня рассмотрим то, что чаще всего ломает даже круто выглядящие модели при работе с временными рядами — неправильная кросс‑валидация. Разберем, почему KFold тут не работает, как легко словить утечку будущего, какие сплиттеры реально честны по отношению ко времени, как валидировать фичи с лагами и агрегатами.

Читать далее

ERROR на my.telegram.org: 99% гайд по его обходу для создания Telegram App

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.1K

Информация об этой ошибке в интернете есть, но она крайне разрозненная. Где-то — только часть советов, а в большинстве случаев — обсуждение заканчивается ничем. Пара примеров: здесь и здесь. Поэтому захотелось собрать всё в одном месте. Даже если я частично повторю чью-то статью или мысль, считаю, что подобные посты стоит обновлять, чтобы актуальные и работающие решения всегда были под рукой.

Поэтому решил собрать здесь всё, что узнал — чтобы и у тех, кто столкнется с этим, процесс прошёл безболезненнее и самому через следующие 7 лет обратиться к рабочему (на данный момент😃) способу и понять, изменилось ли что-то.

Для каждого пункта выведена рабочая рекомендация

Читать далее

Чем живут создатели ИИ? ML’щики, приоткройте чёрный ящик, расскажите о себе в нашем опросе

Время на прочтение1 мин
Охват и читатели18K

Пока весь мир обсуждает революцию ИИ, те, кто её творят, остаются в тени и просто делают свою работу. Именно им, ML- и DS-специалистам, человечество обязано прорывам в технологиях. Но какие они на работе и в жизни, чем интересуются и главное — что думают об ИИ, который создают? Мы решили расспросить их самих, чтобы составить честный портрет современного ML-щика. Если вы занимаетесь ML и Data Science, добавьте свои штрихи этому портрету — пройдите наш небольшой опрос. А мы потом покажем вам — и всей аудитории Хабра — получившуюся картину.

Пройти опрос

Кто, как и зачем внедряет Gen AI в 2025: опыт 100 CIO

Время на прочтение14 мин
Охват и читатели1.5K

Чуть больше года назад мы выделили 16 ключевых изменений в том, как компании подходили к разработке и закупке генеративных ИИ. С тех пор ландшафт продолжил стремительно эволюционировать, поэтому мы снова провели беседы с более чем двумя десятками корпоративных заказчиков и опросили 100 CIO из 15 отраслей, чтобы помочь фаундерам понять, как в 2025 в корпорациях используют, приобретают и закладывают бюджеты под generative AI.

Даже в такой динамичной сфере, где единственная постоянная — это перемены, структура рынка genAI изменилась куда сильнее, чем мы ожидали после прошлого исследования.

Читать далее

Вычисляем коэффициент популярности крейтов Rust для работы и для хобби-проектов

Время на прочтение5 мин
Охват и читатели1.8K

Твит, который подтолкнул меня к реализации описанного в статье мини-проекта.

Взявшись за эту задачу, я около двух часов ваял небольшой скрипт, который будет скрейпить данные из базы крейтов Rust crates.io и анализировать их для выяснения, какие пакеты чаще скачиваются для работы (то есть в будние дни), а какие для развлечения (то есть в выходные).

Читать далее

Проверка времени: действительно ли искусство дорожает с возрастом?

Время на прочтение13 мин
Охват и читатели1K

Недавно команда проекта MyInvest.Art обратилась к нашей ML-группе с амбициозной задачей: проверить, действительно ли возраст произведения искусства определяет его ценность. Как руководитель, я привык опираться на данные, а не на предположения. Поэтому я поручил команде глубоко погрузиться в аукционные данные — как российские, так и мировые, чтобы дать четкий ответ: стоит ли инвестировать в искусство, и если да, то как это делать с умом.

Общепринятое мнение гласит, что старые работы ценятся выше. Но подтверждается ли это реальными данными? Команда проанализировала 54 994 аукционные сделки (все сделки на российском рынке в базе данных, у которых была известна цена продажи). 

Уникальных произведений искусства: 49351 (Количество уникальных ID в БД) 

Количество повторных продаж (уникальных artwork_id, встречающихся более одного раза): 3925

То есть лишь 8% произведений выходят на рынок повторно. Уже на этом этапе становится понятно: вторичный рынок искусства в России работает не так уж активно.

Для точности анализа мы убрали из выборки работы с отсутствующими ценами, а также тиражную графику (medium_type != 'prints'). Кроме того, между двумя продажами одной и той же работы должно было пройти не менее года, иначе это, скорее всего, тоже будет относиться к тиражной работе.

В финальном датафрейме — 1 389 работ, которые реально перепродавались через аукционы. Именно их ценовая динамика поможет нам понять, действительно ли возраст влияет на стоимость произведений искусства.

Читать далее

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

Время на прочтение12 мин
Охват и читатели4.3K

(версия статьи актуальна на 26 июня 2025 года)

OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью.

Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

Читать далее

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.6K

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

Читать далее

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

Время на прочтение11 мин
Охват и читатели5.5K

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.

Читать далее

Автоматизация сбора и анализа вакансий с сайта Хэдхантер

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели805

Заинтересовался задачей автоматизации сбора и проведения небольшого анализа вакансий IT-специалистов в России. После беглого исследования пришел к выводу, что удобных бесплатных и расширяемых инструментов нет и решил написать свой на Python. В качестве источника идей, прежде всего для графиков, использовал проект hh_research Александра Капитанова.

HH Inspector получился универсальным и может быть использован широким кругом пользователей в качестве базы для решения своих задач, поэтому выкладываю его в качестве open-source проекта. Все подробности - ниже.

Читать дальше!

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Время на прочтение4 мин
Охват и читатели2K

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

Коротко о ETL: как эффективно управлять потоками данных в бизнесе

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели581

Сегодня данные являются ключевым ресурсом для любого бизнеса. Но прежде чем они превратятся в полезную информацию, пригодную для принятия решений, данные проходят длительный и многоступенчатый путь — от извлечения до представления конечному пользователю. Именно этот процесс получил название ETL (Extract, Transform, Load).

Процесс ETL включает:

Читать далее

Ближайшие события

Новые векторные СУБД и другие инструменты для эмбеддингов и RAG

Время на прочтение6 мин
Охват и читатели3K

Ранее в блоге beeline cloud мы рассказывали об открытых СУБД для систем ИИ. Продолжим тему и рассмотрим еще несколько находок в этой области — разносторонние инструменты, упрощающие работу с эмбеддингами, семантическим поиском и RAG.

Читать далее

Хочешь своего AI-бота? Пошаговый план для новичков и не только

Время на прочтение6 мин
Охват и читатели6.9K

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.

В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.

Читать далее

Когда Excel превращается из помощника во вредителя

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели3.6K

Мне всегда было интересно, как управляются разные бизнесы: как работает завод, ритейл, другие сферы. Я пытался изнутри наблюдать за бизнесом, где создаётся конечная ценность. Где-то работает автократия, в других компаниях уже есть зрелая бюрократия, а где-то все договариваются на словах, но нигде это не прописано.

Я видел, что даже в среднем бизнесе решения принимаются на основании чуйки хозяина. Тогда как в entreprise решения принимаются на основании процедур, отчётов. Люди страдают и ненавидят этот процесс, так как много времени уходит на оцифровку. Но при этом корпорации довольно эффективны, что показал мой дальнейший опыт. Они работают на 4-ку, но стабильно. Малый бизнес может сегодня сработать на 5, а завтра на 2.

Так у меня появилось убеждение, что в своих решениях нужно опираться на данные. Большой компанией можно стать только та, где есть система принятия решений. 

Читать далее

MCP — новая эра в AI или просто модное слово?

Время на прочтение6 мин
Охват и читатели3.6K

TL;DR: MCP стремительно набирает обороты. Сейчас уже существуют тысячи MCP-"серверов", и хотя эту концепцию изначально предложила Anthropic, всего несколько дней назад к ней присоединилась и OpenAI. Серверы — это что-то вроде "приложений" для ИИ, но, что важно, они гораздо более гибко сочетаются между собой. Мы наблюдаем зарождение полноценной AI-экосистемы — аналогично тому, как это происходило с мобильными платформами десять лет назад.

Подробности:

MCP (Model Context Protocol) был представлен Anthropic в ноябре 2024 года как открытый стандарт. Хотя поначалу реакция сообщества была сдержанной, за последние месяцы протокол стал развиваться. В конце марта даже OpenAI — главный конкурент Anthropic — официально внедрила его.

Но что это такое и почему это важно?

Читать далее

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Уровень сложностиСложный
Время на прочтение18 мин
Охват и читатели1.7K

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
Общая информация о датасете
Стенд для тестирования
Результаты
Заключение

Читать далее

MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

Время на прочтение12 мин
Охват и читатели36K

Область искусственного интеллекта развивается, их работа теперь выходит за рамки простого ответа на вопросы и начинает напрямую взаимодействовать с нашими данными и инструментами. Если в последнее время вы слышали обсуждения MCP-серверов, вы не одиноки. MCP-серверы уже называют следующим крупным этапом в интеграции ИИ. Но что это такое, и почему вокруг них столько шума?

В этой статье мы разберемся в новом тренде, изложим суть простыми словами, рассмотрим примеры из практики, сравним с традиционными архитектурами ИИ и покажем, как начать работу с MCP. К концу материала вы будете понимать, что такое MCP-серверы, почему они важны и как они трансформируют текущий ландшафт AI.

Читать далее

Data Mesh: ожидания vs реальность

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели2.6K

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Читать далее