Как стать автором
Обновить
27.25

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

16 перемен, которые уже меняют корпоративный подход к генеративному ИИ

Время на прочтение11 мин
Количество просмотров209

В 2023 году генеративные ИИ стремительно ворвались в потребительский сегмент, достигнув миллиарда долларов пользовательских расходов за рекордно короткий срок. В 2024-м, по нашим оценкам, потенциал выручки в enterprise-сегменте будет в несколько раз выше.

Пока в прошлом году потребители часами общались с новыми AI-компаньонами или создавали изображения и видео с помощью diffusion-моделей, корпоративное внедрение genAI, казалось, ограничивалось лишь очевидными кейсами и выпуском «GPT-оберток» в виде новых SKU. Скептики задавались вопросами: действительно ли genAI может масштабироваться в enterprise? Разве мы не застряли а трёх одинаковых сценариях? Способны ли стартапы вообще зарабатывать на этом деньги? А вдруг это просто хайп?

За последние несколько месяцев мы пообщались с десятками топ-менеджеров компаний из списка Fortune 500 и других лидеров enterprise-сегмента, а также провели опрос среди ещё 70 компаний, чтобы понять, как они используют genAI, как покупают решения и как планируют бюджеты. Мы были поражены тем, насколько сильно изменилась структура инвестиций и отношение к генеративным ИИ всего за полгода. Хотя у этих лидеров всё ещё остаются определённые опасения по поводу внедрения generative AI, они почти утроили бюджеты, расширили число рабочих кейсов, реализованных на меньших open-source моделях, и начали активно выводить задачи из стадии эксперимента в продакшн.

Для фаундеров это колоссальная возможность. Мы убеждены: те AI-стартапы, которые, во-первых, ориентируются на стратегические AI-инициативы корпораций с учетом их болевых точек, и, во-вторых, трансформируют сервисную модель в масштабируемые продуктовые решения, — именно они смогут захватить значительную долю нового инвестиционного потока и закрепиться на рынке.

Читать далее

Новости

Кросс-валидация на временных рядах: как не перемешать время

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров296

Привет, Хабр!

Сегодня рассмотрим то, что чаще всего ломает даже круто выглядящие модели при работе с временными рядами — неправильная кросс‑валидация. Разберем, почему KFold тут не работает, как легко словить утечку будущего, какие сплиттеры реально честны по отношению ко времени, как валидировать фичи с лагами и агрегатами.

Читать далее

ERROR на my.telegram.org: 99% гайд по его обходу для создания Telegram App

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

Информация об этой ошибке в интернете есть, но она крайне разрозненная. Где-то — только часть советов, а в большинстве случаев — обсуждение заканчивается ничем. Пара примеров: здесь и здесь. Поэтому захотелось собрать всё в одном месте. Даже если я частично повторю чью-то статью или мысль, считаю, что подобные посты стоит обновлять, чтобы актуальные и работающие решения всегда были под рукой.

Поэтому решил собрать здесь всё, что узнал — чтобы и у тех, кто столкнется с этим, процесс прошёл безболезненнее и самому через следующие 7 лет обратиться к рабочему (на данный момент😃) способу и понять, изменилось ли что-то.

Для каждого пункта выведена рабочая рекомендация

Читать далее

Чем живут создатели ИИ? ML’щики, приоткройте чёрный ящик, расскажите о себе в нашем опросе

Время на прочтение1 мин
Количество просмотров2.4K

Пока весь мир обсуждает революцию ИИ, те, кто её творят, остаются в тени и просто делают свою работу. Именно им, ML- и DS-специалистам, человечество обязано прорывам в технологиях. Но какие они на работе и в жизни, чем интересуются и главное — что думают об ИИ, который создают? Мы решили расспросить их самих, чтобы составить честный портрет современного ML-щика. Если вы занимаетесь ML и Data Science, добавьте свои штрихи этому портрету — пройдите наш небольшой опрос. А мы потом покажем вам — и всей аудитории Хабра — получившуюся картину.

Пройти опрос

Кто, как и зачем внедряет Gen AI в 2025: опыт 100 CIO

Время на прочтение13 мин
Количество просмотров675

Чуть больше года назад мы выделили 16 ключевых изменений в том, как компании подходили к разработке и закупке генеративных ИИ. С тех пор ландшафт продолжил стремительно эволюционировать, поэтому мы снова провели беседы с более чем двумя десятками корпоративных заказчиков и опросили 100 CIO из 15 отраслей, чтобы помочь фаундерам понять, как в 2025 в корпорациях используют, приобретают и закладывают бюджеты под generative AI.

Даже в такой динамичной сфере, где единственная постоянная — это перемены, структура рынка genAI изменилась куда сильнее, чем мы ожидали после прошлого исследования.

Читать далее

Вычисляем коэффициент популярности крейтов Rust для работы и для хобби-проектов

Время на прочтение5 мин
Количество просмотров2.1K

Твит, который подтолкнул меня к реализации описанного в статье мини-проекта.

Взявшись за эту задачу, я около двух часов ваял небольшой скрипт, который будет скрейпить данные из базы крейтов Rust crates.io и анализировать их для выяснения, какие пакеты чаще скачиваются для работы (то есть в будние дни), а какие для развлечения (то есть в выходные).

Читать далее

Проверка времени: действительно ли искусство дорожает с возрастом?

Время на прочтение13 мин
Количество просмотров1.4K

Недавно команда проекта MyInvest.Art обратилась к нашей ML-группе с амбициозной задачей: проверить, действительно ли возраст произведения искусства определяет его ценность. Как руководитель, я привык опираться на данные, а не на предположения. Поэтому я поручил команде глубоко погрузиться в аукционные данные — как российские, так и мировые, чтобы дать четкий ответ: стоит ли инвестировать в искусство, и если да, то как это делать с умом.

Общепринятое мнение гласит, что старые работы ценятся выше. Но подтверждается ли это реальными данными? Команда проанализировала 54 994 аукционные сделки (все сделки на российском рынке в базе данных, у которых была известна цена продажи). 

Уникальных произведений искусства: 49351 (Количество уникальных ID в БД) 

Количество повторных продаж (уникальных artwork_id, встречающихся более одного раза): 3925

То есть лишь 8% произведений выходят на рынок повторно. Уже на этом этапе становится понятно: вторичный рынок искусства в России работает не так уж активно.

Для точности анализа мы убрали из выборки работы с отсутствующими ценами, а также тиражную графику (medium_type != 'prints'). Кроме того, между двумя продажами одной и той же работы должно было пройти не менее года, иначе это, скорее всего, тоже будет относиться к тиражной работе.

В финальном датафрейме — 1 389 работ, которые реально перепродавались через аукционы. Именно их ценовая динамика поможет нам понять, действительно ли возраст влияет на стоимость произведений искусства.

Читать далее

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

Время на прочтение11 мин
Количество просмотров2.8K

(версия статьи актуальна на 26 июня 2025 года)

OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью.

Новые версии выходят регулярно, и если вы чувствуете себя потерянными в этом потоке, то вы не одиноки. Мы специально подготовили этот материал, чтобы рассказать обо всех ключевых GPT-моделях и сопутствующих инструментов OpenAI, чем они отличаются и какую из них выбрать для своих задач.

Читать далее

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5.6K

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

Читать далее

MCP и будущее AI: что стоит знать сегодня, чтобы не отстать завтра

Время на прочтение11 мин
Количество просмотров6.4K

С тех пор как OpenAI внедрила функцию function calling в 2023 году, я всё чаще задумываюсь о том, что потребуется, чтобы по-настоящему разблокировать экосистему агентов и инструментов. По мере того как базовые модели становятся всё более интеллектуальными, возможности агентов взаимодействовать с внешними инструментами, данными и API всё больше фрагментируются: разработчики вынуждены реализовывать агентов с индивидуальной бизнес-логикой под каждую отдельную систему, в которой агент работает или с которой интегрируется.

Очевидно, что необходим единый стандартный интерфейс для исполнения, извлечения данных и вызова инструментов. API стали первым универсальным стандартом для Интернета — общим языком, с помощью которого взаимодействуют программные системы. Но у AI-моделей до сих пор нет эквивалента такого унифицированного протокола.

Model Context Protocol (MCP), представленный в ноябре 2024 года, привлек большое внимание в сообществе разработчиков и AI-энтузиастов как потенциальное решение этой проблемы. В этой статье мы разберем, что такое MCP, как он меняет способ взаимодействия AI с инструментами, что уже создают разработчики на его основе и какие задачи еще предстоит решить.

Поехали.

Читать далее

Автоматизация сбора и анализа вакансий с сайта Хэдхантер

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров915

Заинтересовался задачей автоматизации сбора и проведения небольшого анализа вакансий IT-специалистов в России. После беглого исследования пришел к выводу, что удобных бесплатных и расширяемых инструментов нет и решил написать свой на Python. В качестве источника идей, прежде всего для графиков, использовал проект hh_research Александра Капитанова.

HH Inspector получился универсальным и может быть использован широким кругом пользователей в качестве базы для решения своих задач, поэтому выкладываю его в качестве open-source проекта. Все подробности - ниже.

Читать дальше!

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Время на прочтение4 мин
Количество просмотров2.3K

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.

Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

Изучая Arena Explorer от LMSYS, мы сначала хотели взять их путь за основу. Но быстро стало понятно — мы можем и должны пойти дальше. И построили систему, которая обусловлена русскоязычным контекстом, с другим уровнем прозрачности и внимания к качеству.

Читать далее

Как мы обучали ML-модель для выявления подозрительных ставок в системе DoseSports

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров920

Привет, Хабр. Меня зовут Виктор, я Big Data Engineer в antifraud-направлении. В этом посте хочу рассказать о том, как мы выстраивали процесс обнаружения подозрительных паттернов поведения в ставках на зарубежной БК-платформе DoseSports — без воды и маркетинга. Только архитектура, фичи, модели и выводы.

Читать далее

Ближайшие события

Коротко о ETL: как эффективно управлять потоками данных в бизнесе

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров437

Сегодня данные являются ключевым ресурсом для любого бизнеса. Но прежде чем они превратятся в полезную информацию, пригодную для принятия решений, данные проходят длительный и многоступенчатый путь — от извлечения до представления конечному пользователю. Именно этот процесс получил название ETL (Extract, Transform, Load).

Процесс ETL включает:

Читать далее

Новые векторные СУБД и другие инструменты для эмбеддингов и RAG

Время на прочтение6 мин
Количество просмотров3.8K

Ранее в блоге beeline cloud мы рассказывали об открытых СУБД для систем ИИ. Продолжим тему и рассмотрим еще несколько находок в этой области — разносторонние инструменты, упрощающие работу с эмбеддингами, семантическим поиском и RAG.

Читать далее

Хочешь своего AI-бота? Пошаговый план для новичков и не только

Время на прочтение6 мин
Количество просмотров5.8K

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.

В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.

Читать далее

Когда Excel превращается из помощника во вредителя

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.4K

Мне всегда было интересно, как управляются разные бизнесы: как работает завод, ритейл, другие сферы. Я пытался изнутри наблюдать за бизнесом, где создаётся конечная ценность. Где-то работает автократия, в других компаниях уже есть зрелая бюрократия, а где-то все договариваются на словах, но нигде это не прописано.

Я видел, что даже в среднем бизнесе решения принимаются на основании чуйки хозяина. Тогда как в entreprise решения принимаются на основании процедур, отчётов. Люди страдают и ненавидят этот процесс, так как много времени уходит на оцифровку. Но при этом корпорации довольно эффективны, что показал мой дальнейший опыт. Они работают на 4-ку, но стабильно. Малый бизнес может сегодня сработать на 5, а завтра на 2.

Так у меня появилось убеждение, что в своих решениях нужно опираться на данные. Большой компанией можно стать только та, где есть система принятия решений. 

Читать далее

MCP — новая эра в AI или просто модное слово?

Время на прочтение6 мин
Количество просмотров4.7K

TL;DR: MCP стремительно набирает обороты. Сейчас уже существуют тысячи MCP-"серверов", и хотя эту концепцию изначально предложила Anthropic, всего несколько дней назад к ней присоединилась и OpenAI. Серверы — это что-то вроде "приложений" для ИИ, но, что важно, они гораздо более гибко сочетаются между собой. Мы наблюдаем зарождение полноценной AI-экосистемы — аналогично тому, как это происходило с мобильными платформами десять лет назад.

Подробности:

MCP (Model Context Protocol) был представлен Anthropic в ноябре 2024 года как открытый стандарт. Хотя поначалу реакция сообщества была сдержанной, за последние месяцы протокол стал развиваться. В конце марта даже OpenAI — главный конкурент Anthropic — официально внедрила его.

Но что это такое и почему это важно?

Читать далее

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Уровень сложностиСложный
Время на прочтение18 мин
Количество просмотров1.8K

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
Общая информация о датасете
Стенд для тестирования
Результаты
Заключение

Читать далее

MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

Время на прочтение12 мин
Количество просмотров9.8K

Область искусственного интеллекта развивается, их работа теперь выходит за рамки простого ответа на вопросы и начинает напрямую взаимодействовать с нашими данными и инструментами. Если в последнее время вы слышали обсуждения MCP-серверов, вы не одиноки. MCP-серверы уже называют следующим крупным этапом в интеграции ИИ. Но что это такое, и почему вокруг них столько шума?

В этой статье мы разберемся в новом тренде, изложим суть простыми словами, рассмотрим примеры из практики, сравним с традиционными архитектурами ИИ и покажем, как начать работу с MCP. К концу материала вы будете понимать, что такое MCP-серверы, почему они важны и как они трансформируют текущий ландшафт AI.

Читать далее
1
23 ...