Все потоки

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

kucev 25 авг в 11:00

Неожиданный результат: ИИ замедляет опытных разработчиков

9 мин

3.7K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.

Мы рассматриваем этот результат как срез текущего уровня возможностей ИИ в одном из прикладных сценариев. Поскольку системы продолжают стремительно развиваться, мы планируем использовать аналогичную методологию в будущем, чтобы отслеживать, насколько ИИ способен ускорять работу в сфере автоматизации R&D^[1].

Подробности — в полной версии статьи.

Читать далее

+8

ovchinnikovproger 24 авг в 11:59

Работа с Binance REST API с помощью Java

Средний

14 мин

2.4K

Блог компании AmveraJava * Программирование * Data Mining * Gradle *

Туториал

В предыдущей статье мы рассмотрели основы парсинга данных в Java.

В этой статье мы пошагово разберём, как с помощью Java 11+ быстро отправлять HTTP GET‑запросы, получать JSON от Binance REST API и извлекать из него символ пары (symbol) и цену (price) — без сторонних зависимостей.

Также в статье мы рассмотрим обход блокировки запросов со стороны сервера.

Читать далее

+6

kucev 21 авг в 11:00

Time Horizon моделей AI: почему рост скорости зависит от сферы применения

21 мин

414

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.

Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач^[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.

Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.

Читать далее

+2

kucev 18 авг в 11:00

Развенчиваем мифы об AI-агентах: от фантазий к реальности

16 мин

6.4K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

По мере роста возможностей искусственного интеллекта наш понятийный аппарат с трудом успевает за технологическим прогрессом. До недавнего времени под AI-ассистентами понимали чат-ботов и голосовых помощников, реагирующих на прямые пользовательские команды вроде «позвони маме», «какой рост у Леди Гаги?» или «запусти Spotify».

Сегодня в обиход входят новые термины: AI-агенты и agentic AI. Это отражает сдвиг в сторону более автономных и интеллектуальных систем, способных принимать решения. Проблема в том, что единых представлений о сути этих понятий нет, они часто используются неточно или трактуются ошибочно.

Чтобы прояснить ситуацию и разграничить хайп и реальность, мы побеседовали с техническими специалистами из разных отраслей, которые в реальной работе имеют дело с agentic-системами. В этой статье мы разбираем, что такое agentic AI и AI-агенты, приводим практические примеры, а также исследуем их перспективы и текущие ограничения.

Читать далее

0

kucev 14 авг в 11:00

ИИ под контролем: Guardrails как щит от рисков в агентных системах

18 мин

2.2K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.

Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.

В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!

Читать далее

+4

kucev 11 авг в 11:30

Как AI-редактор Cursor меняет процесс разработки — и стоит ли ему доверять

19 мин

34K

Big Data * Машинное обучение * Искусственный интеллектData Mining * Data Engineering *

Перевод

Одним из крупнейших сдвигов в современном софтверном девелопменте стало стремительное распространение AI-инструментов для написания кода. Эти решения помогают как разработчикам, так и людям без технического бэкграунда быстрее писать код, запускать прототипы и готовые приложения. Среди таких инструментов достаточно быстро привлёк внимание Cursor, почти сразу он занял позицию одного из лидеров рынка.

В этой статье я подробнее рассмотрю Cursor, его сильные и слабые стороны, а также сравню его с другими AI-редакторами кода. Это будет практический гайд, в котором я поделюсь своим опытом использования Cursor для создания to-do приложения. К концу материала у вас сложится четкое представление о том, подходит ли Cursor для вашего собственного девелоперского workflow.

Поехали.

Читать далее

+5

aarmaageedoon 11 авг в 08:00

Стирая языковые границы для NLP-датасетов

Средний

12 мин

1.1K

Natural Language Processing * Машинное обучение * Искусственный интеллектData Mining *

Всем привет. В этом посте расскажем, как мы тестировали БЯМ для перевода англоязычных датасетов на русский. «Мы» — это ваш покорный слуга и ребята из ФИЦ ИУ РАН. Пост по факту перевод нашей статьи, которая была опубликована еще в апреле, но вот руки до поста дошли только сейчас.

Читать далее

+1

ChePeter 9 авг в 10:42

Под капотом у ИИ

Простой

8 мин

4.1K

Бизнес-модели * Data Mining * Искусственный интеллектМашинное обучение * Математика *

Репортаж

Если вдруг автомобильный дилер скажет про свои автомобили, что у них под капотом двигатель, цикл которого состоит из двух изотерм и двух адиабат и коэффициент полезного действия .., короче «Цикл Карно — идеальный термодинамический цикл». То вы наверно покрутите у виска пальцем (к счастью не все покрутят и некоторые поймут и выслушают, может даже потом объяснят тем, кто хочет слушать) и пойдёте к другому. Но эти слова — правда и ничего кроме правды, но она вам не нужна.

Но вот это «звук винтажного двигателя V-8 „давно считался призывным вызовом „Мустанга“, готового к спариванию“ (mating call of Mustang), новая система обработки и усиления звука „спортивна и энергична“, обеспечивает „более изящное рычание“ и „низкочастотное ощущение всемогущества“» — полная туфта всего лишь для почёсывания ЧСВ потенциального покупателя и на качество движения никак не влияет.

Вот сейчас то же самое, слово в слово происходит в ИТ с его хайпом вокруг ИИ.

загляни под капот

+22

castos 9 авг в 05:56

Вебинары трека Наука о данных Летней цифровой школы Сбера

Средний

4 мин

726

Искусственный интеллектМашинное обучение * Data Mining * Data Engineering * Natural Language Processing *

Дайджест

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

Читать далее

+3

ni40in 8 авг в 14:11

Кейс: GraphRAG AI-ассистент, который понимает Жилищный кодекс РФ

Средний

9 мин

9K

Из песочницы

В нормативной базе России более 800 000 документов (по данным Гарант и КонсультантПлюс). Каждый год вносится более 100 000 правок и дополнений. И вот однажды представители одной из (~~NDA~~) крупнейших российских корпораций пришли в компанию, где я работаю, и дали задачу: «загрузить и обработать всю нормативную базу России в AI».

Речь не о чат-боте, который ищет по PDF-файлам. Задача состояла в создании устойчивой и объяснимой архитектуры, где AI способен быстро находить ответы на запросы, и при этом понимать структуру законодательства, объяснять логику нормативной системы: как связаны нормы, откуда взялся тот или иной ответ и почему он корректен.

В этой статье я расскажу, как мы подошли к этой задаче и реализовали GraphRAG систему на примере Жилищного кодекса РФ. Покажу, какие технологии мы использовали, с какими трудностями столкнулись и почему такой подход меняет правила игры для всех, кто работает с большими и сложными базами знаний.

Читать далее

+29

kucev 7 авг в 11:00

Будущее, в котором ИИ — герой, а не злодей

24 мин

1.6K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике.

К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти.

Для начала короткое описание того, что такое AI: это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией.

А теперь коротко о том, чем AI не является: это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах.

И еще короче о том, чем AI может стать: способом сделать лучше всё, что нам действительно важно.

Читать далее

0

mipt_digital 6 авг в 11:00

Интеллектуальные технологии в биомедицине. Как AI и Data Science решают задачи науки

6 мин

1.1K

Блог компании Центр «Пуск» МФТИМашинное обучение * Искусственный интеллектData Mining * Визуализация данных *

Кейс

ИИ и Data Science уже стали неотъемлемой частью современной биомедицины: с их помощью исследуют микробиом человека, диагностируют болезни у животных и моделируют органы в 3D. В статье — прикладные проекты на стыке биологии, медицины и ветеринарии: от метагеномики и цифровых двойников до нейросетевого анализа поведения собак и платформы «Медцифра».

Читать далее

+3

kucev 4 авг в 11:00

MCP — новый кирпичик в фундаменте AI-разработки

9 мин

6.4K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Одна из горячих тем в области AI-кодинг-тулов и developer tooling — протокол MCP (Model Context Protocol), представленный Anthropic в ноябре 2024 года. Он стремительно набирает популярность: AI-модели и инструменты для разработчиков активно внедряют его.

Аналогия для объяснения MCP — это как «порт USB-C для AI-приложений»: он создает универсальную точку расширения, через которую LLM и девтулы могут интегрироваться друг с другом, а также с базами данных, тикетинг-системами и т. д. Концепция начинает набирать популярность и в других областях, но MCP изначально создавался как способ расширить функциональность девелоперских IDE — таких как Claude Desktop, Claude Code, VS Code, Cursor, Windsurf и других. Сегодня мы сосредоточимся именно на этом применении, разобрав:

1. Что такое MCP? Практический пример. Раньше мне приходилось использовать отдельный инструмент, чтобы делать запросы к базе данных в production-приложении. С MCP я могу «разговаривать» с базой данных прямо из IDE — это действительно меняет правила игры!

2. Происхождение MCP. Два инженера из Anthropic — Дэвид Сориа Парра и Джастин Спар-Саммерс — реализовали MCP, решая собственную проблему: они хотели, чтобы Claude Desktop лучше работал с девтулзами.

3. Чтобы понять MCP, нужно понимать Language Server Protocol (LSP). Многие базовые идеи MCP вдохновлены подходом Microsoft к упрощению интеграции языковой поддержки в IDE.

Читать далее

+5

kracko23 31 июл в 15:19

Лайфхаки BI SuperSet (часть 1)

Простой

4 мин

2.8K

Визуализация данных * Apache * Data Engineering * Big Data * Data Mining *

Туториал

10 базовых и не очень лайфхаков по работе с BI Apache SuperSet, чтобы сделать её проще и эффективней.

Читать далее

+4

kucev 31 июл в 11:00

Retrieval-Augmented Generation (RAG): глубокий технический обзор

34 мин

16K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Retrieval‑Augmented Generation (RAG) — это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM — замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG‑подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа. Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели.

В этой статье мы подробно рассмотрим: архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine‑tuning, перспективы технологии.

Читать далее

+21

badcasedaily1 28 июл в 16:38

Расчет RFM-модели в чистом SQL на примере магазина котиков: коротко

Простой

6 мин

1.9K

Блог компании OTUSData Engineering * Data Mining * Базы данных * SQL *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим, как реализовать RFM‑модель в чистом SQL на примере магазина котиков.

Читать далее

+8

kucev 28 июл в 11:00

Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

21 мин

3.1K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.

Разумеется, позиционные эмбеддинги эволюционировали от абсолютных к роторационным (RoPE), Multi-Head Attention в значительной степени уступил место Grouped-Query Attention, а более эффективная SwiGLU заменила такие функции активации, как GELU. Но если отбросить эти незначительные усовершенствования, действительно ли мы наблюдаем принципиальные архитектурные сдвиги — или просто продолжаем полировать одни и те же фундаментальные конструкции?

Сравнение LLM между собой с целью выявления ключевых факторов, влияющих на их качество (или недостатки), по-прежнему остаётся крайне нетривиальной задачей: датасеты, методы обучения и гиперпараметры сильно различаются и зачастую плохо документированы.

Тем не менее, я считаю, что изучение именно архитектурных изменений остаётся ценным подходом, позволяющим понять, над чем работают разработчики LLM в 2025 году.

Читать далее

+6

ChePeter 26 июл в 13:09

Изящные монады точек эллиптической кривой

Сложный

3 мин

4.4K

Криптография * Математика * Data Mining *

Перечитал давний доклад академика Арнольда В.И. о сложности последовательностей нулей и единиц, в которй он использует монады для определения сложности.

Доклад в двух вариантах, с цветными картинками и академик тут очень красиво и подробно рассказывает, почему одна последовательность сложнее другой и как это видно и строгий вариант «Доклад в Московском математическом обществе».

Читать далее

+12

Andrey_Biryukov 25 июл в 11:00

15 примеров применения Natural Language Processing

8 мин

3.1K

Блог компании OTUSNatural Language Processing * Машинное обучение * Data Mining *

Машинное обучение — это технология искусственного интеллекта, используемая для распознавания закономерностей, обучения на основе данных и принятия решений автоматически — без вмешательства человека. С другой стороны, обработка естественного языка (Natural Language Processing, NLP) — это форма ИИ, позволяющая машинам интерпретировать и понимать человеческий язык.

В этой статье мы попробуем разобраться с тем, как используется NLP для решения реальных задач и рассмотрим 15 примеров использования данной технологии и машинного обучения.

Читать далее

+3

Arthur_Madarov 25 июл в 10:39

Синергия Process Mining и BI: как Страховой Дом ВСК строит эко-систему процессной аналитики Proceset в ИТ

Простой

5 мин

841

Блог компании Страховой Дом ВСКService Desk * PostgreSQL * Data Mining * Processing *

Кейс

Привет, Хабр! Я, Мадаров Артур, руководитель дирекции процессов эксплуатации и ИТ-услуг Страхового Дома ВСК.

В своей прошлой статье, «Реинжиниринг процессов контроля качества технической поддержки», я рассказывал, с чего началась наша трансформация: как мы перешли от разрозненной отчётности в Excel к системной BI-аналитике, как формировали культуру data-driven внутри ИТ-блока ВСК и зачем всё это нужно.

На пятой встрече ProcessTech и Страхового Дома ВСК я рассказал, что было дальше: как мы из BI-дашбордов перешли к процессной аналитике, внедрили инструменты Process Mining, Task Mining и построили центр компетенций по процессной аналитике в ИТ.

Эта статья — почти практический гайд по внедрению процессной аналитики в крупной компании. Без обобщений. Только конкретика, цифры, архитектура решений и кейсы. Рассчитываю, что статья будет полезна как для ИТ-специалистов, так и для руководителей, которые хотят перестать управлять на основе ощущения, а не данных.

Почему мы продолжили путь: от BI к Process Mining

Всего за 5 месяцев после закупки лицензий в ИТ-блоке уже 9 внутри командных review и рабочих групп с бизнесом проводятся с демонстрацией BI-аналитики Proceset (без Power Point и Excel). На первом этапе трансформации мы выстроили мощный слой BI. Благодаря интерактивным дашбордам:

Читать далее

+6

4

5 6 ...