Обновить
21.68

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

От каталога данных к платформе управления метаданными

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели5K

Сегодня наличие платформы данных является уже де-факто стандартом даже для малого бизнеса. И частный, и государственный секторы понимают важность цифровой трансформации через накопление и анализ данных для будущей монетизации и грамотного управления. Принятие стратегических и даже операционных решений на основе экспертизы и чуйки уходит в прошлое. Прогнозирование спроса, управление запасами, оптимизация логистики — все опирается на анализ данных.

Однако внутренняя эффективность компаний при работе с данными (трансакционные издержки) остается все еще «темной материей». Time-2-market для релиза цифровых решений по-прежнему велико, документация устаревает быстрее среднего срока работы специалиста по данным в компании, а приоритезация бэклога, выбор способа расчета метрик и т. д. принимаются на основе экспертизы, эскизов в Miro и тысяч внутренних Excel-таблиц, которые переделываются при каждой смене лидеров направлений. Все это — скрытые внутренние издержки, которые негативно сказываются на марже компании в долгосрочном периоде.

Читать далее

Новости

Ускоряем LLM по максимуму. Как я создал кросс-платформенный Flash Attention с поддержкой Turing+ архитектур и не только

Уровень сложностиСложный
Время на прочтение28 мин
Охват и читатели11K

На сегодняшний день трансформеры правят балом хайпа в мире машинного обучения, особенно после появления ChatGPT и ему подобных языковых моделей. Это стало возможным благодаря лежащему в основе их архитектуры механизму внимания (attention), однако он же и является слабым местом с точки зрения производительности и потребления памяти. Хотя в связи с этим и была разработана изящная концепция Flash Attention (Tri Dao), её существующие реализации имеют ряд ограничений.

Поэтому представляю вашему вниманию первую и единственную open-source реализацию Flash Attention 2 на Triton с поддержкой Linux и Windows, Turing-Blackwell архитектур (теперь можно работать в Google Colab и Kaggle), гомо и гетерогенных кластеров, опциональным детерминизмом, а также возможностью ручной кастомизации ядер (kernels) для более гибкой настройки под каждую GPU архитектуру отдельно. Более подробно о том как это устроено и не только — далее в статье.

Читать далее

Автоэнкодер: как нейросеть учится понимать норму

Время на прочтение6 мин
Охват и читатели6.9K

Непосвящённому человеку кажется, что нейронная сеть может всё.
Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет:
«Я не режиссёр — я пророк».

В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных.
И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер.

В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и почему он вообще способен находить аномалии.

Читать далее

От «обезьяньей» работы к Smart-анализу: как выполнить предобработку данных для моделей

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.8K

От «обезьяньей» работы к Smart-анализу: как правильно готовить данные для моделей.

Что такое Exploratory Data Analysis и как избежать основных ошибок при его выполнении.

Читать далее

Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.1K

В 2025 году retention снова стал главной метрикой рынка. Трафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам.

Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».

Читать далее

Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели4.4K

Миронов В.О., Кальченко С.Н.

Приветствую вас, бравые хаброжители ;-) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных профессий, диктуя там свои правила и виденье. При этом основные козыри — это скорость, время и профит. В этом контексте мы и будем говорить о сложившейся ситуации, а именно, о дифференцированной трансформации профессий. 

Да-да, все видели, эти километровые лонгриды, когда ИИшка выкатывает список профессий, которые попадают под трансформацию. При этом какие-то прогнозы сбываются какие-то нет, как и в целом всё в жизни. Однако, почему именно дифференцированной, да всё потому что, профессии даже не столько дифференцируются, сколько видоизменяются, но их суть остаётся той же. Бывает даже так, что не всегда удаётся охватить весь спектр нововведений. 

Читать далее

Аналитика телеметрии автосимулятора Assetto Corsa

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9K

На SOC Forum у нас стоял гоночный симулятор Assetto Corsa — и мы решили сделать его не просто развлечением, а полноценным источником аналитики.

Мы подключились к Shared Memory игры, собрали данные в реальном времени, построили дашборды и придумали ачивки.

Рассказываю, как устроена телеметрия AC, как собрать её в режиме реального времени и зачем всё это понадобилось.

Читать далее

Часть 2. Иван Оселедец с докладом «Успехи и проблемы больших языковых моделей»

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.9K

Первая часть - https://habr.com/ru/articles/970614/

Но это отдельная история. Когда ты пытаешься решить сложную задачу, ты придумываешь, как языковая модель становится из самой цели сделать модель побольше, становится инструментом для создания мультиагентной системы. И на самом деле тут много новых инструментов появляется, как раз связанных с тем, что необходимо действительно писать достаточно сложный код. И в мае этого года вышла статья Alpha Evolve от компании DeepMind, которая показала, что большая языковая модель может на самом деле сама писать код и решать задачи, если ты можешь проверить решение этой задачи.

То есть много задач, ты можешь проверить, что решение правильное, например, решить какое-нибудь уравнение, но найти само решение сложно.

Или, например, ты хочешь построить, даже в самом простейшем случае, написать какой-то промп, который хорошо помогает решить тебе конкретную задачу. Ты можешь, написав этот промп, запустить систему, получить ответ и проверить, получить метрику на бенчмарке, но как написать сам промп, непонятно. И, собственно, вот эти эволюционные алгоритмы – это для очень ленивых людей, таких как я. Ты просто даешь ей постановку задачи, просишь написать решение, она пишет какое-то решение, ты проверяешь это решение и просишь переписать это решение еще раз.

Дальше применяешь достаточно хитрые подходы, связанные с эволюционными алгоритмами, где фактически в качестве оператора мутации выступает большая языковая модель. У нее есть опыт предыдущий, память. в виде программы результатов, есть некоторые инсайты, что она придумала, и ее задача состоит в том, чтобы эти инсайты, соответственно, объединять в новые программы. Собственно, первый автор статьи «Альфа Эволф» Саша Новиков – это мой аспирант, который уехал довольно давно, но тем не менее очень много не менее талантливых людей работают в институте.

Читать далее

Иван Оселедец с докладом «Успехи и проблемы больших языковых моделей»

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7K

Я распечатал доклад, стараясь не поломать авторскую речь и мысль. Но всё таки доклад не читался, а произносился по памяти и слайдам, поэтому несколько слов убрал или заменил. Доклад на полчаса, выложу в двух частях.

Представление - Доктор физико-математических наук, профессор РАН, генеральный директор института Айри, декан факультета искусственного интеллекта МГУ Иван Оселедец с докладом «Успехи и проблемы больших языковых моделей».

Дальше говорит Оселедец.

Да, всем доброе утро. На самом деле у меня будет такое, с одной стороны, рассказ действительно об успехах, некоторые анонсы нашего института, и в конце я немножко порассуждаю о проблемах, которых много, и над чем, собственно, мы думаем, над чем работаем, какие были получены в этом году результаты. В целом, на самом деле, институт и наши сотрудники неплохо поработали в этом году. У нас мы считали 93 статьи на конференции, то есть больше, чем все остальные центры которые этим занимаются что приятно, но конечно статьи не является самой целью, у нас довольно много практических историй.

Если переходить к докладу, то недавно вышло интервью Андрея Карпаты. Очень интересный, кто не видел, посмотрите. Полтора часа, и не суммаризация . Много интересных мыслей. Одна из мыслей, за которую я так зацепился, которая была не очень очевидна.

Иногда говорят, что языковые модели просто запоминают. Мы долго-долго объясняли, как работают языковые модели, что есть этап предобучения, мы сгружаем все данные из интернета и обучаем модель. Наконец-то general public, если говорить по-английски, обыватели поняли это, это хорошо. Но, с другой стороны, поняли все равно многие неправильно.

Читать далее

Митап n8n в Сан-Франциско: Нам подарили – 1000 премиум-доступов к n8n (забирайте без VPN и зарубежной карты)

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели7.7K

Всем привет! С пылу с жару: мы только что вернулись с одного из главных митапов n8n в Сан-Франциско, где выступали сами основатели.

Внутри статьи: 3 инсайда о будущем n8n (новые фичи, ИИ-интеграции) и наш эксклюзивный бонус. Спойлер: Мы вывезли 1000 премиум-доступов к n8n, которые они выдали эксклюзивно для вас. Эти ключи очень ценны, и мы готовы подарить их нашим читателям.

Забрать подписку к n8n

Как мы встроили ИИ в Process Mining: децентрализация, одна кнопка инсайтов и путь к агентам

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.4K

Привет! Я — Андрей Шалягин, руководитель Офиса цифровизации в Альфа-Банке. Наша команда помогает различным подразделениям внедрять технологии и решения, направленные на выявление и оптимизацию рутины, повышение производительности и цифровизацию операций.

В Альфе множество сквозных процессов и точек взаимодействия между системами и людьми. BI-инструменты хорошо справляются с агрегацией данных и построением отчетности, но они редко отвечают на вопрос: как на самом деле протекает процесс, где он замедляется и почему возникают отклонения.

Чтобы получить объективную картину мы применяем Process mining — технологию, которая позволяет построить модель реального исполнения бизнес-процесса на основе логов событий. В банке развернута платформа Proceset от команды Инфомаксимум.

Но просто увидеть, как устроен процесс — недостаточно. Важно быстро находить возможности для улучшения и запускать изменения. Поэтому мы встроили искусственный интеллект непосредственно в аналитическую платформу. Теперь ИИ не просто помогает с рутиной, а сам предлагает гипотезы, находит узкие места и позволяет аналитикам быстрее принимать решения. Ниже расскажу, как мы это сделали, с какими вызовами столкнулись и куда движемся дальше.

Читать далее

Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

Время на прочтение2 мин
Охват и читатели6K

Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.

Поэтому в инструкции разберем, как настроить работу LLM в n8n без иностранной карты и протестировать все бесплатно. Для примера воспользуемся сервисом VseLLM — это российский аналог OpenRouter, где можно оплачивать модели российской картой. Плюс у сервиса есть готовая интеграция с n8n, поэтому подключение занимает несколько минут. Пользователи VseLLM получают доступ к бесплатному серверу, который развернут и поддерживается командой сервиса. Все работает из коробки, если на вашем балансе есть хотя бы небольшой положительный остаток.

Чтобы протестировать систему, достаточно активировать промокод VSELLM — он начисляет 200 рублей. Этого достаточно, чтобы спокойно протестировать пару нодов и собрать свои первые рабочие цепочки. А если вдруг вы проходите обучение в школе DATAFEELING, то тоже получите доступ бесплатно.

Читать далее

Анализируем MLP сообщество на Пикабу или как я спарсил 65 тысяч постов с Pikabu и построил интерактивный дашборд

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.5K

Дело было вечером, делать было нечего... Я, как и многие в IT, периодически просматриваю вакансии, чтобы держать руку на пульсе рынка. И знаете, что бросается в глаза? Огромное количество позиций "Аналитик данных". Хоть это и не моя основная специализация (я больше по ML), теоретическая база у меня есть. И вот я подумал: а как бы мне сделать интересный пет-проект в этой области, чтобы и навыки прокачать, и самому не заскучать?

Читать далее

Ближайшие события

Проанализировал 3000 n8n workflow и выделил топ-40 нод. Забирайте в виде pdf

Уровень сложностиПростой
Время на прочтение1 мин
Охват и читатели9.1K

Недавно меня попросили мои студенты сделать для них какой-нибудь гайд по самым популярным нодам в n8n, чтобы быстро погрузить в их разнообразие.

Чтобы моя подборка была действительно из самых часто используемых n8n нод - я спарсил большую коллекцию из 3000 workflows. Разбил ее на ноды. Удалил ноды, которые редко используются в СНГ. Добавил к каждой ноде короткое описание и примеры использования, в итоге получился cheat sheet гайд на почти 40 n8n нод в виде pdf - забирайте pdf по ссылка с гугл драйва!

Забрать pdf файл с результатом анализа

Мощь XBRL в мире данных: автоматизируем проверку отчетности с помощью SQL-формул

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.8K

Всем привет! В первой части https://habr.com/ru/articles/958356/ мы познакомились с форматом XBRL-CSV2, который позволяет упаковать сложность XBRL-отчетности в простые и удобные для обработки CSV-таблицы. Мы обсудили, как данные и их метаописания (маппинг) преобразуются из XML-представления в реляционное.

Но сбор данных — это только половина дела. Вторая, не менее важная часть — это их проверка на целостность, непротиворечивость и соответствие бизнес-правилам. В классическом XBRL за это отвечает формульный слой (Formula Layer). Сегодня мы поговорим о том, как мы превратили эти формулы в исполняемые SQL-скрипты, создав так называемый «слой отделяемых формул».

Читать далее

Пример реализации агентного RAG'а

Время на прочтение13 мин
Охват и читатели14K

Многие знают, что такое RAG. Ну, или по крайней мере слышали о нем :) Но не все знают, что типичная архитектура RAG способна отвечать далеко не на все вопросы. У агентного RAG в этом плане гораздо больше возможностей. Агентный RAG может анализировать запрос, составлять план действий и вызвать внешние инструменты. И все это для выполнения поставленной задачи.

В этой статье на практическом примере разберем как с помощью marker'а, Qwen3-14B, MCP-сервера, энкодера FRIDA и библиотеки Agno создать несложный агентный RAG.

---------------

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее

Что такое маршрутизатор LLM?

Время на прочтение10 мин
Охват и читатели8.3K

Большие языковые модели (LLM) стали основой современных ИИ-продуктов, обеспечивая работу всего - от чат-ботов и виртуальных ассистентов до исследовательских инструментов и корпоративных решений. Но LLM различаются по сильным сторонам, ограничениям и стоимости: одни лучше в рассуждениях, другие - в креативе, коде или работе со структурированными запросами. Здесь и нужен маршрутизатор LLM.

Маршрутизатор LLM работает как «умный диспетчер трафика»: он автоматически направляет промпты в наиболее подходящую модель под конкретную задачу. Вместо одной универсальной модели бизнес и разработчики повышают точность, скорость и снижают затраты, маршрутизируя запросы в реальном времени. По мере роста применения ИИ маршрутизация LLM становится обязательным слоем для масштабируемых, надёжных и эффективных систем.

Читать далее

AI-драгдизайн: первая молекула прошла Фазу II

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели6.9K

AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию

Читать далее

Разведочный анализ текстовых данных (EDA for text data)

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели13K

В этой статье будет рассказано про разведочный анализ текстовых данных (EDA). Рассмотрим основные методы и этапы от проверки данных и анализа частотности слов до тематического моделирования. Также разберем применение EDA для конкретных задач NLP, таких как классификация текстов и извлечение сущностей (NER/POS). Весь рассказ будет сопровождаться кодом на Python.

🔥 Начинаем 🔥

ИИ-ученые 2025: SR-Scientist, DeepEvolve и Kosmos — чем отличаются и зачем. И почему выстрелил Kosmos

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.5K

За год ИИ-Ученые выросли из демо в рабочие инструменты: одни вынимают законы из данных, другие эволюционируют код под бенчмарки, третьи связывают литературу и анализ в проверяемые отчеты. Разбираем 3 характерных подхода: SR-Scientist, DeepEvolve и Kosmos, для чего они нужны и в чем различны. И почему именно вокруг Kosmos столько шума.

Читать далее
1
23 ...