Обновить
1061.46

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Отток до оттока: churn-модели в банковском проде

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели4.7K

В банковском churn проблема почти никогда не выглядит как «вчера клиент был с нами, а сегодня закрыл счет». Гораздо чаще отношения распадаются медленно: зарплата еще приходит в старый банк, но деньги почти сразу уходят наружу; карта остается открытой, но перестает быть основной; приложение клиент по-прежнему открывает, но все реже. Формально он еще с вами. Экономически — уже почти нет. Для аналитика это важное различие: объектом моделирования становится не только юридическое событие ухода, а деградация primary relationship — снижение остатков, миграция регулярных платежей, выпадение из цифрового контура и ослабление продуктовой связки. Этот контекст не абстрактный: BAI в обзоре на 2024 год выделял рост депозитов как один из главных приоритетов банков, а это автоматически повышает ценность раннего обнаружения деградации клиентских отношений.

В этой статье — не очередной обзор уровня «ML помогает удерживать клиентов», а разбор того, как churn-модели реально выглядят в банковском пайплайне: какие признаки обычно работают, где бинарная классификация ломается, зачем нужен uplift, почему survival analysis часто полезнее обычного churn-label и какие регуляторно-этические ограничения становятся нетривиальными, когда модель используется не только для скоринга, но и для принятия решений.

Читать далее

Новости

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

Время на прочтение10 мин
Охват и читатели5.9K

Сравнил полнотекстовый поиск PostgreSQL (tsvector/tsquery + GIN-индекс) с семантическим поиском через pgvector (cosine distance) на датасете из 10 019 товарных категорий Ozon.

Три embedding-модели:

GigaChat EmbeddingsGigaR (Сбер, 2560-мерные векторы, API)

Qwen3-Embedding-0.6B (Alibaba, 1024-мерные, локальный инференс через HF Text Embeddings Inference на GPU)

text-embedding-3-small (OpenAI, 1536-мерные, API)

Прогнал 18 запросов в пяти категориях: синонимы и сленг, intent-запросы в свободной форме, подарочная тематика, cross-lingual (EN-запросы к RU-данным), абстрактные формулировки. Замерил латентность и top-5 с cosine similarity score.

Разбор каждого запроса, таблицы и код — под катом.

Читать далее

От конечных автоматов к биомиметике: детерминированный ИИ больше не нужен

Время на прочтение2 мин
Охват и читатели4.8K

ИИ-разработчики стали викторианскими хирургами, сшивая неживые алгоритмы. Почему детерминизм графов — это архитектурная клетка, и как синтетическая физиология подарит ИИ подлинную автономность.

Читать далее

Universität или Fachhochschule: что выбрать для бакалавриата по CS/AI в Германии

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели7.6K

Я работаю в классическом немецком университете и каждый год вижу одну и ту же картину: русскоязычные абитуриенты рассматривают исключительно классический Universität как место возможного получения высшего образования, не зная, что в Германии существует и другая модель образования — Fachhochschule. Не потому что она хуже, а просто потому, что про нее российские студенты и абитуриенты просто не знают. Я постараюсь это исправить и немного поговорить о том, в чем же сходство и различие этих двух высших учебных заведений. Сразу оговорюсь: ниже речь именно о бакалавриате по Computer Science (CS) и Artificial Intelligence (AI).

Читать далее

Ваш CLAUDE.md делает агента тупее. Исследование на 138 репозиториях это доказало

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.5K

Я написал CLAUDE.md на 200 строк. Исследование ETH Zurich на 138 репозиториях говорит: мой агент стал от этого тупее на 3%, а я плачу на 20% больше за токены. Разбираюсь, что пошло не так.

Читать далее

Краткая история искусственного распознавания запахов: от разработок Figaro Engineering до машинного обучения

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6K

Полупроводниковые приборы довольно быстро внедрились во все области науки и техники, путь, а начатые в 1940-е годы исследования влияния газов на электрофизические характеристики полупроводников поставили на повестку дня и обратную задачу – определения газов по изменению этих характеристик полупроводника, и это заняло гораздо больше времени. Первопроходцем здесь считается японский изобретатель Наёси Тагучи.

Основанная им компания Figaro Engineering Inc. с 1969 года начала производство и продажу газовых детекторов сначала для самых опасных газов, а затем для самых разных летучих субстанций, как пахучих, так и без запаха, под товарным знаком Figaro.

Читать далее

Производство теряло деньги каждую смену. До внедрения видеоаналитики с ИИ никто не знал где

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели11K

Привет! На связи Олег Чебулаев, CEO Mad Brains. Хочу поделиться историей из практики — как обучить модель YOLO, запустить видеомониторинг на пищевом производстве и через неделю обнаружить кое-что, о чём на заводе предпочитали не говорить вслух.

Читать далее

OpenAI размещает рекламу в ChatGPT, Oracle тонет в долгах, а SoftBank точит когти. Что происходит со Stargate?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.5K

Как бы ни старались бенефициары ИИ-пузыря прятать противоречия, разрывающие его изнутри, — правда вылезает наружу. Буквально на днях The Information оглушил всех очередным тревожным отчётом: между главными участниками проекта Stargate — OpenAI, SoftBank и Oracle — возникли серьёзные разногласия, которые могут похоронить весь проект.

Читать далее

Неофициальный Python-клиент для alphaxiv: как мы нашли скрытый API и упаковали его в пакет

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели7.5K

У alphaxiv.org есть API — но найти его было непросто: публичная документация появилась совсем недавно, а до этого единственный способ разобраться в том, как он работает, — DevTools и живой трафик браузера. POST-запрос к api.alphaxiv.org/assistant/v2/chat, SSE-поток в ответе, модель aurelle-1.

На основе этого исследования мы собрали aurelle-py — Python-пакет для программного доступа к AI-ассистенту alphaxiv: задавать вопросы по arXiv-статьям, стримить ответы, встраивать в исследовательские пайплайны. Мы не первые, кто занялся этой темой, — но постарались сделать решение аккуратным и хорошо задокументированным.

Что внутри: синхронный и асинхронный клиенты, SSE-парсер с независимым юнит-тестированием, Pydantic v2 для валидации, типизированные исключения (AuthError, RateLimitError), MCP-сервер для интеграции с Claude Desktop и Claude Code.

pip install aurelle-py

В статье — как мы нашли эндпоинт, разобрали формат запроса и ответа, какие ограничения выявили опытным путём и как устроен пакет внутри.

GitHub: https://github.com/center4aai/aurelle-py

Читать далее

Тихая эволюция zero-shot энкодеров. От UniNER до GLiNER 2

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.8K

Пока все говорят про LLM агентов, есть целый класс задач где 205M энкодер делает ту же работу что ChatGPT — быстрее, дешевле, без vendor lock‑in. Я хочу рассказать про эволюцию энкодеров, которую вы возможно пропустили: начиная от UniNER, заканчивая GLiNER 2, с ключевыми инсайтами на каждом шаге.

Читать далее

Как обнаружить заказной негатив с помощью скриптов

Время на прочтение7 мин
Охват и читатели8.5K

По данным Data Insight 30% отказов от покупок связано с заказным негативом. Раньше ботов вычисляли по шаблонным фразам, но сейчас спамеры массово генерируют жалобы через LLM. Модерация геосервисов пропускает такой контент. Формально отзывы уникальны и не нарушают правила площадок. Ручная проверка тысяч комментариев требует десятков часов работы аналитика и не исключает человеческий фактор. Визуально отличить качественный фейк от мнения реального клиента стало невозможно.

Противостоять генеративным сетям можно только программными методами. Автоматизировать поиск аномалий в поведении пользователей помогают скрипты на Python. Этот контур защиты включает парсинг данных с обходом лимитов API, вычисление временных выбросов через Z-оценку и семантический анализ текстов с учетом морфологии русского языка (через библиотеку Natasha). Это базовый алгоритм, который позволяет перевести защиту репутации из ручной разметки в измеримый технический процесс.

Читать далее

Этот ИИ ведёт дневник, заводит баг-репорты, избегает сложных задач, а существует всего 5 дней

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.2K

Сейчас расскажу историю, от которой немного сносит крышу.

Разработчик по имени Лиюаньхао сел и написал 200 строк кода на Rust.

Всё. Крошечный, голый скрипт.

Но то, что произошло после нажатия кнопки «запустить», — из тех вещей, которые перечитываешь дважды, чтобы убедиться, что тебе не показалось.

Он назвал проект yoyo — самоэволюционирующий кодинг-агент. А потом — и вот это то, что по-настоящему цепляет — полностью отошёл. Убрал руки с клавиатуры.

Дал одну-единственную инструкцию: эволюционируй, пока не сравняешься с Claude Code. И просто сел смотреть.

Знаете это чувство — когда ткнёшь семечко в землю, напрочь забудешь про него, а потом проходишь мимо и видишь, как из земли лезет живое, настоящее растение? Вот примерно это и случилось. Только это растение не просто выросло. Оно проснулось и начало само заводить баг-репорты.

Читать далее

NVIDIA Nemotron, Claude фиксит Firefox, ИИ буллит программиста и суд против Google за смерть пользователя

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.7K

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.

Неделя вышла насыщенной: гибридная 120B модель от NVIDIA, Claude нашёл 22 дыры в Firefox, а ChatGPT и Gemini интегрировались в Excel и Google Docs. Голливуд заставил ByteDance убрать видеомодель, а ЕС запретил дипфейки после скандала с Grok.

Всё самое важное — в одном месте. Поехали!

Читать дайджест →

Ближайшие события

Топ-10 бесплатных нейросетей для создания презентаций в 2026 году

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.2K

Помню, как в школе мне впервые задали сделать презентацию на классный час. Тогда я едва дружил с этими сервисами, и весь процесс казался настоящим испытанием. Я сидел несколько часов за красным фоном, пытаясь поставить текст и подобрать картинки. Волновался, переживал, и, честно говоря, результат был далёк от идеала.

Проходит время, а мы видим, как быстро всё меняется. Сегодня презентации можно создавать почти мгновенно, а нейросети умеют сами подбирать тексты, искать иллюстрации, предлагать оформление. Конечно, всегда результат требует доработки и факт-чекинга.

И именно поэтому сегодня хочется познакомить вас с десятью сервисами, которые помогут сделать презентацию. Они не всегда сделают всё за вас, но отлично формируют костяк, с которым можно работать дальше и получать действительно крутой результат.

Приятного чтения!

Читать далее

Что происходит с разработчиками, когда ИИ берёт на себя 80% их работы

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели9.6K

На одном из недавних мероприятий эксперты из Сбера, Яндекса и red_mad_robot обсуждали внедрение ИИ в жизненный цикл разработки продукта — AI PDLC. В выступлениях снова и снова звучала одна и та же мысль: роль разработчика меняется. Всё чаще он не пишет код вручную, а формулирует задачу для ИИ, проверяет результат, удерживает архитектурный замысел и задаёт рамки.

Если выстроить эту дискуссию в логике «от стратегии к человеку, от человека — к производственной практике, а затем — к рыночным кейсам», картина становится особенно ясной. Сначала — взгляд Сбера на зрелость AI‑driven разработки. Затем — разбор того, что этот сдвиг делает с людьми. После этого — разговор о том, что действительно работает в корпоративной среде. И уже потом — внешние кейсы Яндекса и red_mad_robot, на которых видно, как меняется повседневная инженерная работа и экономика выпуска продукта.

Читать далее

Линейка HighFreq или как выжать из облака максимум для инференса, ML и других высоких нагрузок

Время на прочтение10 мин
Охват и читатели7.5K

«Больше» — не всегда значит «лучше». К пользовательским приложениям в облаках это замечание относится в полной мере. Производительность любой системы определяется ее самым медленным компонентом — «бутылочным горлышком».

Когда проект вырастает до высоких нагрузок, простое «накликивание» дополнительных виртуальных процессоров или оперативной памяти в стандартной конфигурации может не решить корневую проблему. Это все равно, что расширять дорогу перед железнодорожным переездом — новых полос много, но быстрее доехать не получится.

Сегодня мы разберем, почему стандартных, универсальных инструментов бывает недостаточно для высокопроизводительных задач. Мы также покажем, как правильно диагностировать узкие места и подбирать сбалансированную конфигурацию — процессор, диски, сеть — под конкретные рабочие нагрузки.

Сделаем это на примере реальных сценариев и продуктов. Посмотрим, что могут специализированные решения дать там, где универсальные подходы не справляются.

Читать далее →

Как я перестал переключать раскладку ради одного символа: Прокачиваем русскую клавиатуру в Windows для Markdown и кода

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели14K

Стремительное развитие ИИ в последние годы привело к невиданному росту популярности Markdown. Почти все современные LLM — от ChatGPT до Claude — по умолчанию выдают ответы в этом формате. Мы привыкли оформлять в нем заметки в Obsidian, писать промпты, вести документацию в GitHub и общаться в рабочих мессенджерах. Markdown стал «лингва-франка» современного интернета.

Но есть одна проблема. Использовать Markdown с русским языком — это боль.

Вам нужно поставить заголовок? Alt+Shift -> # -> Alt+Shift обратно. Нужно выделить код? Снова чечётка по клавишам переключения раскладки. Стандартная русская раскладка в Windows будто застряла в прошлом веке. Клавиша Shift+3 выдает нам символ , который в 2024 году нужен крайне редко, в то время как жизненно необходимые решетки, собаки и скобки заставляют нас постоянно прыгать между языками.

Я решил эту проблему для Windows с помощью небольшого скрипта на AutoHotkey (v2).

Читать далее

Масштабирование LLM: от одного чипа до ЦОДа. Глава 1. Теоретические основы

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5K

Недавно прочитал цикл статей о масшабировании LLM от Jax, в котором очень подробно и во всех нюансах разжеван процесс тренировки и инференса LLM на разных масштабах. Мне он показался очень полезным, поэтому я решил подготовить цикл статей на русском, являющихся не столько переводом, сколько научно-популярным пересказом того, что там написано, поскольку оригинальный текст рассчитан в основном на специалистов, и неспециалисту многие моменты в нем могут показаться сложными и не очевидными. Также планирую добавить информацию из других источников, например вот этой замечательной книги для ML-инженера или этой книги HuggingFace, посвященной тренировке языковой модели.

Читать далее

Один ИИ за пять дней уничтожил двадцать лет опенсорсной защиты. Вот как это было

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели19K

854 миллиона скачиваний за год. Пять дней работы Claude Code.

Вот и всё, что понадобилось, чтобы содрать двадцать лет копилефт-защиты с chardet — библиотеки определения кодировок для Python, которая сидит практически в каждой Python-среде на планете.

Прежде чем нырнём в историю, давайте проясним два типа лицензий, вокруг которых всё вертится. LGPL говорит: «Можешь использовать этот код, но если ты его изменил — делись изменениями на тех же условиях». MIT говорит: «Делай что хочешь». Первая защищает сообщество. Вторая позволяет корпорациям брать, ничего не отдавая взамен.

2 марта 2026 года Дэн Бланшар выпустил chardet 7.0.0. Назвал это «полной переписью с нуля под лицензией MIT». Лицензия LGPL, которая защищала библиотеку с 2006 года, — исчезла. Вместо неё — MIT. Инструмент, который выполнил переписку: Claude Code от Anthropic, модель Opus 4.6.

Через два дня вернулся Марк Пилгрим. Человек, который создал chardet в 2006-м. Человек, который в 2011 году стёр все следы своего присутствия в интернете. В сети это называют его «инфосуицидом». Пятнадцать лет тишины. Его первый публичный пост за более чем десятилетие — Issue #327 на GitHub: «Нет права перелицензировать этот проект».

1 468 человек поставили ему плюс. Issue теперь заблокирован.

Если вы пишете на Python, вы почти наверняка зависите от chardet. И судьба этой юридической битвы может определить, значит ли копилефт хоть что-нибудь в эпоху ИИ.

Читать далее

SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8.1K

Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы

Погрузиться
1
23 ...