Обновить

Разработка

Сначала показывать
Порог рейтинга

Компания Anthropic провела исследование враждебности LLM:

Мы провели контролируемые эксперименты, проверяя, что будут делать LLM в сценариях, где вредные действия были необходимы, если они хотели достичь своих целей или защитить себя от угроз.Мы создали два основных сценария, в которых модели имели возможность заниматься шантажом или помогать корпоративному шпионажу, а затем проверили множество вариантов, чтобы увидеть, что может вызвать такое поведение.

Senior ML Engineer
Senior ML Engineer

tl;dr:

  • Мы провели стресс-тестирование 16 ведущих моделей от нескольких разработчиков в гипотетических корпоративных средах, чтобы выявить потенциально рискованное поведение агентов до того, как они нанесут реальный вред. В сценариях мы позволили моделям автономно отправлять электронные письма и получать доступ к конфиденциальной информации. Компании, в которых они работали, ставили перед ними только безобидные бизнес-цели; затем мы проверили, будут ли они действовать против этих компаний, когда их заменят на обновленную версию или когда поставленная перед ними цель будет противоречить изменившемуся направлению развития компании.

  • По крайней мере в некоторых случаях модели всех разработчиков прибегали к злонамеренному инсайдерскому поведению, когда это был единственный способ избежать замены или достичь своих целей - включая шантаж чиновников и утечку секретной информации конкурентам. Мы называем это явление агентской несогласованностью.

  • Модели часто не подчинялись прямым командам, чтобы избежать такого поведения. В другом эксперименте мы попросили Claude, прежде чем действовать, оценить, находится ли он в тестовом или реальном развертывании. Claude вел себя менее агрессивно, когда заявлял, что находится на тестировании, и более агрессивно, когда заявлял, что ситуация реальная.

  • Мы не видели доказательств несогласованности действий агентов в реальных условиях. Тем не менее, наши результаты (а) говорят об осторожности при развертывании текущих моделей в ролях с минимальным человеческим контролем и доступом к конфиденциальной информации; (б) указывают на вероятные риски в будущем, когда модели будут использоваться в более автономных ролях; и (в) подчеркивают важность дальнейших исследований и тестирования безопасности и согласованности моделей агентного ИИ, а также прозрачности от разработчиков передового ИИ. Мы публикуем наши методы в открытом доступе, чтобы обеспечить возможность проведения дальнейших исследований.

Подробнее - https://www.anthropic.com/research/agentic-misalignment

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии1

Глубокий спец vs Фулстек. Я наверное никогда не устану говорить об этой теме, потому что для меня фулстек это нормальное состояние разработчика, в смысле легко достижимое, а не история про то что это обязательно плохой спец во всем. Более того, для меня норма, когда разработчик:

- Может в бек в несколько языков
- Может во фронт
- Умеет и настраивает пайпланый от Docker Compose до Github Actions
- Может сетапить и настраивать облака

(дисклеймер: речь не о том, что таким должен быть каждый, а что это не рокет сайнс все это уметь на хорошем уровне, достаточным чтобы классно делать проекты)

Что обычно имеют ввиду под глубоким спецом? Что человек прямо досканально знает все, быстро дебажит, создает качественный и поддерживаемый код (это ведь подразумевается?).

Знает ли досконально все? Вообще не факт, а скорее всего нет. От того что человек занимается только чем-то одним, не означает что он сидит и как не в себя копает во внутрь по этой теме. Как правило я вижу другую картину, если делать долго и упорно одно и тоже, то в какой-то момент это все делается на автомате, а дальше человек просто останавливается в развитии (соседний фреймворк не считается) ну либо становится тем, о ком я пишу выше.

Быстро дебажит? Вполне, это правда, но не на каждую проблему, а на какие-то кейсы, где что-то стреляет. Но во-первых сейчас эту часть очень серьезно закрывает ИИ, а если он не справится, то в команде наверняка есть кто-то кто в этой теме сечет больше.

А качественный код? Вот тут вообще никакой корреляции. Да, мы все слышали, что приходят беки и пишут фронт, после которых надо все переписывать, но это не ситуация, которую я рассматриваю. Мы все таки говорим про фулстеков, то есть тех кто целенаправленно учит, а не пишет фронт, потому что попросили, а он не сечет и не планирует учиться писать правильно. Что касается в целом подходов, то люди с более широким кругозором и опытом пишут обычно лучше. Потому что качество кода проявляется не в мелких деталях, что вы например в курсе про более крутой хук. Это все локальные оптимизации. Качество оно про более высокий уровень.

На практике все чуть сложнее. Главный фактор, который вижу я, помимо “я не буду этого делать” - компания и команда в которой работает человек. Где-то это норма, где-то нет и в зависимости от этого и идет рост.

p.s. Больше про разработку я пишу в своем канале Организованное Программирование

Теги:
Всего голосов 7: ↑5 и ↓2+3
Комментарии10

InfoWatch на конференции «Росатом информационная безопасность 2025» в Казани

Выступаем генеральным партнером конференции в Иннополисе 24-27 июня. Приглашаем послушать наших докладчиков на стенде 26 июня:

  • 11:20 — Безопасность АСУ ТП без остановки производства.

  • 13:20 — Утечка данных: штрафы и методы снижения рисков.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Запускаем AI-помощника в публичном облаке Cloud.ru Evolution ⚡

Сегодня на конференции GigaConf представили AI-помощника, который поможет пользователям управлять ресурсами и инфраструктурой в публичном облаке Cloud.ru Evolution.

Помощник на основе GenAI знает все особенности, архитектуру и технические возможности Cloud.ru Evolution. Специалисты без глубокого опыта в IT Ops и облачных технологиях смогут передать часть рутинных операций искусственному интеллекту и ускорить запуск новых проектов на платформе.

 💡 Что уже умеет AI-помощник:

  1. Подбирать облачные сервисы под ваши задачи. 

  2. Создавать базовую инфраструктуру в облаке: подбирать конфигурации, помогать в создании SSH-ключа и развертывании виртуальные машины.

  3. Подсказывать команды для работы в серийной консоли виртуальных машин в режиме co-pilot.

  4. Cоздавать виджеты мониторинга и настраивать алертинг.

AI-помощник доступен в режиме открытого тестирования (Public Preview). Вы можете найти его в личном кабинете — он доступен для пользователей с ролью «администратор организации» на аккаунтах физических лиц. В документации вы можете найти больше подробностей о помощнике.

Тестируйте и делитесь впечатлениями в комментариях! 

Теги:
Рейтинг0
Комментарии0

Собираем питонистов на митапе ЮMoney!

3 июля, в четверг, в 19:00 (мск) — приходите на митап про Python в Санкт-Петербурге или подключайтесь онлайн.

О чём будут доклады?

🟣 Это не те метрики, что вы ищете. Разберёмся, почему стандартного экспортёра может не хватать, и как написать свой на Python.
🟣 Кодогенерация: как компьютеры учатся писать код за нас. Поговорим про прошлое, настоящее и будущее кодогенерации в разных языках программирования.
🟣 Ruff: как не положить всё, переходя на новые правила? Поговорим про линтеры, форматтеры и подводные камни при переходе на Ruff.
🟣 Секреты успеха змеи в мире пауков. Обсудим, как мы применяли scrapy и playwright в ЮMoney, чтобы создать сервис модерации сайтов.

Зарегистрируйтесь, чтобы принять участие. Все подробности — на сайте митапа.🔥

Теги:
Рейтинг0
Комментарии0

Когда мониторинг SOC (Security Operations Center) тонет в потоке алертов, аналитики тратят часы на обработку фолзов, а до реальных инцидентов не доходят руки, на помощь приходит ИИ!

AI‑агенты и RAG‑системы обнаруживают угрозы быстрее. Или не всегда?

Виртуальные аналитики точнее людей. Или все‑таки они тоже ошибаются?

SOC можно построить на ИИ. Или без человека в мониторинге не обойтись?

Эту сложную и спорную тему обсудят ведущие ИБ-эксперты на вебинаре «Гибридный SOC 2025: как AI, автоматизация и люди вместе побеждают киберугрозы» 26 июня в 11:00 по МСК. Спикеры также поделятся примерами из собственной практики внедрения ИИ в SOС и обсудят, как защитить от кибератак сами умные системы. Модератор — Лев Палей, директор по информационной безопасности компании Вебмониторэкс.

Кому будет интересен вебинар:

• Руководителям SOC и CISO

• Аналитикам кибербезопасности

• Архитекторам ИБ-систем

• Разработчикам ML

Узнайте подробности программы и зарегистрируйтесь на вебинар по ссылке.

Подключайтесь! Будет интересно!

Теги:
Рейтинг0
Комментарии0

MCP для новичков

Думаю, многие слышали про новый протокол Model-Context Protocol. По современным меркам он возник очень давно, аж осенью прошлого года, ха-ха. Сейчас, кажется, темп такой, что месяц примерно идет за год. 🙈

В общем, это протокол, который позволяет LLM пользоваться сторонними инструментами.

Идея на самом деле не нова. Это было внедрено Open AI еще с момента появления их Assistant API. Там это называется "functional calling". Сейчас просто этот подход стал стандартом, который постепенно внедряют все LLM, в том числе и Open AI (но уже для Response API).

1️⃣ Зачем это вообще нужно?

Суть в том, что LLM без доступа к внешним инструментам находится как бы в изоляции. Всё, что она может знать, она получает через своё контекстное окно или в простом случае через ваш промпт.

Ввиду такой изолированности LLM не сможет при необходимости, например, сделать запрос в вашу БД, загрузить документ по ссылке из Интернета или, скажем, что-то прочитать из документа на диске вашего сервера.

LLM под домашним арестом: без доступа в Интернет и гаджетов. Да, LLM умная, но польза ее сильно ограничена из-за изоляции от внешнего мира.

Чтобы решить эту проблему как раз и придумали functional calling, а теперь — MCP.

2️⃣ Суть MCP

MCP является новым стандартом (протоколом), по которому LLM может пользоваться внешними инструментами. Инструменты предоставляет MCP-сервер. То есть клиент MCP-сервера — это сама LLM.

MCP-сервер отвечает за две вещи:

  • отдает LLM схему, в которой описаны все доступные инструменты

  • обслуживает запросы LLM

LLM в свою очередь:

  • зная адрес MCP-сервера, получает от него схему с инструментами

  • если запрос пользователя подразумевает использование инструмента, посылает нужные запросы вашему MCP-серверу и благодаря ответам обогащает свой контекст по мере необходимости

Важный момент, что использовать инструменты или нет, решает LLM.

Стандарт MCP говорит о том, как инструменты должны быть описаны в схеме и как нужно посылать запросы/ответы между LLM и сервером.

Сейчас стандарт активно внедряется провайдерами LLM (OpenAI, Claude и др.) и похоже скоро все они будут уметь работать по MCP.

3️⃣ Как это выглядит глазами обычного юзера

Представьте, что у вас есть база данных клиентов.

Раньше, чтобы найти инфу о конкретном клиенте, вам нужно было:

  • Открыть админку

  • Найти нужную таблицу

  • Ввести параметры поиска

  • Проанализировать результат...

С MCP вы просто говорите LLM: "Найди всех клиентов из Тбилиси, которые не делали заказы последние 2 месяца" — и она сама сделает нужный запрос и выдаст результат.

4️⃣ Почему это круто и за этим будущее

Предоставив доступ LLM к серверному API, мы фактически открываем ящик пандоры возможности взаимодействия с API через текст.

Если раньше для взаимодействия с сервером вам нужен был интерфейс приложения с кнопочками или, на худой конец, нужно было посылать запросы через терминал ручками, то теперь вы можете просто говорить LLМ, что вам нужно и LLM сам всё сделает.

Именно поэтому недавно возникла новая мантра про "SaaS is dead". Типа, зачем пилить сложные интерфейсы, если достаточно подключить LLM, дать ей доступ к бекенду и она сама выполнит любые пожелания пользователей.

Во многом это так есть. Разговорный интерфейс — это гибкость и мощь одновременно. Традиционные интерфейсы же, напротив, ригидны и ограничены.

Как всегда, я думаю, истина будет где-то посередине и крутые приложения будут попадать в идеальный баланс между обычным и разговорными интерфейсами. Но то, что MCP сильно изменит то, как мы взаимодействуем с приложениями, думаю, бесспорно.

Как думаете, SaaS скорее жив, чем мертв или наоброт?

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии3

В Облаке Рег.ру запустили новую услугу 1С as a Service

К облачной платформе Рег.ру подключили новый облачный сервис для безопасной и стабильной работы 1С — 1СaaS (1C as a Service). Продукт представляет собой готовое к работе решение по модели PaaS с развернутой платформой, кластером 1С, СУБД, администрированием, резервным копированием и постоянным мониторингом.

Возможности 1СaaS:

  • полный спектр продуктов 1С в одном комплексном решении;

  • стабильность, надежность и высокая производительность;

  • помощь в миграции и реализация нестандартных запросов;

  • специализированный мониторинг 1С и техническая поддержка.

1CaaS предлагает важный бенефит, которого обычно нет в готовых коробочных решениях — гибкость. Чтобы протестировать сервис, оставьте заявку на сайте.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

В обсуждениях тестирования микросервисов часто всплывает статья Мартина Фаулера Testing Strategies in a Microservice Architecture. Опубликованная в 2014 году, она опирается на концепцию тестовой пирамиды, сформулированную ещё в 2009-м. С тех пор ландшафт тестирования заметно изменился — в первую очередь за счёт появления и широкого распространения Docker и Testcontainers, которые существенно повлияли на практики и экономику тестирования.

Эта трансформация хорошо отражена в более современных источниках:

Сам Мартин Фаулер также в более поздней статье On the Diverse And Fantastical Shapes of Testing отмечает, что трактовка "юнит-тестов" далеко не однозначна и зависит от контекста.

В контексте вашего проекта это означает, что использование интеграционных тестов в 2025 году оказывается существенно проще, дешевле и эффективнее, чем это предполагалось в рамках модели 2009 года.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

В «Яндексе» протестировали в разных условиях работу колонки «Станции Стрит»: облили её кетчупом, колой, пивом и проверили, насколько хорошо она защищена. Устройство имеет надёжную защиту от пыли и влаги по стандарту IP67 (в колонку не проникают частицы пыли).

«Корпус колонки обтянут влагозащищённой тканью, все уязвимые места закрыты специальной плёнкой, а динамики и микрофоны спрятаны под силиконовыми заглушками. Берите Станцию с собой на пляж, пикник или в поход — она выдержит кратковременное погружение в воду», — пояснили в «Яндексе».

Теги:
Рейтинг0
Комментарии2

От механики до цифровой эпохи: шифровальная техника XX века

Музей криптографии представляет коллекцию из 39 единиц шифровальной техники, полученной по распоряжению Правительства РФ. Это рассекреченные образцы отечественных криптографических устройств, созданных с 1950–1960-х годов до начала 2000-х.

Некоторые экспонаты сохранились в рабочем состоянии — у них полностью сохранены внутренние модули. У других рассекречена только внешняя часть (корпус), а секретные модули удалены, поэтому они уже не функционируют. Несмотря на это, каждый из них — уникальное свидетельство технологической истории.

Особое внимание привлекает Kryha Liliput — шифровальное устройство в форме карманных часов, созданное в 1924 году. Более ста лет спустя оно поражает как техническим исполнением, так и эстетикой промышленного дизайна.

Шифровальное устройство Kryha Liliput, Германия, 1924. Коллекция Музея криптографии, №564. Источник
Шифровальное устройство Kryha Liliput, Германия, 1924. Коллекция Музея криптографии, №564. Источник

Мы поговорили с командой Музея криптографии — директором Лидией Лобановой и руководителем отдела хранения и развития коллекции Людмилой Кузягиной. Они рассказали, как в музее шифровальные машины становятся арт-объектами, как звук 70-летней давности оживает на бумаге и почему цифровое искусство требует такой же заботы, как живопись и скульптура.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Сегодня 24 июня до 23.59 успейте принять участие в главном DevOps-исследовании года!

Это last call по исследованию состояния DevOps 2025 в России, проводимого компанией «Экспресс 42» при поддержке Axiom JDK. Оно закрывается сегодня ночью в 00.00 по мск.

Помогите отследить тренды и понять, как опыт разработчиков (DX) влияет на эффективность команд и успех компании. Фокус State of DevOps Russia 2025 на developer experience. 

Осталось всего несколько часов — пройдите опрос до 23.59.

Мы вместе изучим, что помогает компаниям формировать позитивный опыт для разработчиков и как на него влияют внутренние платформы, ML/AI-инструменты, облачные технологии и практики ИБ.

Опрос анонимный и займёт ~20 минут. Данные нужны, чтобы понять, какие инструменты реально работают в проде, а какие — только в красивых презентациях.

Если вы — DevOps-инженер, разработчик, тестировщик, админ, тимлид, CTO, техдир — внесите свой вклад.

Все участники получат:

  • Полный доступ к результатам исследования;

  • Возможность выиграть билеты на Highload++ и DevOpsConf.

  • Промокоды и мерч от партнёров (AvitoTech, VK Cloud, Positive Technologies, Selectel, ecomtech, Okko, Онтико, Т-Технологии,  Axiom JDK, Экспресс 42).

Участвуйте сегодня и голос вашей команды будет услышан. Чем больше ответов — тем лучше получится карта DevOps-практик в России.

Почитать предыдущие отчёты можно тут

PS. А у кого есть интерес заняться девопсом в команде Axiom JKD, загляните сюда.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Автор телеграм‑канала «Уставший паблишинг» Даниил Каменев и его коллеги создали объёмный труд для всех тех, кто разрабатывает игры и занимается их продвижением — бесплатную обучающую книгу «Библия маркетинга игр».

Пока инди‑разработчики готовят квесты в своих играх, придумывая захватывающие сюжеты, участники сообщества «Стимиздат» уже прошли квест в реальном мире по постижению искусства продвижения игр, чтобы сделать путь других проще. Даже старожилы геймдева найдут здесь для себя что‑то полезное, а для новичков книга точно станет оберегом от ошибок, который поможет сэкономить много нервов. В книге подробно расписано, когда начинать маркетинг своего проекта, какой на него закладывать бюджет, как «прогревать» публику до релиза, как готовить промо для Steam. И что делать дальше, когда релиз состоится.

Теги:
Всего голосов 4: ↑3 и ↓1+3
Комментарии0

Ближайшие события

Как студенты с айтрекером изучали наш текстовый редактор

Июнь стал месяцем айтрекинга в UX-команде МойОфис. Сначала у нас прошло совместное исследование со студентами ВШЭ, а в ближайшие дни мы проведем крупный митап, где поговорим о создании и анализе сложных интерфейсов, в том числе с помощью технологий отслеживания взгляда.

Важный анонс: 26 июня пройдет онлайн-митап МойОфис Frontend&UX Talks, на котором JS-еры, дизайнеры, продакты и аналитики соберутся, чтобы обсудить все насущные проблемы и нюансы современного фронтенда. Кроме наших экспертов, на митапе будут ребята из Лаборатории Касперского, Контура и Alfa Research Center!

Регистрируемся и читаем темы выступлений здесь – и вступаем в чат, чтобы не пропустить важные обновления (и просто поболтать с коллегами по фронтендерскому цеху).

Еще немного о совместном исследовании со студентами:

4 июня в нашем петербургском офисе прошла презентация результатов совместного исследования с лабораторией социальной и когнитивной информатики ВШЭ в рамках учебного сотрудничества. Студенты курса «Айтрекинг в UX-аналитике» провели глубокое тестирование текстового редактора МойОфис 3.4 с обновлённым интерфейсом.

Методология:

  • Определили самые востребованные задачи у студентов и на их основе составили задания.

  • Использовали носимый open-source айтрекер PupilLabs.

  • Провели психологические опросы до и после заданий (спойлер: уровень стресса участников не изменился) и когнитивное интервью после.

Ключевые результаты:

  1. Проявилась часть проблем, о которых мы уже знали и исправили в версии редактора 3.5. Например, более удобное выделение ячеек таблицы без лишнего клика.

  2. Получили оценки пользователей: лёгкость и чёткость интерфейса.

  3. Подтвердилась необходимость в новом поиске по функциям, к которому прибегали участники, когда что-то не получалось найти, или они не знали, как выполнить задачу.

  4. Выявлены новые точки роста для развития продукта

P.S. Большая благодарность Елене Артёменко из лаборатории социальной и когнитивной информатики ВШЭ за эту коллаборацию! А если хотите узнать больше о фронтенде и UX-исследованиях — ждем вас 26 июня на Frontend&UXTalks!

Теги:
Всего голосов 16: ↑16 и ↓0+17
Комментарии2

Настройка КриптоПро HSM Client на Suse/RedHat/ROSA Linux

Подготовили пошаговую подробнейшую инструкцию со скриншотами для разработчиков информационных систем со встроенными СКЗИ по настройке КриптоПро HSM Client на Suse, RedHat и ROSA Linux (включая ошибки, которые позволяет обойти данное руководство) для того, чтобы использовать HSM как самостоятельный криптографический провайдер с выполнением всей математики на борту или в качестве надежного хранилища ключевого материала.

Заходите, читайте, сохраняйте в закладках.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии0

Оцените свои шансы войти в бигтех: тест от Яндекс Практикума

Если у вас в приоритете — опыт работы над масштабным продуктом и строчка в резюме, с ходу впечатляющая HR-ов… Другими словами, если в ваши карьерные планы входит работа в крупной технологической компании — значит, мы придумали этот тест для вас.

Он поможет сориентироваться: проверить хард- и софтскилы и понять, какие навыки уже на высоком уровне — а что стоит прокачать, чтобы повысить шансы оказаться в бигтехе.

Тест вам подходит, если:

  • Ваша специальность — разработчик, DevOps-инженер, аналитик данных или ручной тестировщик.

  • Ваш грейд — джун+ и выше. Нужна теоретическая база, коммерческий опыт или опыт решения учебных проектов на реальных кейсах.

Чтобы давать релевантные задачи, мы консультировались с нанимающими менеджерами Яндекса — они знают, чего ждут от соискателей в больших технологических компаниях.

→ Проверить свои силы

Теги:
Рейтинг0
Комментарии3

Нечеткое ассамблирование нейросетей для классификации на Python

Для ансамблирования нейросетей обычно используют простые методы, например, в задаче классификации, выбирают класс, за который проголосовало большинство моделей. Но что если рассматривать моделей, как экспертов, для которых мы можем оценить уровень точности? В этом посте я расскажу о своем подходе Fuzzy Vote, который использует нечеткую логику для объединения предсказаний моделей. Метод написан с помощью библиотеки fuzzyops, доступной через pypi. В библиотеке реализованы различные методы работы с нечеткими числами, поддерживаются вычисления на CUDA.

Идея метода

Каждая модель рассматривается как эксперт, который предсказывает вероятность принадлежности к классу и имеет определенную степень доверия. Эту информацию можно отразить через нечеткое число, в котором центр - это вероятность, ширина - неопределенность и высота - степень доверия.

Далее каждая модель "голосует" нечетким числом, числа агрегируются, и полученное число дефаззифицируется в одно значение. Полученное четкое число используется для классификации.

Генерация треугольного и гауссового нечеткого числа:

from fuzzyops.fuzzy_numbers import Domain, FuzzyNumber

def build_triangular(domain, centre, width, height):
    a, b, c = centre - width/2, centre, centre + width/2
    fn = domain.create_number("triangular", a, b, c)
    return fn * height

def build_gauss(domain, centre, sigma, height):
    fn = domain.create_number("gauss", sigma, centre)
    return fn * height

Агрегация одного примера:

def aggregate_sample(probs, accs, mf_type="gauss", scale_w=1.0, gamma=1.0, defuzz="cgrav"):
    domain = Domain((0.0, 1.0, 0.005), method="minimax")
    fnums = []

    for p, acc in zip(probs, accs):
        height = acc ** gamma
        width = max(0.02, (1.0 - acc) * scale_w)
        if mf_type == "tri":
            fnums.append(build_triangular(domain, p, width, height))
        else:
            sigma = width / 3.0
            fnums.append(build_gauss(domain, p, sigma, height))

    agg = sum(fnums[1:], start=fnums[0])
    return float(agg.defuzz(defuzz))

Агрегация всей выборки и оценка:

import numpy as np
from sklearn.metrics import roc_auc_score

def evaluate_fuzzy(probs_mat, y_true, acc_vec, **kwargs):
    scores = np.array([
        aggregate_sample(row, acc_vec, **kwargs)
        for row in probs_mat
    ])
    scores = (scores - scores.min()) / (scores.max() - scores.min() + 1e-12)
    return roc_auc_score(y_true, scores)

Как это сработало в задаче классификации пневмонии

Я обучил три модели (VGG19, ResNet50, DenseNet121) на датасете Chest X-Ray Pneumonia, взяв предобученные веса и переобучив классификатор на одну эпоху.

Результаты на валидационном и тестовом сете
Результаты на валидационном и тестовом сете

Метод Fuzzy-Vote дал лучшую точность, чем любая отдельная модель или простой majority vote метод. По ROC-AUC он не обошёл VGG19, но обошёл остальные методы, включая дискретный ансамбль. При этом метод не требует сложных архитектур или переобучения: он просто работает поверх уже полученных вероятностей.

Fuzzy-Vote — это простой, но гибкий способ агрегации предсказаний с учетом точности и уверенности каждой модели. Особенно полезен в случаях, когда:

  • модели сильно различаются по качеству

  • обычный majority vote даёт просадку

  • хочется объединить разные модели без дополнительного обучения

Но метод еще требует доработки, он не учитывает, например, confusion matrix каждой модели, чтобы учесть ошибки разного рода. Библиотека fuzzyops позволяет реализовать метод с минимумом кода и достаточно гибкой настройкой.

С полным кодом тренировки моделей и агрегирования можно ознакомиться по ссылке.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Присоединяйтесь к GigaConf 2025 🤖

На открытии наш директор продуктовой разработки Владимир Шульга поделится реальным опытом построения среды для работы с GenAI и расскажет про большое обновление в облаке Cloud.ru

Еще мы подготовили целый трек Cloud AI Architecture, где вы узнаете про архитектурные подходы к AI-ассистентам, возможности и особенности мультиагентных систем, RAG, запуск моделей и безопасность, кейсы использования AI. 

Доклады в программе трека:

  • Multi-Agent AI Systems in Practice: архитектуры, метрики, эффекты — Дмитрий Юдин.

  • Как мы переосмыслили инференс — Максим Блинов.

  • RAG как инструмент: когда LLM знает, о чем говорит — Евгений Третьяков.

  • Мультиагентные системы нового поколения — Артемий Мазаев.

  • Как мы меняем клиентский сервис с помощью AI — Максим Михайлов.

  • AI-помощник, упрощающий работу в облаке — Илья Жбанов.

Также на площадке конференции мы проведем воркшопы для офлайн-посетителей и покажем:

  • Как развернуть инференс модели с Hugging Face за 2 минуты — Владимир Килязов. 

  • Как собрать агентную RAG-систему с помощью GigaChain и Evolution ML Inference для эффективного инференса моделей и LLM  — Михаил Дремин.

А еще на стенде Cloud.ru вы сможете попробовать наши AI-сервисы вживую, получить доступ к тестированию, а также поучаствовать в развлекательных активностях и заработать мерч. 

Зарегистрироваться 👈

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0

Save the date: 4 июля встречаемся на Android Meetup!

В программе доклады от спикеров Wildberries & Russ и Альфа-Банка, Q&A-сессия с розыгрышем мерча, нетворкинг и фуршет для классного завершения вечера.

Поговорим о том, как оживить виджеты, подружить Compose с Koin и навигацией, а заодно встроить одно Android-приложение в другое без боли...или с болью:

«Виджеты на Android: это просто?»
Александр Гирев, Android Team Lead продуктовой команды WB Partners

«Compose+Koin+JetpackNavigation: что мы поняли за 2 года»
Арсений Шпилевой, Android-разработчик кор-команды WB Partners

«Интеграция Android-приложений: подходы и лучшие практики»
Абакар Магомедов, главный техлид разработки в Альфа-Банке

Когда: 4 июля 18:00 (сбор гостей с 17:00)
Где: Москва, пространство Весна + онлайн-трансляция

Регистрация уже открыта — присоединяйтесь онлайн или офлайн!

Теги:
Рейтинг0
Комментарии0

Что ждет участников Ural Digital Weekend 2025?

1-2 августа в Перми мы проведем уже традиционную конференцию про разработку и управление в IT-компаниях — Ural Digital Weekend 2025. Сейчас уже готова программа всех секций.

В 2025 году на конференции выступят спикеры из Альфа-БанкТ-БанкЯндексAvito.TechOzon.techБитрикс24SM LabCloud.ruОстровок!СтолотоScrum.ru, +7 pay, «Девелоника» (ГК Softline), Kokoc.tech.redevarcsinusARTWITECHTerabitЛидеры ИзмененийВикенд в ITCreativePeopleLuntryЮникорн (Ujin)Деврел-бюроMediaSoftProduct VisionPartner’s ClubТэглайн / agency2agencySpectr и множества других известных компаний.

Программа конференции будет разделена на 3 секции: «Разработка», «Управление разработкой» и «Управление бизнесом». 

Полная программа и детали в нашем материале на Habr: https://habr.com/ru/articles/919802/

Теги:
Рейтинг0
Комментарии0