Обновить

Все потоки

Сначала показывать
Порог рейтинга

Расширение AI-Less Habr — Чистим Хабр от ИИ

Надоела лента, забитая ИИ? У меня есть готовое решение для вас. Shut up and take my money:

Интерфейс расширения
Интерфейс расширения

Расширение для Chrome (и совместимых браузеров) позволяет скрывать статьи про «Искусственный интеллект». Скрывается не контент, написанный ИИ (LLM), а контент про ИИ (что сейчас обычно под этим подразумевается). Бесконечные статьи об очередной революции, вызванной тем, что такая‑то LLM модель опередила конкурентов на 0.1 балл в одном из 186 имеющихся бенчмарков, и вот этот вот всё.

Чтобы видеть счетчик скрытых статей, закрепите иконку расширения на панели инструментов через меню расширений (иконка паззла).

Есть следующие возможности:

  • скрывать хаб «Искусственный интеллект»

  • скрывать по словам в заголовке (настраиваемый список)

  • скрывать по тегам (настраиваемый список)

  • инвертированный режим (показать, попадающее под фильтры, и скрыть остальное)

По умолчанию включено только скрытие хаба «Искусственный интеллект». Фильтры по словам/тегам с большей вероятностью допускают ложноположительные срабатывания, поэтому выключены по умолчанию. По этой же причине в фильтрах по словам по умолчанию нет слов «ии»/«ai», так как есть достаточно много статей, содержащих что‑то вроде «без ИИ». Внимательно относитесь к добавлению слов в фильтры, чтобы минимизировать ложноположительные срабатывания.

Теги:
+20
Комментарии4

Пора вспомнить про RFC 1149 (wikipedia.org/wiki/IP_посредством_почтовых_голубей)

vegard@gyversalen:~$ ping -c 9 -i 900 10.0.3.1
 PING 10.0.3.1 (10.0.3.1): 56 data bytes
 64 bytes from 10.0.3.1: icmp_seq=0 ttl=255 time=6165731.1 ms
 64 bytes from 10.0.3.1: icmp_seq=4 ttl=255 time=3211900.8 ms
 64 bytes from 10.0.3.1: icmp_seq=2 ttl=255 time=5124922.8 ms
 64 bytes from 10.0.3.1: icmp_seq=1 ttl=255 time=6388671.9 ms

--- 10.0.3.1 ping statistics ---
 9 packets transmitted, 4 packets received, 55% packet loss
 round-trip min/avg/max = 3211900.8/5222806.6/6388671.9 ms
Теги:
+1
Комментарии8

Как вы знаете, мобильный интернет стал нестабильным последнее время, поэтому в поезде у меня появилась возможность посмотреть, что же я там скачивал почитать, когда появится время. И наткнулся на книгу: «Founders at Work [Stories of Startups' Early Days]» — 2008 года. Фактически эта книга рассказывает про яркие, выстрелившие стартапы в долине с 1980 по 2006 год примерно.

И знаете, хотя большинство из этих стартапов либо были куплены и растворены в других компаниях, либо обанкротились спустя некоторое время после выхода книги, сами истории мне понравились, в силу того, что можно сравнить то, о чём думали люди, и что по факту случилось спустя 20–25 лет.

Книга делает упор на то, что успешный проект могут запустить разные люди, с разным бэкграундом, с разным пониманием IT-бизнеса и принципов развития компаний. Выглядит как агитка венчурных фондов, но люди-то реальные и компании эти реальные.

Также подчёркиваются преимущества долины, где одни и те же люди по цепочке выстраивают свои компетенции и получают деньги на развитие своих идей фактически от одних и тех же инвестиционных фондов. Что ярко кричит — приезжай в долину, именно тут делаются успешные стартапы.

Конечно, книга очень сильно устарела, и многие вещи, о которых рассказывали основатели бизнеса как об инсайте, уже считаются базовым навыком, который расписывается в любой айтишной книге начального уровня. И также меня посмешила глава про BlackBerry как о лидере корпоративного мобильного мира. Книжка пошла в печать спустя пару месяцев после выхода первого iPhone, и никто не думал, что BlackBerry так быстро потеряет свои позиции в мобильном мире.

Практической пользы на текущий момент от книги нет, но книга развлекает как документалистика о событиях бума доткомов.

Теги:
0
Комментарии0

Дайджест: новости за февраль 2026

🚀 Через 16 дней встретимся на GoCloud 2026 — нашей главной ежегодной конференции про ИИ и облака. В этом году мы подготовили насыщенную программу, чтобы вы могли первыми узнать, какие подходы в работе с ИИ, данными, облаками и кибербезопасностью станут стандартом для бизнеса в 2026 году. Регистрируйтесь, чтобы ничего не пропустить.

📈 Если вы работаете в компании, которая хочет построить аналитику данных в облаке без первоначальных затрат на инфраструктуру, то у вас есть возможность запустить тестовый проект в рабочей среде облака с гарантированными SLA и безопасностью с помощью платформы Cloud.ru для работы с данными. Подробнее о предложении читайте на сайте, действует до 30 июня 2026.

👨‍💻 Еще до 30 июня можно забрать скидки до 40% на сервисы для запуска и развертывания LLM-моделей с помощью инференса или на физических серверах с GPU и CPU. 

🛡️ Теперь в облаке Cloud.ru можно размещать системы для обработки банковской тайны и проведения любых финансовых операций за счет подтверждения соответствия стандарту ГОСТ Р 57580.1-2017. Этот стандарт определяет основные требования по информационной безопасности для организаций, которые оказывают финансовые услуги по лицензии Центрального банка России. 

⚙️ Что нового в цифровой среде AI Factory:

  • В сервис для обогащения данными языковой модели добавили тег latest, который доступен при запросах к Search API для параметра knowledge_base_version. Он позволяет делать запросы к последней версии базы знаний без указания ее идентификатора.

  • В сервис для создания автономных ИИ-агентов добавили: триггеры, которые позволяют запускать агента при получении сообщения в мессенджере или электронного письма, а также настроить регулярный вызов по расписанию; поддержку трейсинга — возможность просмотра полных трейсов выполнения и отображение каждого шага агента с параметрами, уровнем уверенности и стоимостью; сессии агентов — они нужны, чтобы изучать цепочки рассуждений, смотреть, какие инструменты были использованы, и отслеживать стоимость выполнения сессии.

  • В сервисе для запуска моделей машинного обучения запустили Public API для управления инференсами. Он позволяет: получать список инференсов в проекте с пагинацией и фильтрацией по названию, а также детальную информацию о состоянии инференса; управлять жизненным циклом: масштабировать, настраивать ресурсы и параметры выполнения

  • Добавили новые модели в сервис с готовыми LLM и ИИ-моделями: zai-org/GLM-4.7-Flash, zai-org/GLM-4.7, t-tech/T-lite-it-2.1, t-tech/T-pro-it-2.1, Qwen/Qwen3-Coder-Next. Все модели доступны через API и поддерживаются в интерфейсе песочницы для быстрого тестирования. 

☁️ Управляемая аналитическая СУБД в облаке на базе ClickHouse® перешла в режим открытого тестирования и теперь доступна в личном кабинете Cloud.ru для всех зарегистрированных пользователей. Другие новости про наши облачные сервисы читайте в блоге на сайте.

🦾 Делимся инструкцией, как запустить ИИ-чат за шесть шагов. Внутри гайда порядок действий со списком сервисов и параметрами настройки; команды и конфиги, которые можно скопировать и использовать; настройка Open WebUI для работы с готовыми моделями через OpenAI-совместимый API и выбор модели прямо в интерфейсе чата; практическая настройка защиты, ограничение доступа по IP-адресам, а также использование SSL-сертификатов для шифрования соединений.

🤖 Изучите новый бесплатный курс от нашей команды о практиках развертывания, эксплуатации и автоматизации ML-систем с использованием корпоративных платформ данных. Подходит всем, кто хочет надежно и масштабируемо внедрять ИИ‑модели. 

🎙️ Выложили записи новых увлекательных вебинаров про ETL в облаке: от хаоса к управляемым процессам и корпоративный AI-чат: от выбора модели до работающего прототипа

💼 Рассказали, как онлайн-сервис доставки Купер перенес 40 ТБ аналитических данных в облако без остановки процессов. Подробности кейса смотрите на сайте.

Теги:
+3
Комментарии0

VK Tech выпустил на рынок Registry — универсальный бинарный репозиторий артефактов и инструмент безопасной разработки. Решение создано и протестировано в VK.

Артефакты — это компоненты, необходимые для сборки и работы приложений: библиотеки, зависимости, Docker-образы, Helm-чарты, пакеты и конфигурации. Продукт поможет российским компаниям централизованно и безопасно управлять артефактами, обеспечив высокую доступность и производительность на уровне enterprise-решений.

Registry от VK Tech поддерживает более 10 типов репозиториев: Docker, Helm, npm, PyPi, NuGet, Go, RPM/Yum, RubyGems, Maven, Gradle и Raw. Решение включает функциональности, недоступные в open-source аналогах. В основе автоматической проверки артефактов при их загрузке и скачивании из репозиториев, используются политики безопасности и актуальные данные об уязвимостях, разработанные с применением технологий Security Gate от VK Tech. Продукт обеспечивает высокую доступность из коробки: отказоустойчивая архитектура с автоматическим переключением при сбоях гарантирует бесперебойную работу CI/CD-конвейера. Registry выдерживает нагрузки крупнейших команд разработки.

Интеграция с VK Object Storage позволяет надёжно хранить петабайты данных с возможностью миграции между хранилищами. Использовать Registry можно на инфраструктуре публичного и частного облака VK Cloud или размещать на собственных серверах.

«Российские компании потеряли доступ к привычным корпоративным инструментам для управления артефактами. Registry изначально создавался внутри VK как решение, закрывающее все потребности крупного бизнеса: высокие нагрузки, отказоустойчивость, соответствие регуляторам и гарантированная поддержка. Теперь мы выводим его на рынок, чтобы компании могли получить полноценную enterprise-функциональность без зависимости от зарубежных вендоров», — комментирует руководитель направления облачных и дата-сервисов VK Tech Дмитрий Лазаренко.

VK Tech — российский разработчик корпоративного ПО для решения ежедневных задач бизнеса. Портфель VK Tech — это готовая экосистема программных продуктов, которая включает облачную платформу, дата-сервисы, сервисы продуктивности, бизнес-приложения. Продукты VK Tech включены в реестр российского ПО и соответствуют требованиям ФСТЭК, поставляются в формате лицензий (On-Premise) и по подписке (On-Cloud), что делает их доступными для компаний любого масштаба.

VK Cloud — платформа с широким набором облачных сервисов и ПО для эффективной разработки и работы с данными для компаний любого масштаба. VK Cloud входит в портфель решений VK Tech и базируется на многолетнем опыте развития интернет-сервисов и технологий на базе открытого кода. Среди продуктов VK Cloud инфраструктурные и платформенные облачные сервисы, а также комплексные решения, такие как VK Dev Platform, доступные в Public Cloud, в рамках инсталляции VK Private Cloud и как софт. Клиенты компании — «Битрикс24», «Газпромнефть», «Росатом» и другие крупнейшие игроки своих отраслей.

* VK Tech — ВК Тех, VK Cloud — ВК Клауд, VK Registry — ВК Реджистри, Security Gate — Секьюрити Гейт, VK Dev Platform — ВК Дев Платформ, VK Object Storage — ВК Обджект Сторедж

Теги:
+2
Комментарии0

Один из самых популярных сетевых стеков в мире — теперь в нашем маркетплейсе 🌍

Добавили FreeBSD сразу в трех версиях:

  1. FreeBSD 14 — стабильная база для продакшена

  2. FreeBSD 15 — баланс классики и новых возможностей

  3. FreeBSD 16 — свежий релиз для тех, кто хочет максимум актуальных фич

Хороший выбор для сетевых сервисов, хранилищ на ZFS и проектов с высокими требованиями к безопасности и стабильности.

Чем хороша FreeBSD:

1️⃣ UNIX-система: предсказуемость и контроль
2️⃣ Сильный сетевой стек: оптимизация под высокие нагрузки и сложные сетевые сценарии
3️⃣ ZFS из коробки: снапшоты, дедупликация и контроль целостности данных
4️⃣ Jails вместо контейнеров: простая и легкая изоляция процессов

Создать сервер с ОС FreeBSD →

Теги:
+11
Комментарии0

SimpleOne Platform 1.31.0: быстрее работа с данными — больше контроля и гибкости

Обновление платформы SimpleOne 1.31.0 упрощает работу с данными, расширяет возможности настройки и делает взаимодействие с системой ещё удобнее для разработчиков и пользователей.

Что нового:

Персональные и общие фильтры

Теперь вы можете сохранять фильтры в конструкторе условий и использовать их повторно — без необходимости каждый раз настраивать параметры заново. Администраторы создают общие фильтры для всей команды, остальные пользователи — персональные.

Гибкая работа с WYSIWYG

Новые системные свойства позволяют управлять форматом полей WYSIWYG в скриптах и при интеграциях через REST API. Разработчики сами выбирают, как использовать данные — как обычный текст или как форматированный объект. Меньше ограничений — проще интеграции.

Улучшенная карта зависимостей

расширены возможности визуализации связей между элементами:

  • перемещение объектов с помощью drag-and-drop

  • подсветка связей при наведении

  • дополнительные атрибуты для настройки через скриптыОценивать влияние изменений и выстраивать ресурсно-сервисные модели стало нагляднее.

Точная диагностика ошибок в скриптах

Логирование ошибок теперь работает всегда — даже при отключённом журнале успешных выполнений. А новое поле «Строка с исключением» сразу указывает номер строки с ошибкой. Меньше времени на поиск — быстрее исправление.

Дополнительные улучшения

  • Оптимизирована производительность методов класса SimpleSystem

  • Добавлена гибкая настройка интервалов пересчёта SLA-индикаций

  • Компактный режим таблиц теперь управляется на уровне отдельных виджетов

  • Реализована проверка соединения для очередей RabbitMQ

  • Исправлено 9 дефектов, включая корректный экспорт в XLSX и работу с SOP-пакетами

Узнайте больше об обновлении 1.31.0
Техническая документация

Теги:
0
Комментарии0

5 задач бизнеса, которые уже выполняют голосовые AI-агенты

Голосовые агенты перешли из пилотов в рабочие процессы: компании поручают им не только ответы на вопросы, но и реальные действия в CRM, календарях и заказах. Ниже — пять задач, которые голосовой AI агент (voice AI агент) уже закрывает без операторов.

1. Приём и обработка входящих звонков 24/7

Клиент звонит в нерабочее время или в час пик — вместо очереди или «перезвоните завтра» его встречает голосовой бот для звонков. Он уточняет запрос, проверяет статус заказа или баланс в ваших системах и либо решает вопрос, либо оставляет заявку и передаёт в CRM с уже заполненной карточкой. Нагрузка на операторов падает, а простые запросы обрабатываются без ожидания. Голосовой ИИ агент здесь выступает первым контуром приёма: фильтрует рутину и оставляет людям сложные и эмоциональные кейсы.

2. Запись и напоминания о встречах

«Хочу записаться на консультацию» или «Перенести визит на следующую неделю» — типичные фразы, которые голосовые агенты уже обрабатывают без участия менеджера. Бот проверяет свободные слоты в календаре, бронирует время, при необходимости отправляет подтверждение и напоминание. Часть платформ умеет и исходящие звонки: напомнить о записи за день или за час и уточнить, придёт ли клиент. Для бизнеса это меньше пропусков, меньше ручного согласования и больше контролируемого потока записей.

3. Квалификация лидов по телефону

Входящий лид звонит — голосовой бот для бизнеса задаёт уточняющие вопросы (задача, бюджет, сроки), оценивает качество лида и либо передаёт в отдел продаж с уже заполненной карточкой в CRM, либо запускает цепочку писем для «тёплых» контактов. При исходящем обзвоне та же логика: бот обзванивает заявки с сайта, квалифицирует их и обновляет поля в CRM. В итоге менеджеры получают уже отфильтрованный и структурированный входящий поток вместо «сырых» заявок.

4. Информирование и самопроверка статусов

«Где мой заказ?», «Какой у меня баланс?», «Когда приедет мастер?» — запросы, которые голосовые агенты обрабатывают, подтягивая данные из систем заказов, биллинга или учёта. Клиенту не нужно ждать оператора или искать информацию в личном кабинете: он звонит или говорит через виджет на сайте (голосовой бот для сайта), и за секунды получает актуальный ответ. Это снижает нагрузку на поддержку и ускоряет время до ответа по типовым вопросам.

5. Сбор обратной связи и актуализация баз

После доставки, визита или сделки голосовой AI агент может сам перезвонить клиенту или позвонить по списку: провести короткий опрос (NPS, причина отказа, удовлетворённость), уточнить контактные данные или причину неявки на встречу. Ответы фиксируются в CRM или в отчётности. Рутинный обзвон перестаёт зависеть от загрузки операторов, а база остаётся актуальной без ручного обхода.

Что нужно, чтобы такие сценарии работали

Чтобы голосовые агенты не только разговаривали, но и выполняли эти задачи, им нужна связка с вашими системами: CRM, календарь, заказы, почта. Тогда разговор сразу превращается в обновлённую карточку, новую запись или запущенную цепочку.

Голосовые AI-агенты уже закрывают приём звонков, записи, квалификацию лидов, информирование и обзвон для обратной связи. Отличие от прежней автоматизации — понимание естественной речи и выполнение действий в ваших системах, а не только воспроизведение скриптов. Тем, кто только оценивает внедрение, имеет смысл начинать с одной-двух задач из этого списка и расширять сценарии по мере отладки.

Теги:
0
Комментарии0

Всем привет! На связи Иван, руководитель НИИ Крокодил 😀

Это продолжение истории про медицинское приложение для клиники.

Часть 2. Как устроена медицинская система изнутри

Когда начинаешь работать с медицинской системой, быстро понимаешь: это не продукт, который можно «собрать и доработать потом». Любое изменение проходит через внутреннюю ИТ-команду клиники, потому что за каждым экраном стоят реальные процессы — расписания врачей, лаборатория, регистратура, страховые компании.

Даже небольшая корректировка формата данных или порядка шагов в сценарии могла затронуть серверную часть, а значит — требовала синхронизации и согласования.

🧪 Отдельная история — тестирование. Мы проверяли не только интерфейс, а связку «мобильное приложение + сервер клиники». Запись и отмена приёма, конкуренция за слот, обработка ошибок, загрузка PDF-документов, корректная работа вложенных структур в истории посещений — всё это нужно было прогонять реальными сценариями.

Часть функционала разрабатывалась параллельно со стороны клиники, и протоколы могли меняться. Это заставляло держать клиентскую архитектуру гибкой: не зашивать жёсткие ожидания к структуре ответа, централизованно обрабатывать ошибки, предусматривать изменения в формате данных. По сути, мы работали не просто над приложением, а над контрактом между двумя системами.

👑 И главный вывод — интеграция всегда глубже, чем кажется. Пока не разберёшь реальные бизнес-процессы заказчика, невозможно оценить скрытую сложность. Этот проект научил нас смотреть на интерфейс не как на набор экранов, а как на точку входа в живую операционную систему клиники.

Теги:
0
Комментарии1

Всем привет! На связи Иван, руководитель НИИ Крокодил 😀

Хочу разобрать один медицинский проект из прошлого опыта, он до сих пор сильно влияет на то, как мы работаем сейчас. И так, поехали!

Часть 1. Как устроена медицинская система изнутри

Это было гибридное мобильное приложение для клиники. По сути — интерфейс для пациента: записаться к врачу, посмотреть анализы, проверить визиты 🔽

Мобильное приложение не содержало бизнес-логики. Все расчёты, проверки, сценарии и данные находились на стороне backend-сервиса клиники. Приложение работало как тонкий клиент: отправляло запросы и отображало результат.

📦 Данные в приложении не хранились

Каждое действие пользователя превращалось в запрос на сервер: авторизация, запись к врачу, список анализов. Сервер возвращал актуальное состояние системы в ответе. Если данные менялись на сервере, пользователь сразу видел это в приложении.

🕓 Запись к врачу была не одной формой, а сценарием

Выбор врача или направления, дата, свободное время, подтверждение или финальный статус. Сервер решал, какие данные запрашивать на каждом этапе, а приложение лишь следовало сценарию. Пользователь не мог перескочить шаги или отправить некорректные данные — интерфейс был привязан к логике backend’а.

⭐️ В следующих частях разберу технические сложности, с которыми мы столкнулись при разработке таких систем.

Теги:
0
Комментарии0

Психобиотики: как кишечник незаметно управляет нашим настроением

Вы когда-нибудь задумывались, почему в животе иногда «сосёт от тоски» или, наоборот, «бабочки порхают»? Это не просто образные выражения. В вашем кишечнике скрыто около 100 миллионов нервных клеток — целая нейросеть, которую ученые окрестили «вторым мозгом». И она постоянно переписывается с главным мозгом, влияя на то, радуемся мы или грустим.

Связь, которую не перерезать

Соединяет их блуждающий нерв — своеобразный интернет-кабель между головой и животом. Причем большая часть сигналов идет снизу вверх. Добавьте к этому гормоны и иммунные клетки: почти 70% всей иммунной системы сосредоточено вокруг кишечника. Получается, что наш внутренний мир буквально зависит от того, что происходит в пищеварительном тракте.

А еще именно в кишечнике вырабатывается до 95% серотонина — того самого нейромедиатора, который дарит ощущение удовлетворения. Конечно, напрямую в мозг он не попадает (защитный барьер не пускает), но через блуждающий нерв и иммунную систему он отлично умеет передавать сигналы о нашем самочувствии.

Когда баланс ломается

Представьте: в норме в кишечнике живут триллионы бактерий — своя экосистема. Как только она выходит из равновесия (дисбиоз), стенка кишечника может стать «дырявой». Бактериальные обломки просачиваются в кровь, запуская хроническое воспаление. А мозг, улавливая эти сигналы, отвечает упадком сил, тревогой и сниженным настроением. Эту связь ученые называют воспалительной теорией депрессии.

Психобиотики: бактерии, которые заботятся о психике

Тут на сцену выходят психобиотики — специальные штаммы пробиотиков, которые не просто улучшают пищеварение, а могут влиять на эмоциональный фон. Звучит как фантастика, но исследования подтверждают:

  • Bifidobacterium longum помогает снизить уровень кортизола (гормона стресса) и уменьшает раздражительность.

  • Некоторые Lactobacillus умеют вырабатывать ГАМК — вещество, которое успокаивает нервную систему, снижая тревогу.

  • В тестах с участием здоровых людей прием психобиотиков даже улучшал визуальную память.

Важный нюанс: психобиотики — это не замена антидепрессантам, а мощный помощник в комплексной терапии. Их эффект зависит от конкретного штамма, и назначать их должен специалист.

Еда как лекарство: что говорит наука

Самое известное исследование на эту тему — SMILES. В нем пациенты с тяжелой депрессией, которые наряду с лечением перешли на средиземноморский рацион, достигали ремиссии в 32% случаев. Для сравнения: в группе без диеты — только 8%. А метаанализы показывают, что здоровое питание само по себе снижает риск депрессии примерно на четверть.

Что же стоит положить в тарелку?

  • Жирную рыбу (лосось, сардины, сельдь) — источник омега-3, необходимых для нейронов.

  • Ферментированные продукты (кефир, натуральный йогурт, квашеная капуста) — природные пробиотики.

  • Темный шоколад (от 70% какао) — полифенолы, которые поддерживают микробиоту и улучшают настроение.

  • Бананы — и пребиотики для бактерий, и витамин B6, участвующий в синтезе дофамина.

  • Цельнозерновые крупы (овсянка, гречка) — дают стабильную энергию без скачков сахара.

А вот чего стоит избегать: фастфуд, сладкое, алкоголь. Они разрушают микробное разнообразие, усиливают воспаление и напрямую бьют по нервной системе.

Настроение — штука сложная, и сводить его только к питанию было бы ошибкой. Генетика, травмы, хронический стресс — все играет роль. Но у нас есть рычаг, который мы можем задействовать уже сегодня: постепенно менять рацион, добавлять полезные бактерии и давать им правильную «еду» (клетчатку и пребиотики).

Друзья, а мы продолжаем следить за развитием медицины и за открытиями ученых, подписывайтесь! ВКОНТАКТЕДзенМАХ, OK.

Теги:
+1
Комментарии0

Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ‑агентов в программировании. Исследователи проверили, насколько результаты одного из главных отраслевых бенчмарков SWE‑bench Verified соответствуют практике разработки с участием живых мейнтейнеров open source‑проектов. Выяснилось, что около половины решений, которые автоматическая система оценки считает успешными, в реальности не были бы приняты в основной код.

В исследовании METR участвовали четыре действующих мейнтейнера трёх популярных репозиториев: scikit‑learn, Sphinx и pytest. Они провели ручной код‑ревью 296 pull‑request, созданных ИИ‑моделями. Среди протестированных систем были Claude 3.5 Sonnet, Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet и GPT-5.

Разрыв между результатами автоматических тестов и реальным код-ревью: модели ИИ демонстрируют заметно более высокие показатели успешности в бенчмарке SWE-bench, чем при проверке опытными разработчиками, что указывает на переоценку их практической эффективности. Источник: METR.
Разрыв между результатами автоматических тестов и реальным код-ревью: модели ИИ демонстрируют заметно более высокие показатели успешности в бенчмарке SWE-bench, чем при проверке опытными разработчиками, что указывает на переоценку их практической эффективности. Источник: METR.

Рецензенты не знали, написан ли код человеком или машиной. В результате оказалось, что в реальной разработке такие решения принимаются значительно реже: уровень одобрения оказался примерно на 24 процентных пункта ниже, чем показывали автоматические тесты SWE‑bench. Даже если учитывать, что сами человеческие решения при повторной проверке одобрялись только в 68% случаев, разница между оценками алгоритма и мнением разработчиков все равно осталась статистически значимой.

Разработчики классифицировали причины отклонения решений на три основные категории. Первая — низкое качество кода, включая несоблюдение стандартов проекта и избыточную сложность. Вторая — нарушения существующей логики системы, когда исправление одной ошибки приводило к поломке других частей кода. Третья — базовые функциональные ошибки: значительная доля решений формально проходила тесты, но фактически не устраняла исходную проблему.

Исследование METR также выявило различия между моделями: переход от Claude 3.5 к Claude 3.7 сопровождался ростом общего числа «успешных» решений, но увеличением случаев функциональных дефектов, тогда как более поздние версии Anthropic улучшали прежде всего качество кода. GPT-5 в среднем демонстрировал более слабые результаты по этому критерию.

Дополнительный анализ METR показал, что результаты тестов могут создавать неверное впечатление о том, насколько хорошо ИИ работает в реальных задачах. По автоматическим данным Claude 4.5 Sonnet достигает 50% уровня успеха на задачах, сопоставимых с 50 минутами работы разработчика. Однако оценки мейнтейнеров снизили этот показатель примерно до восьми минут. Это означает, что лабораторные метрики могут завышать реальную эффективность ИИ‑агентов в несколько раз.

В команде METR указывают, что исследование не доказывает фундаментального потолка возможностей современных моделей. В эксперименте ИИ‑системы получали только одну попытку решения задачи, тогда как в реальной разработке код дорабатывается итеративно после замечаний.

Теги:
+1
Комментарии1

Пару лет назад мы с коллегами из CyberYozh решили создать курс по этичному хакингу. Все как положено: детальная программа, план, маркетинг, свет, аппаратура, даже футболки подготовили соответствующие! Однако на деле все оказалось намного сложнее, чем это кажется со стороны.

Первое и самое сложное — это съемки. Иногда, для того чтобы записать 5-тиминутное видео, у меня уходило по 4 часа. И я сейчас не говорю про человека‑соседа, решившего повесить полку именно в момент съемки. Это и забывчивость подготовленного текста, Эканья и Аканья, почесывания, сбой в ПО при презентации экрана и банальная усталость от сидения на табуретке (именно табуретке, так как спинка стула мешает в кадре). А так как режиссер требует все записывать «одним дублем», иногда приходилось раз 20 перезаписывать 10-ти минутное видео с самого начала.

Второе, бумажная бюрократия. Так как планировался большой проект, мы привлекли маркетологов и технологов. Но только те вместо того, чтобы помогать нам в работе, наоборот, делали жизнь тяжелее.

Технологи начали требовать от нас составления плана на каждое видео: какие цели мы ставим перед уроком, какими задачами мы их достигнем и чему в итоге научится студент, посмотрев видео‑урок (что делали сами технологи, кроме как указывать нам на это, мы так и не поняли). Более того, это нужно проговаривать в начале каждого видео, и в конце повторяться и подводить итог, чему же все‑таки научились студенты.

А маркетологи настаивали, чтобы я говорил, какая это актуальная профессия, что по ней много не закрытых вакансий и что такие специалисты зарабатывают неприлично МНОГО, поэтому они срочно должны записываться на наш курс.

Ну и меньшее из зол, это неудобство исполнения. С учетом того, что я записывался в квартире, это накладывало свои особенности взаимоотношений с родными. Одна из комнат была постоянно занята, так как был развернут хромакей 2×2 метра, дополнительный свет, камера, микрофон, а заниматься постоянной сборкой‑разборкой такой конструкции то еще занятие. Кроме того, семья и человек‑сосед должны находиться в тишине, чтобы не было шума на фоне, а с учетом наличия детей — это просто нереально.

В общем, с горем пополам мы записали пару пилотных уроков, но потом решили завершить начинание. Это очень большой и тяжелый труд, который требует много сил. И это я еще не говорю про само содержание курса, которое должно быть качественным, актуальным и конкурентноспособным. А с учетом планов маркетологов по выпуску 2–3 уроков в неделю, это было более чем призрачно.

Какие выводы я сделал для себя? Во‑первых, несмотря на такой опыт, я все еще люблю преподавать, только исключительно в оффлайн формате: при прямом взаимодействии и живым общением со студентами. Во‑вторых, вопреки популярному мнению, что блогеры ничего не делают и только снимают свои дурацкие видео, это очень большая и тяжелая работа: если делать качественно и вдумчиво, то, как я и сказал выше, процесс записи может занимать очень долгое время и требовать больших физических усилий.

Прилагаемое видео — один из демо видеоуроков, который мы записали и смонтировали. Понимаю, что не у всех есть возможность посмотреть в YouTube, поэтому я залил видео во 📺 ВКонтакте. Желаю приятного просмотра.

🧠 Обязательно поделись с теми, кому это может быть полезно: 💬 Телеграм | 💬 Max | 📝 Хабр | 💙 ВКонтакте

Теги:
+1
Комментарии0

Ближайшие события

Заметил обнову на Хабре.

Появился новый счетчик "охвата" который судя по моим наблюдениям измеряется в степенях двойки (2,4,8,16,32 и тд). Но я так и не мог найти официальных данных как он работает. Смотрел официальный changelog Хабра — никаких недавних обновлений не вижу.

Как Хабр считает метрику "Охват", которая стала первым делом выводиться возле пользователя?

Кто знает, напишите в комменты или личку. По моему мнению, такие штуки в UI должны сопровождаться символом вопросика, при наведении на который дается информация или второй вариант — по клике на который, открывается страница описывающая то, как работает эта метрика.

UPD
Наглая реклама, но после того как соберу инфу, сделаю еще один репост на Хабре и в своем-тг

Теги:
+1
Комментарии2

Руководитель группы серверной разработки «Криптонита» Артём Корсаков ведёт проект Scalabook. Это уникальная русскоязычная база знаний по Scala.

И недавно он добавил туда новые страницы — делимся с вами. Отправляйте знакомым «скалистам»!

Теги:
0
Комментарии0

Системный аналитик часто превращается в дорогого «секретаря», который фиксирует решения постфактум, создаёт артефакты, которыми никто не пользуется, и почти не влияет на результат. Ценность роли падает, багов в проде много, а внутри скребут кошки.

На вебинаре «Как системному аналитику уйти от документирования к проектированию» разобрали, как: перестать быть документистом, обрести ментальное здоровье, приносить реальную пользу команде и улучшать продукт, одновременно сокращая время на работу.

Спикеры:

Филипп Хандельянц (Руководитель разработки статических анализаторов, PVS-Studio).
За 9-летнюю историю в компании PVS-Studio прошёл путь от разработчика-джуна до руководителя отделов разработки статических анализаторов. Сам того не ведая, стал ещё неявно выполнять работу системного аналитика.

Владимир Бурмистров (Главный системный аналитик, IT-холдинг Т1). 18 лет в IT. Прошёл путь от автоматизации бухгалтерии и производств, до финтеха. Автор курсов и преподаватель. Может без ИИ найти информацию как в интернете, так и в библиотеке.

Теги:
0
Комментарии0

Очеловечивание ИИ

Недавно разошлась новость о том, что Антропик (создатель Клода, а я с ним, как и с Кодексом, работаю с утра до утра каждые сутки) создал курс по «скилзам» (англицизм, skills), а по‑русски — навыкам. По каким навыкам? Вы думаете, вашим, разработчиков? Нет! Курс по навыкам агентов искусственного интеллекта.

ии-котейко
ии-котейко

Все бросились об этом писать, здесь на Хабре статья вышла. Тема не новая, Антропик про навыки ИИ пишет уже давно. Но только сейчас, с выходом курса, об этом громко заговорили.

И знаете, мне кажется, что все упускают один важный момент.

Название. Навыки! Это слово мы всегда применяли только к людям, а не к каким-то железкам.

А здесь идет явное очеловечивание ИИ. Это осознанное действие. Нас хотят приучить к мысли, что ИИ — не инструмент! Это очень опасно. И об этом никто не пишет. ИИ должен остаться инструментом. У него не должно быть навыков, сознания. У него могут быть только чипы и инструкции.

Человек должен четко провести эту границу и соблюдать ее. Но, к сожалению, этого не произойдет. Сейчас человек занят другими проблемами.

Всегда ваш (не ии), Ланчев PRO ИИ (канал автора в телеге)

Теги:
+5
Комментарии2

Обсерватория или свой телескоп? На что потратить 40 000?

Узнаем, что выбрал коллега с детства мечтавший о космосе.Иногда лучший первый шаг в астрономии — не купить телескоп, а сначала понять, что именно вы хотите наблюдать и как это выглядит вживую. 

В статье «Почему я посетил частную обсерваторию, а не купил телескоп» автор рассказывает, как вместо покупки оптики выбрал поездку в частную обсерваторию в Архызе: несколько ночей под тёмным небом, наблюдения через серьёзный инструмент и разговоры с людьми, которые этим реально живут. 

Почему я посетил частную обсерваторию, а не купил телескоп
Проснуться ради космоса 4:30 утра, в горах Архыза темно и холодно, но будильник не вызывает раздраже...
habr.com

Это не просто тревел-история, а практичный ориентир для новичков!

Теги:
0
Комментарии0

Отсчитайте 16 минут до перезагрузки сервера: логическая задача для айтишников

Привет, Хабр! Подготовили для вас новую логическую задачу. Попробуйте ее решить, чтобы размять мозги в начале рабочей недели.

Условие

У вас есть два сервера: Server_A и Server_B. На каждом установлен watchdog — механизм, который перезагружает систему при зависании. 

Для Server_A интервал составляет 7 минут, а для Server_B — 10. При каждой перезагрузке watchdog записывает логи в специальное хранилище — REBOOT.

Дополнительно установлен клиент, который посылает таймеру сигнал о сбросе — REVERSE_TIMER. Запоминает он только последний интервал. 

Задача

В серверной находится один сотрудник. Ему нужно отсчитать ровно 16 минут, посылая команды REVERSE_TIMER и REBOOT. Какая последовательность команд будет в логах?

Проверьте себя, а за готовым решением приглашаем в Академию Seletel.

Теги:
+9
Комментарии4

📣 Всем привет! На связи Михаил, аналитик платформы с искусственным интеллектом. Продолжаю серию постов про автоматизацию в пищевой промышленности.

В прошлой части я писал, зачем автоматизация нужна пищевому производству. Теперь разберу, какие системы для этого используют и чем они отличаются ⤵️

На пищевом предприятии автоматизация обычно выстраивается по уровням. На нижнем уровне — оборудование и датчики, выше — системы управления процессом, ещё выше — системы управления производством и ресурсами предприятия.

Чаще всего используются четыре основных уровня:

  1. АСУ ТП. Это базовый уровень автоматизации, который управляет конкретными технологическими операциями: дозированием, смешиванием, нагревом, охлаждением, пастеризацией, розливом. Здесь система в реальном времени следит за температурой, давлением, уровнем, расходом и другими параметрами и регулирует процесс по заданным алгоритмам. АСУ ТП отвечает за то, чтобы линия физически работала в нужном режиме.

  2. SCADA. SCADA-система работает над технологическим уровнем. Она собирает данные с оборудования, визуализирует их, архивирует, формирует отчёты и сигнализирует об отклонениях. Если АСУ ТП управляет процессом, то SCADA помогает этот процесс видеть и контролировать. Для производства это важно, потому что оператор или диспетчер получает общую картину по линии или цеху и может быстрее реагировать на сбои.

  3. MES. MES — это уровень управления производством между цехом и управленческими системами. Такие системы помогают планировать загрузку оборудования, отслеживать выполнение заданий, контролировать выпуск партий, фиксировать простои и обеспечивать прослеживаемость продукции. Для пищевой промышленности это особенно важно: если возникает проблема, MES помогает быстро понять, из какого сырья выпущена партия, на каком участке она производилась и где возникло отклонение.

  4. ERP. ERP — это уже уровень управления ресурсами предприятия. Такие системы отвечают за закупки, складской учёт, финансы, логистику, производственное планирование и заказы. ERP не управляет оборудованием напрямую, но определяет, что, в каком объёме и в какие сроки должно быть произведено.

    АСУ ТП управляет процессом, SCADA показывает, что происходит на линии, MES управляет производством, ERP управляет ресурсами и бизнесом.На практике эти системы работают в связке: одни управляют процессом, другие собирают данные, третьи помогают планировать и контролировать выпуск.

Но во многих случаях этого уже недостаточно. Классические системы хорошо видят параметры процесса, но не замечают визуальные проблемы: дефекты упаковки, смещение этикетки, заторы на линии, просыпание сырья или нарушения со стороны персонала.

Поэтому всё чаще их дополняют видеоаналитикой и компьютерным зрением — там, где нужен не только контроль параметров, но и контроль того, что происходит на производстве.

В следующем посте разберу, где именно видеоаналитика даёт эффект на пищевом производстве и какие задачи она закрывает на линиях фасовки, упаковки и контроля качества.

Теги:
0
Комментарии0