Обновить

Все потоки

Сначала показывать
Порог рейтинга
Уровень сложности

Свой инструмент для бенчмаркинга ИИ-агентов: архитектура, надёжность и интеграция с Airflow

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели5.6K

Всем привет! Мы создаём GraphRAG-систему и нам постоянно приходится тестировать новые гипотезы: менять подходы к поиску по графу, обработку контекста, внешние интеграции и вспомогательные компоненты. Почти каждая такая гипотеза требует правок в коде или конфигурирования агента, а значит, быстро возникает несколько параллельных вариантов реализации, которые хочется сравнивать между собой.

При этом тестирование одной версии не должно блокировать тестирование другой. Разработчики должны иметь возможность одновременно прогонять бенчмарки для разных веток, реализаций и конфигураций, а затем выбирать наиболее удачные изменения и интегрировать их в основную версию агента, которая уже проходит путь до эксплуатации.

Другая проблема: агент — это не просто промпт к LLM, а комплексная кодовая база со своим окружением, множеством зависимостей и точек отказа. Тестирование его встраиванием в ноутбуки и кастомные скрипты может аукнуться неприятными побочными эффектами и необходимостью постоянно их дорабатывать под изменения в агенте или добавление новых агентов.

В результате задача «оценить качество агента» превращается не только в задачу про метрики, но и в задачу про инженерную надёжность: как воспроизводимо запускать агент, как не зависеть от конкретного агента или его версии, как не терять промежуточные результаты прогонов, как хранить артефакты и сравнивать результаты между версиями.

Читать далее

Мессенджер Ласточка. Мы в Rustore. Cобственный DSL и федеративная архитектура

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели16K

Путь от идеи до работающего мессенджера с открытым кодом — в последнем отчёте. Дальше — рутина, развитие и поддержка.

Я начал рассказывать о проекте «Ласточка» на Хабре чуть больше двух месяцев назад. Тогда это были вопросы нужен ли еще один мессенджер, которые переросли в твёрдое намерение построить честный российский мессенджер для обычной жизни — семьи, друзей, работы.

Читать далее

Как нейросети решают, чей бренд процитировать: разбор RAG-архитектуры поиска и что из этого следует для GEO

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.3K

Когда Алиса, ChatGPT или Perplexity отвечают пользователю и называют конкретный бренд, за этим стоит конвейер из нескольких алгоритмов извлечения и ранжирования. Я разобрал, как он устроен в Google, Bing и Яндексе, и собрал из этого практические выводы для GEO. Все ключевые цифры проверял по первоисточникам - где факт доказан публикацией, а где это исследовательское направление или вторичные данные, помечено отдельно.

Читать далее

Каково это — работать с Fable 5 (Mythos)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели13K

У меня был ранний доступ к первой публично доступной модели класса Mythos — Claude 5 Fable. Большинство обсуждений вокруг Mythos сосредоточено на кибербезопасности, но я тестировал модель на всём остальном (ограничения Fable фактически блокируют её использование в этой области).

Мой вывод: это реальный скачок относительно всех моделей, с которыми я работал раньше. И, что важнее, он говорит о фундаментальных изменениях в том, как мы взаимодействуем с AI.

Читать далее

Когда эффективнее автоматизировать 70% вместо 90%, или Почему финтех-боту иногда лучше замолчать?

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6K

Этот текст завершает первую и вторую части трилогии о внедрении LLM в клиентские сервисы. Если раньше мы обсуждали ИИ-агентов и базовую архитектуру, то третья статья получилась самая «бизнесовая» в цикле.

Предлагаю спуститься с небес на землю и без презентационной магии, на основе операционных финтех-кейсов разобрать, где автоматизация приносит деньги и разгружает линию, а где боту нужно вовремя замолчать и передать трубку человеку.

Читать далее

Как команда проектировщиков за 2 месяца освоила nanoCAD BIM без отрыва от производства

Время на прочтение6 мин
Охват и читатели5.4K

Рассказ, как команда проектировщиков АО «НПП «ИСТА-СИСТЕМС» за 2 месяца в гибридном формате (видеоуроки в СДО + консультации) освоила nanoCAD BIM ОПС без отрыва от производства, после чего применила знания в крупном проекте.

Читать далее

Выпустили, но в наморднике: разбираем как Mythos стал Fable 5

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели6.8K

Когда компания выпускает продукт, всё просто: построил — продал. Вышел новый айфон — он лежит на полке. Появилась нейросеть — вот вам API, пользуйтесь. Это настолько привычно, что мы даже не задумываемся.

Но что делать, если лаборатория обучила самую мощную модель в своей истории и поняла: выпускать её в дикую природу слишком опасно?

Тогда создатели идут на трюк из шпионских триллеров. Они берут один и тот же цифровой мозг и разделяют его на две сущности. На одну надевают жесткий намордник и отдают толпе. Вторую — дикую и во всей красе — запирают в секретной лаборатории для горстки избранных.

Звучит как фантастика? Но это наше настоящее. Прямо сейчас вы можете протестировать «беззубую» версию этого сверхразума. Правда, за двойную цену и система посреди работы может подменить её на модель попроще.

Знакомьтесь: Claude Fable 5 и Claude Mythos 5 — две стороны одной медали, которую Anthropic пытается продать без последствий. Сегодня мы залезем ей под капот.

Посмотреть, что под капотом

Использование Blob API для обработки файлов, их загрузки и создания клиентских приложений без утечек памяти

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели7.6K

Современные фронтенд-приложения постоянно взаимодействуют с файлами.

Пользователи загружают аватары, перетаскивают видео в дашборды, экспортируют CSV-отчеты, просматривают PDF-файлы, скачивают сгенерированные конфигурационные файлы и работают с медиаконтентом прямо в браузере. На первый взгляд все это выглядит довольно просто: поле загрузки файла, элемент предпросмотра, возможно, кнопка скачивания — и задача решена.

Но именно здесь начинаются настоящие проблемы.

Читать далее

Быстрый поиск причин сбоев в логах с помощью EventId в .NET Core на примере актов для единого реестра интернет-рекламы

Время на прочтение10 мин
Охват и читатели5.6K

Привет, Хабр! На связи Андрей Алексеенко, техлид оператора рекламных данных (ОРД) «МедиаСкаут». В предыдущем посте мы начали рассказывать о том, как своевременно передаем информацию в единый реестр интернет-рекламы (ЕРИР) — показали настройку гарантированной доставки данных внешним сервисам. Сегодня предлагаю пойти дальше и обсудить, что мы сделали, чтобы вовремя находить, локализовать и устранять проблему, если по какой-то причине (а их множество, и потому разбирать нет смысла) доставка все же не случилась.

Речь о наблюдаемости за системой, которая держится на трех принципах: логирование, трассировка, метрики. В материале разберем механизм контекста структурированного логирования и посмотрим на примерах, как использовать EventId в .NET Core для классификации событий в логах, чтобы быстро понимать, где и что сломалось. Итак, поехали!

Читать дальше

«Я не смог устоять»: как один человек в 1965-м добавил null, и оставил индустрии счёт на миллиард долларов

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели14K

5 марта 2026 года в своём доме, в окружении семьи, тихо умер человек, чей код вы трогали на этой неделе. Возможно, прямо сегодня. Возможно, он уронил вам прод.

Звали его сэр Чарльз Энтони Ричард Хоар. Для друзей — Тони. Для пары поколений студентов — C. A. R. Hoare, тот самый, что в 26 лет придумал quicksort, выиграв у начальника спор на шесть пенсов. Тьюринговская премия 1980 года, логика Хоара, CSP, на которой потом выросла половина теории конкурентности. Большая, красивая, почти безупречная карьера.

Почти. Потому что в 1965 году тот же самый человек добавил в язык одну маленькую штуку. И эта штука пережила его, переживёт нас и, скорее всего, прямо сейчас лежит где-то в вашем стектрейсе.

Это null.

Есть расхожий сюжет: коварная индустрия наплодила багов, а гениальные инженеры героически с ними борются. Красиво. И, как обычно, неправда. Потому что самый дорогой баг в истории софта добавил не злодей и не нерадивый джун. Его добавил один из умнейших людей в истории computer science. 

Вот про эту историю и поговорим.

Читать далее

Жизнь в Японии: почему «технология» не равно «цифровизация»?

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели9.4K

2 года я учился в языковой школе в Японии и искал работу в этой стране. В какой-то момент я заметил, что для многих моих друзей и коллег Япония живёт в 22-м веке и находится на технологической вершине. Для меня она выглядела немного иначе — хотя и очень привлекательно. 

Сегодня попробую рассказать, почему Япония считается супер-современной, как мы дошли до этого стереотипа и насколько он правдив. Ещё расскажу вещи из личного опыта: что запомнилось, удивляло, радовало, злило и раздражало во время жизни здесь с точки зрения повседневной цифровизации и технологии.

Читать далее

Claude Fable 5 в России без VPN. Anthropic два месяца прятала свою лучшую модель

Время на прочтение3 мин
Охват и читатели6.6K

В апреле Anthropic выпустила Claude Mythos — и сразу отказалась делать её публичной, сославшись на то, что модель слишком хорошо умеет находить и эксплуатировать уязвимости в программном обеспечении. Доступ получила горстка компаний через закрытую программу Project Glasswing.

Но вчера, 9 июня, Anthropic выпустила Claude Fable 5 — это та же модель, что и Mythos, но с активными защитными классификаторами для широкой аудитории. Fable и Mythos — не разные модели, а разные уровни доступа к одной и той же системе.

Читать далее

Spawn — фреймворк для разработки AIDD методологий

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели5.5K

Всем привет! Я создал инструмент для разработки AIDD и назвал его Spawn. Это Python-утилита, которая помогает когерентно использовать несколько AIDD-методологий в одном репозитории — без ручной синхронизации правил, скилов и MCP-конфигов между ними.

Далее — краткое введение, затем я расскажу, как работает Spawn, как им пользоваться с клиентской точки зрения, как разрабатывать расширения, и приведу несколько примеров.

Читать далее

Ближайшие события

Обучение универсальным навыкам в IT

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.7K

Дисклаймер: вся статья это мнение автора, если вы не согласны или готовы предложить что-то, то прошу в комментарии.

IT охватывают огромный простор навыков и идей, многие из них специфичны и предназчена для узкого круга профессий. При этом существуют навыки, которые или универсальны для всех, или не будут лишними точно. В данной статье пойдет речь про Git, SQL и NoSQL, Linux, базовый азы алгоритмов и структур данных и о английском языке. Дополнительно поставил себе задачу, добавить как можно больше бесплатных или квази-бесплатных ресурсов.

Читать далее

Как использовать Claude в России в 2026: самая полная инструкция

Время на прочтение5 мин
Охват и читатели6.9K

Claude — не просто еще одна языковая модель. Anthropic строила её с другими приоритетами: Constitutional AI вместо RLHF в чистом виде, упор на предсказуемость поведения и качество длинных текстов. На практике это проявляется конкретно: Claude стабильнее держит инструкции на длинных промптах, меньше галлюцинирует на редакторских задачах и лучше конкурентов работает с большими документами.

Для российских пользователей — та же история, что с Gemini и OpenAI: прямой доступ заблокирован, оплата не проходит. Разбираем модель и способы получить к ней доступ.

Читать далее

Пик продаж как стресс-тест для ИТ-инфраструктуры или почему интернет-магазины не выдерживают сезонную нагрузку

Время на прочтение6 мин
Охват и читатели6.4K

По данным исследования, 69% интернет-магазинов в периоды высокого трафика сталкиваются со снижением скорости работы сайта, 38% — со сбоями отдельных функций, а четверть — с полной остановкой сайта. В сезон под ударом вся инфраструктура.

Меня зовут Эдуард, я руковожу отделом DevOps и отвечаю за сопровождение проектов по SLA 24/7 в компании KISLOROD. Сегодня расскажу о том, как пиковая нагрузка системы влияет на интернет-магазины и как готовить бизнес к дню икс.

Читать далее

Спасут ли теперь шапочки из фольги от Старлинка Илона Маска??

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.7K

или опыт кликбейтного заголовка в духе нынешних соцсетей с несколько фривольным изложением весьма серьезных вопросов возможно имеющих далеко идущие последствия  с финальным выводом о грядущем ИИ Апокалипсисе им. И.Э.Маска

Итак, о чем клевещут Западные СМИ : 

On April 30, 2026, the FCC successfully voted to overhaul its satellite spectrum-sharing rules by replacing the outdated Equivalent Power Flux Density (EPFD) framework with a flexible, performance-based interference system. The new rules allow satellite operators to negotiate interference protections directly through voluntary, private agreements.

Key details and implications of the FCC's decision include:

Читать далее

Не только кот: геометрия цвета по Шрёдингеру

Время на прочтение24 мин
Охват и читатели7.3K

Черта между гениальностью и безумием ученого лежит в доказательстве его теорий. И порой от формирования теории ее автором до формирования полноценного доказательства проходят долгие годы. В XIX веке математик Бернхард Риман предположил, что перцептивные цветовые пространства не плоские и не прямые, а изогнутые. В 1920-х годах Шрёдингер развил эту идею, определив оттенок, насыщенность и яркость в рамках римановой модели восприятия цвета, используя метрику, описывающую то, как люди воспринимают различия в цвете. И вот в наши дни ученые из Лос-Аламосской национальной лаборатории (Лос-Аламос, Нью-Мексико, США) провели колоссальную работу, в результате которой им удалось формализовать модель цвета Шрёдингера. Какие аспекты входят в данную модель, какие гипотезы стали ее фундаментом, и как это модель описывает наше цветовое восприятие? Ответы на эти вопросы мы найдем в докладе ученых.

Читать далее

Почему путь к покупке автомобиля стал длиннее: данные опроса покупателей китайских брендов

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.9K

Еще несколько лет назад российский автомобильный рынок выглядел совсем иначе. Сегодня выбор марок и моделей заметно расширился, а вместе с ним изменился и сам процесс покупки автомобиля.

Мы в Авито Рекламе опросили покупателей и выяснили, где они ищут информацию, кому доверяют и что влияет на решение о покупке китайского автомобиля. Результаты показали: путь покупателя стал более исследовательским. Люди изучают больше источников информации, сравнивают больше вариантов и принимают решение постепенно.

Разберем, как выглядит этот путь сегодня.

Читать далее

Собираем эмуляцию USB-устройства с помощью Buildroot с использованием USB Gadget для запуска в QEMU

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.7K

В статье я расскажу, как эмулировать работу USB-устройства без наличия физического устройства. Для этого мы соберем маленький Linux-дистрибутив в Buildroot (~60мб), который с помощью USB Gadget будет притворяться реальным периферийным устройством - Modbus Slave (но можно любым дргим: мышкой, камерой и т.д.). Запустим несколько таких “устройств” с помощью QEMU, подключим их в Windows через USBip.

Читать далее