Обновить
1024K+

Машинное обучение *

Основа искусственного интеллекта

1 378,14
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Секретные команды Claude — миф или реальность: тестируем L99 и /ghost

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.2K

Если вы хоть раз гуглили "как улучшить ответы Claude" - вы точно видели посты про "секретные команды". /ghost, L99, BEASTMODE, /godmode - звучит как читы из игры. Часть из них полная чушь. Но часть реально меняет то как модель отвечает. Сегодня проверяем на практике.

Читать далее

Новости

Разбираемся в ML без воды: от базы до Attention. Часть 11: Градиентный бустинг

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5K

В десятой части при изучении случайного леса мы наткнулись на проблему: переход от одиночного дерева к лесу частично снизил дисперсию, но вопрос со смещением остался открытым.

Сегодня мы перейдем к концепции градиентного бустинга, которая позволяет последовательно сводить смещение к нулю, и заодно разберем, как заставить деревья эффективно учиться на ошибках своих "предшественников".

Читать далее

Anthropic, Fable 5, Claude Code и большой отбор игрушек

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7.3K

9 июня Anthropic выкатила Claude Fable 5, он же Mythos 5 в закрытом контуре. 12 июня доступ к обеим версиям сняли. А между этими датами уместилось столько, сколько иная модель не набирает за год жизни: скрытое ухудшение ответов для ИИ-исследователей, крик "Fable взломали и вытащили системный промпт" (пост Pliny в Xархив на GitHub), спор про обходы защит, внезапное хранение данных 30 дней и в финале - директива правительства США.

Читать далее

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели7.2K

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему.

В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально.

Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать.

Спойлер: распознавание оказалось готовым к проду (93.9%), а вот confidence от модели — почти константой, на которой нельзя строить логику. И главная ошибка в калориях пряталась совсем не там, где я её искал.

Читать далее

Графы знаний в юридическом домене: эксперимент с LightRAG (продолжение)

Уровень сложностиСредний
Время на прочтение45 мин
Охват и читатели6.9K

Юридический домен требует понимания многочисленных связей между сущностями, рассеянными по множеству документов. Поэтому кажется, что область знаний, организованная таким образом, идеально может быть представлена в виде графа знаний: связи между нормами, прецедентами и понятиями, рассеянными по тысячам документов, наконец-то перестают теряться.

Современные фреймворки обещают построить такой граф автоматически, в пару команд. Но между "запуском из коробки" и рабочей аналитической системой на практике лежит немалая дистанция.

Это вторая часть практического эксперимента с LightRAG. Разбираем, как оптимизировать "сырой" граф "из коробки" (подробно рассмотрели сам фреймворк, а также провели топологический анализ в первой части) без переиндексации, что показал анализ топологии и центральностей итогового графа, и проверяем на реальных юридических запросах — дает ли RAG-система, построенная на графе знаний, преимущество перед векторным RAG, и где проходят границы этого преимущества.

Читать далее

Один суффикс, чтобы взломать их всех

Уровень сложностиСредний
Время на прочтение27 мин
Охват и читатели7.2K

Градиентные атаки на LLM разнообразны: GCG добавляет абракадабру, AutoDAN добавляет связный текст - но обе они бьют в одно и то же уязвимое место: обе уводят модель с единственного «направления отказа», и одна такая добавленная строка вскрывает любой запрос даже на моделях, которых не видела. Годами учим модели отказывать на вредные запросы, а вся их стойкость висит на одном векторе. Большой иллюстрированный разбор: как несхожие атаки сошлись к одной мысли - refusal direction - и куда уходит фронтир.

Читать далее

Почему тебе нужно стать нейро-панком прямо сейчас

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

Небольшое эссе на тему того, почему сообществу разработчиков надо по максимуму вкладываться в LLM, которые будут свободны от корпорации и государств.

Свою лепту должны внести и ML-исследователи и схемотехники, притом вторые могут быть более важны, ибо от попрания монополий NVIDIA зависит, смогут ли юзеры запускать передовые LLM на персональном железе.

Запустить децентрализацию ИИ

ClustMetaLearn — автоматизация выбора кластеризации через мета-признаки и эволюционный поиск по табличным данным

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели9.3K

Перед исследователем данных, работающим без размеченных ответов, регулярно встаёт задача кластеризации: разбить множество объектов на группы так, чтобы схожие оказались вместе. На первый взгляд всё просто — запустил k‑means, подобрал число кластеров по силуэту, получил результат. Однако практика показывает, что разные алгоритмы (k‑means, GMM, агломеративная кластеризация) дают несхожие разбиения на одних и тех же данных, а внутренние метрики качества (Cluster Validity Indices, CVI) противоречат друг другу. Более того, как показано в масштабных бенчмарках, ни одна из нескольких десятков CVI не является универсально лучшей. Следовательно, для каждого нового датасета приходится вручную перебирать алгоритмы, метрики и гиперпараметры — процесс, который легко занимает часы и не гарантирует оптимального результата.

В данной работе представлена открытая система ClustMetaLearn, реализующая автоматический выбор алгоритма кластеризации, внутренней метрики качества и сужения пространства гиперпараметров на основе мета-обучения (meta-learning). Система вычисляет 20 мета-признаков датасета, включая статистические, информационно-теоретические, проекционные и топологические характеристики (числа Бетти, персистентная энтропия). Двухуровневая мета-модель (CVIsel + AlgRank) ранжирует четыре алгоритма (k‑means, GMM, агломеративная, MiniBatchKMeans) и предсказывает подходящую CVI. Экспериментальная валидация на коллекции из 96 табличных датасетов показала, что правильный алгоритм попадает в топ‑3 рекомендаций в 81% случаев, а сужение диапазонов гиперпараметров сокращает время настройки в среднем на 70% при потере качества менее 1.5%. Система доступна в виде CLI-утилиты и веб-приложения (Django, Celery, MLflow).

Читать далее

У вайбкода два пути: Code-подписка и API

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели16K

Последнее время гоняю разные кодовые агенты во всех позах и форматах на моём домашнем *Claw-подобном харнес Coddy Agent, практикую как интеграции разных кодовых агентов и апишек в агента для вайбкода, так и разработку кода этого агента разными инструментами, то бишь вайбкожу его ими.

Между делом решил разобраться с экономикой и ценами, какие на рынке есть подписки, сколько они стоят и где есть специальные тарифы для кодовых агентов, которые можно было встроить в свой харнес, по ходу дела получился данный обзор.

Читать далее

Ключевые основы автоматического выбора алгоритмов кластеризации мультимодальных данных на основе мета-обучения

Уровень сложностиСредний
Время на прочтение31 мин
Охват и читатели8.3K

Задача кластеризации относится к классу «обучения без учителя» и является фундаментальным инструментом exploratory data analysis (разведочный анализ данных). В отличие от классификации, здесь отсутствует размеченный набор данных или какая-либо заведомо известная информация о нём. Алгоритм самостоятельно выявляет критерий группировки объектов, и именно в этой самостоятельности кроется ключевая проблема: отсутствие априорной разметки делает оценку результатов крайне субъективной, так как разные алгоритмы обладают уникальным индуктивным смещением (inductive bias), проецируя различные предположения о геометрии и плотности скрытых классов. Универсальный алгоритм, который подходит для всех задач, построить невозможно (теорема Клейнберга, являющаяся следствием более общей теоремы о «бесплатном обеде»), поэтому алгоритмы кластеризации нужно подбирать и настраивать почти для каждой задачи отдельно. Задача выбора и настройки алгоритма машинного обучения является экспертной, что достаточно затратно по времени, поскольку работа выполняется человеком фактически вручную.

Особую сложность представляет кластеризация мультимодальных данных. В прикладных областях, таких как биоинформатика, анализ медиа-контента, медицинская диагностика и мониторинг сложных технических объектов, данные чаще всего представлены в мультимодальном виде. Это означает, что каждый анализируемый объект одновременно описывается гетерогенными источниками информации — структурированными числовыми векторами, неструктурированными текстами, изображениями или временными рядами. Ключевой сложностью при построении систем автоматической кластеризации для мультимодальных данных является разработка эффективного способа слияния (fusion) разнородных признаковых пространств с сохранением уникальной внутренней структуры каждой модальности.

Читать далее

Я научил небольшой Transformer генерировать цифры одной нитью

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.3K

Наверняка вы видели портреты, собранные из одной нити, натянутой между сотнями гвоздей. Я решил проверить: можно ли научить нейросеть генерировать не готовую картинку, а инструкцию, по которой такая картинка строится?

Я провел простой эксперимент и превратил цифры MNIST в последовательности переходов между 256 гвоздями и обучил небольшой Transformer продолжать путь нити. В результате модель выдаёт не PNG, а JSON-траекторию, которую можно отрисовать в любом разрешении - или потенциально передать физической string-art установке.

Код выложил на GitHub

Читать далее

Что такое контекстное окно и почему модели забывают

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.2K

Ты час разговариваешь с ChatGPT. Даёшь контекст, объясняешь задачу, уточняешь детали. А потом модель вдруг начинает противоречить тому, что говорила раньше. Забывает имя персонажа которое ты указал в самом начале. Спрашивает то, о чём вы уже договорились.

Первая реакция - что-то сломалось. Но это не баг. Это фундаментальное ограничение архитектуры, у которого есть название и объяснение.

Читать далее

Пять LLM-провайдеров через один openai-клиент

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели5.9K

У нас почти каждая заметная операция в продукте идёт через LLM: генерация follow-up, сборка КП, скоринг, саммари звонков. Пока провайдер один — это бомба замедленного действия. Он ложится по 503, упирается в рейт-лимит, или цена улетает, потому что дешёвый разбор команды почему-то крутится через флагманскую модель.

Поэтому мы сделали тонкий роутер. Не фреймворк, не «оркестратор агентов» — примерно 500 строк на NestJS, которые переезжают между нашими продуктами без правок. Расскажу, что внутри и на чём набили шишки.

Читать далее

Ближайшие события

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.2K

На связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru. Один из самых частых вопросов от бизнеса: «Сколько и какого железа нужно, чтобы развернуть ИИ-агента у нас на серверах?».

В новом on-premise проекте нам нужно было оценить, сколько одновременных диалогов вытянет связка из двух RTX Pro 6000 Blackwell и модели GPT-OSS-120B. Популярный калькулятор пообещал 5000 токенов в секунду, но реальность оказалась в 5 раз медленнее!

В статье рассказываю, как правильно считать ресурсы под LLM, почему формулы ломаются на нестандартном железе и как мы устроили хардкорный краш-тест, чтобы дать заказчику железные гарантии.

Читать далее

Рождение LLM: история, которую мало кто знает

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели11K

Когда люди слышат "языковая модель", у большинства сразу всплывает ChatGPT, Gemini, ну или на худой конец что-то связанное с Яндексом. Но мало кто задумывается - а с чего вообще всё началось? Кто первым решил, что машина может понимать текст не по шаблону, а по-настоящему?

Я попробую рассказать эту историю без лишнего академизма - просто, но честно.

Читать далее

Промпты, RAG, LLM-тюнинг, Harness… Идём дальше?

Время на прочтение9 мин
Охват и читатели16K

Автономная диагностика СУБД требует от LLM-агента не просто генерации текста, а точной последовательности действий: сбора телеметрии, анализа планов запросов и блокировок. Мы провели эксперимент по оптимизации окружения ИИ-агента (Virtual DBA) для Postgres. Использовав механизм записи и ускоренного воспроизведения реальной нагрузки (record/replay), мы запустили эволюционный поиск по пространству параметров среды — от изменения промптов до перекомпоновки шагов анализа и MCP-инструментов. Результаты показывают, как автоматический выбор конфигурации влияет на качество диагностических выводов и почему избыток доступных инструментов может ухудшить итоговый вердикт.

Читать далее

Алгоритмы векторного поиска: IVF и HNSW

Уровень сложностиСложный
Время на прочтение17 мин
Охват и читатели9K

В данной статье я хочу пройтись по двум самым популярным алгоритмам векторного поиска, используемым на практике. Попробуем понять, почему точный поиск не работает в высоких размерностях и почему мы в итоге приходим к приближенному поиску.

Заодно мы затронем тему метрик, чтобы понять, как вообще сравнивают эмбеддинги. Рассмотрим вспомогательный и очень простой алгоритм k-means из классического ML’а, лежащий в основе IVF.

И наконец, подробно разберем два самых главных алгоритма IVF и HNSW с примерами их реализации на Python’е.

Читать далее

LLM написала, человек одобрил, никто не понял: откуда на самом деле берётся нечитаемый код

Уровень сложностиСредний
Время на прочтение26 мин
Охват и читатели9.3K

Код работает, тесты зелёные — а читать его невозможно.

Документация «содержит всё» — а в голове после неё не остаётся ничего.

Привычный диагноз «плохо обучили» объясняет не всё: человек и LLM мыслят по-разному устроенными механизмами, и значительная часть «низкого качества» — это столкновение двух когнитивных архитектур.

Где на самом деле предел внимания LLM, почему у человека сложность болит, а у модели нет, и кто в системе «человек + LLM» заметит момент потери контроля.

Спойлер: никто.

Узнать, где теряется понимание

Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинул

Уровень сложностиСложный
Время на прочтение12 мин
Охват и читатели6.5K

Я собрал четыре модели в один батч — две Gemma, DeepSeek V4 Flash и Qwen3-235B — потому что не поверил кросс-сессионным данным: выходило, что маленькая Gemma обошла большую. В честной очной ставке сюрприз развеялся, обе Gemma оказались вровень. Зато всплыло другое. DeepSeek V4 Flash, который у меня числился на 83, выдал 89 — был недооценён на 6 баллов. А Qwen3-235B-A22B-2507 — модель, вышедшая 21 июля 2025 года, — снова взяла первое место по цене/качеству. Почти год прошёл: Gemini прыгнул с 57 до 97, DeepSeek я перетестировал трижды, MiniMax все хвалят как ровню Opus. А этот июльский чекпойнт просто держит трон, и я уже почти обижаюсь за прогресс. В статье: разбор очной ставки, хронология ретестов одной модели за год, новый критерий — скорость генерации, ещё восемь моделей июня, непопулярное мнение про раскрутку MiniMax и две новые колонки на лидерборде.

Читать далее

Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.5K

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники.

В статье рассмотрим современные методы атак на AI и ML-системы, расскажем про практическое применение MITRE ATLAS для моделирования угроз и выстраивания защиты через четыре системных элемента: AI Среда, AI Платформа, AI Модель и AI Данные.

Читать далее
1
23 ...