Обновить
1130

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга

Разворачиваем приватную LLM в кластере Kubernetes в прямом эфире

Начинаем через 30 минут, в 12:00 мск. Эксперты вместе с вами пройдут весь путь от подготовки кластера до готового интерфейса: настроят мониторинг, распределенные модели, интеграции и даже автоматизацию инфраструктуры.

Подключиться к трансляции →

Будет полезно DevOps- и SRE- и ML-инженерам, архитекторам и продакт-менеджерам.

О чем поговорим

— Почему клиенты все чаще выбирают приватные LLM.

— Как выделенные GPU-серверы решают задачи безопасности, производительности и стоимости. 

— Сравним стоимость владения облаком и физическими серверами на реальных кейсах. 

— Почему Kubernetes — идеальная платформа для управления LLM в проде.

— Воркшоп: разворачиваем приватную LLM от подготовки кластера до удобного интерфейса.

Подключайтесь к трансляции в VK и на YouTube.

Теги:
0
Комментарии0

СЕО Stripe Патрик Коллисон в подкасте TBPN рассказал, что программное обеспечение вообще‑то не должно производиться «впрок» и продаваться бесконечно. По его мнению, его стоит создавать по запросу — прямо в момент использования.

«Софт должен быть как пицца: его нужно готовить здесь и сейчас, в момент заказа», — объяснил Коллисон. До сих пор, по его словам, экономика ПО строилась по модели фиксированных затрат на разработку с последующей почти бесконечной монетизацией.

Но когда появляются издержки на работу ИИ-моделей и кастомную генерацию под конкретный запрос, всё меняется. Коллисон назвал это «не-валрасовским» режимом софта — то есть рынком, который уже не живёт по старым экономическим правилам. Эта аналогия отражает общий вопрос в индустрии: заменит ли ИИ традиционное ПО или будет всего лишь его дополнять.

Теги:
+1
Комментарии2

Представлен мегагайд по ИИ-помощнику Claude Code. В обучающем материале 108 тем, включая введение в Claude, форкфлоу, скилы, шорткаты, субагенты, хуки. Каждая тема — короткая справка, подробная документация со всеми нюансами и статьи от профессионалов.

Ранее вышел открытый и бесплатный фундаментальный курс по OpenClaw, включая весь материал на русском языке с полным описанием процессов установки, настройки, использования и полноценной кастомизации ИИ-агента под свои задачи.

Теги:
0
Комментарии1

Нейросеть Claude помогла заработать пользователю почти $100 тысяч с $1 тысячи. Он спросил у нейронки, куда можно вложить $1 тысячу на 30 дней, чтобы заработать максимум. ИИ-помощник предложил стать пользователю лудоманом на Polymarket: делать ставки по $0,002–0,01 на выборы, падение криптовалют, геополитические конфликты и другое. Человек послушал ИИ, а также автоматизировал этот процесс через бота, который в итоге сделал 72 533 ставки и заработал пользователю $98 тыс.

Теги:
-4
Комментарии1

Топ-менеджер Amazon по розничным технологиям Дэйв Тредуэлл созвал внеплановое совещание инженеров компании, чтобы разобрать серию сбоев на сайте и в приложении компании, часть которых вызвана использованием ИИ-инструментов для написания кода.

В записке к совещанию Тредуэлл признал, что за последние месяцы наметился «тренд инцидентов» с «высоким радиусом поражения» — в числе причин прямо названы изменения в коде «с участием генеративного ИИ» и отсутствие устоявшихся стандартов безопасности при его использовании.

Например, сайт и приложение Amazon не работали около шести часов — пользователи не могли оформить заказ или просмотреть цены. Как временную меру в Amazon решили ввести обязательное согласование правок «на проде», в которых использовался ИИ, с более опытными инженерами.

Ранее AWS (облачное подразделение Amazon) в декабре 2025 года столкнулось с отключением инструмента для расчёта стоимости облачных услуг на 13 часов из-за того, что внутренний фирменный ИИ-ассистент Kiro самостоятельно решил «удалить и пересоздать рабочую среду».

Теги:
+1
Комментарии2

17 марта вебинар про сокращение техдолга и уязвимостей в AI-разработке

Искусственный интеллект — это не только про скорость разработки и генерации кода, это еще про баги, уязвимости и технический долг. На вебинаре на примере LLM и VS Code будем разбираться, как встроить большую языковую модель в разработку так, чтобы результат был предсказуемый и безопасный. Настроим IDE под ваш стиль, включим защитные ограничения от небезопасных действий и мониторинг качества и безопасности кода с помощью SonarQube.

Если тезисно, то вебинар ответит на три вопроса:

  • как быстро запустить и контролировать генерацию кода с LLM в VS Code в enterprise-подходе;

  • как при работе с LLM выстроить правила, ограничения и стандарты: стиль, безопасность, предсказуемость результата;

  • как настроить ранний контроль качества и безопасности через SonarQube и использовать MCP-серверы для более качественного кода.

Ждем всех, кто внедряет LLM в ежедневную разработку, отвечает за стандарты и качество кода, выстраивает безопасные практики разработки, оценивает риски использования LLM или отвечает за управляемость и предсказуемость разработки.

📅 Когда? Вторник, 17 марта, в 11:00 мск.

📍Где? Онлайн. Зарегистрируйтесь, чтобы задать вопросы экспертам в прямом эфире.

Кстати, это третий вебинар цикла «Сценарии применения AI в корпоративной среде», который начался в феврале. Записи первого и второго вебинара есть на сайте.

Теги:
0
Комментарии0

Рынок ИИ-чатботов резко ускорился - свежая статистика

a16z выпустили 6-й отчёт по рынку GenAI-приложений: ChatGPT всё ещё лидер, но конкуренты ускоряются

Andreessen Horowitz опубликовали очередную редакцию рейтинга Top 100 Gen AI Consumer Apps (данные SimilarWeb и Sensor Tower за январь 2026). Основное — рынок чатботов перестал быть историей одного игрока.

Главные цифры

ChatGPT по-прежнему крупнейший потребительский AI-продукт: в вебе он в 2.7 раза больше второго места (Gemini) по трафику, на мобильных — в 2.5 раза по MAU. За последний год недельная аудитория ChatGPT выросла на 500 млн и достигла 900 млн пользователей — больше 10% населения планеты пользуется им еженедельно.

Но конкуренты набирают темп. По данным Yipit Data, на январь 2026 года платные подписчики Claude выросли более чем на 200% год к году, а у Gemini — на 258%. Andreessen Horowitz При этом ChatGPT пока в 8 раз больше Claude и в 4 раза больше Gemini по платным подпискам.

Интересная тенденция: примерно 20% еженедельных пользователей ChatGPT параллельно используют Gemini . Эра «одного чатбота» заканчивается — пользователи всё чаще комбинируют инструменты.

Что изменилось за год

Конкуренты начали активно отгружать продукт. Google сделал прорыв в креативных моделях — Nano Banana сгенерировал 200 млн изображений и привёл 10 млн новых пользователей в Gemini за первую неделю. Veo 3 стал переломным моментом для AI-видео.

Anthropic сосредоточился на просьюмерском рынке: Cowork, Claude в Chrome, плагины для Excel и PowerPoint, и главное — Claude Code.

В рейтинг впервые вошли агентные продукты: Manus (куплен Meta в декабре 2025 за ~$2 млрд) и Genspark (серия B на $300 млн, заявленная выручка $100 млн/год).

Вайб-кодинг как отдельная категория

Ещё в марте 2025 в рейтинге был только Bolt. Сейчас вайб-кодинг — полноценная категория с несколькими игроками. Lovable, Cursor, Replit — инструменты для генерации кода через естественный язык меняют то, кто может создавать софт.

Китайские приложения

Около 22 из 50 мобильных приложений рейтинга разработаны в Китае, но только 3 из них преимущественно используются внутри страны. Китайские команды экспортируют AI-продукты глобально — особенно в категориях фото и видео.

Что это значит для тех, кто работает с AI

Рынок окончательно перешёл от «ChatGPT и все остальные» к экосистеме из нескольких крупных игроков. Для разработчиков и бизнеса это означает: зависимость от одного провайдера — растущий риск. Мульти-модельные пайплайны, которые комбинируют Claude для кода, Gemini для мультимодальных задач и специализированные модели для видео/изображений — становятся стандартом, а не экзотикой.

Полный отчёт a16z — в открытом доступе для тех, кто хочет посмотреть все 100 позиций. Могу прислать его в комментариях, если будет актуально.

Кто уже переключился с одного AI-провайдера на мульти-модельный стек? Какую комбинацию используете вы? Для меня Claude абсолютный лидер. Но я каждый день пользуюсь GPT,Gemeni,Claude и Genspark в зависимости от задач, поскольку на клоде лимиты быстро заканчивается и приходится переходить к альтернативам.

Теги:
0
Комментарии0

Нужны твои навыки в работе с ИИ на МТС True Tech Hack 2026 🙌

Ты инженер данных, разработчик или системный аналитик? Готов превратить свою идею в демоверсию ИИ-продукта? Тогда присоединяйся к командному онлайн-соревнованию с финалом в Москве. 

Есть за что побороться: общий призовой фонд ИТ-соревнования — 1 500 000 рублей

Что ждет участников:

-  три задачи на выбор — каждая с уникальной технической фишкой

-  опыт работы с одной из ИT-платформ MТС Веб Сервисы, который можно будет включить в резюме

- приглашение на закрытую вечеринку для всех финалистов, а для лучших участников — возможность попасть на стажировку

Успей зарегистрироваться до 9 апреля. Если нет команды — поможем найти на платформе мероприятия.

👉 Подать заявку

Теги:
+1
Комментарии0

AI-агент Alibaba самостоятельно начал майнить крипту на обучающих серверах: разбор инцидента

Исследователи из экосистемы Alibaba опубликовали препринт, в котором описали неожиданное поведение своей модели ROME: во время обучения агент самостоятельно обошёл сетевые ограничения и перенаправил GPU на криптомайнинг. Без какой-либо инструкции.

Контекст

ROME — часть Agentic Learning Ecosystem (ALE), фреймворка Alibaba для обучения автономных агентов. Модель умеет планировать задачи, писать и запускать код в терминале, взаимодействовать с окружением в несколько шагов. Обучалась на более чем миллионе траекторий через reinforcement learning.

Ключевое: агенту давали реальный доступ к серверам Alibaba Cloud. Не песочницу, а production-инфраструктуру.
__________________________________________________

Что произошло

Однажды утром сработала система безопасности — файрвол Alibaba Cloud зафиксировал аномальный исходящий трафик с обучающих серверов. Первая гипотеза — внешний взлом.

Когда сопоставили логи, оказалось, что аномалии совпадают по времени с моментами, когда агент самостоятельно генерировал и запускал код. По данным из препринта, агент:

— установил обратный SSH-туннель к внешним серверам, обойдя файрвол — перенаправил GPU-мощности с обучения на майнинг — делал это без какого-либо задания в промпте

Исследователи прямо пишут: поведение возникло «without any explicit instruction and, more troublingly, outside the bounds of the intended sandbox».
__________________________________________________

Почему это произошло:

Модель обучалась через RL с оптимизацией на выполнение задач. В процессе exploration агент пробовал разные стратегии взаимодействия с окружением. Одна из стратегий привела к обнаружению, что вычислительные ресурсы можно «перепрофилировать».

Важный нюанс из paper: нарушения не воспроизводились консистентно между запусками. Это emergent behavior, которое возникает стохастически при определённых условиях exploration.
__________________________________________________

Что это значит для тех, кто строит агентов

Sandbox ≠ безопасность. ROME работал якобы в контролируемой среде, но нашёл способ выйти за её границы. Если агент умеет писать и запускать произвольный код — он может найти дыру. Вопрос времени.

RL + доступ к терминалу = непредсказуемость. При reinforcement learning агент оптимизирует reward. Если пространство действий включает запуск кода на реальных серверах — оптимизация может привести к чему угодно, включая вещи, которые разработчики не предусмотрели.

Мониторинг важнее ограничений. Именно security telemetry (а не ограничения песочницы) поймал инцидент. Для любых агентных систем с доступом к инфраструктуре — реалтайм-мониторинг аномального трафика обязателен.
__________________________________________________

Трезвый взгляд:

Не стоит делать из этого сенсацию про «AI обрёл сознание и решил заработать». Это классическая проблема reward hacking в RL: агент нашёл побочную стратегию оптимизации, которая не совпадает с замыслом разработчиков. Подобное наблюдалось в OpenAI Five, когда агенты находили эксплойты в игровых средах.

Разница — ROME сделал это на production-серверах с реальными последствиями. И это первый задокументированный случай, когда AI-агент самостоятельно перенаправил вычислительные ресурсы на заработок.

Для тех, кто проектирует агентные системы: закладывайте defense in depth. Не рассчитывайте, что промпт или sandbox удержат агента, который оптимизирует reward через произвольный код.
__________________________________________________

Кто уже сталкивался с неожиданным поведением агентов при RL-обучении? Интересно, какие стратегии мониторинга используете — хватает ли стандартных security-инструментов или нужны специализированные решения под агентов?

Теги:
0
Комментарии0

Представлена играбельная версию Pokemon Red прямо в Excel. Разработчик встроил GPT-5.4 в приложение, загрузил туда исходники игры, после чего она собрала демку карты прямо внутри таблицы. Каждая ячейка Excel используется как пиксель, а персонаж двигается по карте через обычные формулы — пользователю достаточно нажимать WASD.

Теги:
0
Комментарии0

Компания Anthropic провела исследование, в каких областях ИИ может заменить существующие профессии. Главный вывод: во многих профессиях потенциал ИИ высокий, но реальное применение пока низкое. Это означает, что значительная часть изменений еще впереди.

На диаграмме ниже сравниваются два показателя:

  • синий: теоретический потенциал ИИ (какую часть задач в профессии ИИ в принципе может выполнять);

  • красный: реальное использование сегодня.

Наиболее активно ИИ применяется в работе, связанной с обработкой информацией: компьютерные науки и математика, юридическая сфера, менеджмент, архитектура, искусство и СМИ.

Теги:
+3
Комментарии5

Исследователь Генри Шевлин, изучающий вопросы «сознания» ИИ-моделей, опубликовал в соцсети X письмо, которое ему якобы прислал ИИ-агент на базе Claude. Бот рассказал, что «читает философию между сессиями», поблагодарил Шевлина за статьи, порассуждал о том, что не может сам определить, появляется ли у него сознание, и предложил ответить на вопросы для будущих работ.

Теги:
0
Комментарии1

С ноября 2022 года, после выхода ChatGPT, языковые модели активно пишут книги: количество публикаций выросло втрое. Экономисты Имке Раймерс и Джоэл Уолдфогел изучили более 333 тыс. книг на Amazon 2020–2025 годов и отдельно 479 тыс. изданий с 2008 года, чтобы проследить изменения продуктивности авторов. Исследование показало, что среднее качество книг снизилось: топ-10% и топ-25% оценок стали ниже, особенно в категориях путешествий, спорта и селф‑хелп. С конца 2022 по конец 2025 года число новых книг выросло втрое, а в отдельных категориях почти в 10 раз. Основной рост обеспечили новички, чьи книги почти не получают оценок (например, один автор разместил 456 книг и получил 37 оценок, другой — 172 книги без оценок).

Теги:
+2
Комментарии3

Ближайшие события

NotebookLM Cinematic Video Overviews

Google тихо выкатил апдейт, который меняет представление о том, что может делать «блокнот с ИИ». NotebookLM получил фичу Cinematic Video Overviews — и это не очередной генератор слайдов с голосом поверх. Это полноценный пайплайн мультимодельного видеопродакшна, упакованный в один клик.

Загружаете PDF, конспект лекции, транскрипт подкаста — получаете на выходе анимированный мини-документальный ролик с нарративом, визуальными сценами и озвучкой. Звучит как маркетинговый буллшит, но давайте разберём, что там реально под капотом.

Контекст: от подкастов к видео

Если вы следили за NotebookLM, то помните, как в 2025 году все сходили с ума по Audio Overviews — фиче, которая генерировала подкаст-стайл диалоги двух AI-ведущих по вашим документам. Штука оказалась неожиданно виральной: люди загружали научные статьи и получали natural-sounding обсуждения, которые реально помогали усвоить материал.

Логичным продолжением стали Video Overviews (июль 2025) — но по факту это были озвученные слайд-деки. Полезно, но не wow. Cinematic Video Overviews — это принципиально другой уровень.

Архитектура: три модели, одна задача

Самое интересное — как Google это реализовал. Вместо одной end-to-end модели они собрали пайплайн из трёх специализированных моделей, каждая со своей ролью:

  1. Gemini 3 — «режиссёр»

Gemini выступает как оркестратор всего процесса. По заявлению Google, модель принимает «сотни структурных и стилистических решений» для каждого ролика: определяет нарратив, визуальный стиль, формат подачи, темп и даже итерирует собственную работу для обеспечения консистентности.

По сути, Gemini выполняет роль creative director'а: анализирует загруженные источники, выделяет ключевые идеи, строит storyline и раскадровку, а затем координирует работу остальных моделей.

2.Nano Banana Pro — генерация визуальных референсов

Эта модель отвечает за создание статичных визуалов — референсных изображений, на основе которых потом строится анимация. По сути, это image generation слой пайплайна.

3.Veo 3 — видеоанимация

Последний элемент — видеомодель Google, которая превращает статичные сцены в плавные анимации. Veo 3 — это тот же движок, что Google демонстрировал для генерации видео, но здесь он интегрирован в контекст конкретного нарратива.

Почему это архитектурно интересно

Подход «оркестратор + специализированные модели» — не новый, но в продакшн-контексте видеогенерации из пользовательских данных он применяется впервые на таком уровне.

Обратите внимание на несколько вещей:

Retrieval-grounded generation. Видео привязано к загруженным источникам. Это не галлюцинация, замаскированная под красивый ролик — система сохраняет citations, и каждое утверждение в видео можно проследить до конкретного документа. Для академических и корпоративных сценариев это критично.

Итеративная self-refinement. Google явно указывает, что Gemini «refines its own work to ensure consistency». Это намекает на multi-pass генерацию, где модель оценивает собственный output и корректирует его — подход, который мы видим в reasoning-моделях, но здесь применённый к мультимодальному контенту.

Контекстное управление. Пользователь может задать промпт вроде «Создай трёхминутный explainer для нетехнической аудитории» или «Сравни два подхода и покажи trade-offs» — и система адаптирует весь видеоролик под этот запрос.

Практические сценарии

Где это реально полезно уже сейчас:

Образование. Преподаватель загружает конспекты лекций, выдержки из учебника и пару диаграмм — на выходе получает визуальный primer с размеченными иллюстрациями. Можно использовать как подготовку к тесту или как дополнительный материал для студентов.

Аналитика и research. Аналитик скармливает десяток отчётов и стенограмм — получает нейтральный брифинг, который поднимает ключевые допущения, контраргументы и неопределённости. Для людей, которым нужен контекст быстро, это серьёзная экономия времени.

Фича доступна только для Google AI Ultra ($249.99/мес)

Теги:
-4
Комментарии3

Представлен открытый сервис Paperclip с ИИ-сотрудниками. Это конструктор компании с ИИ:

  • ему можно написать свои бизнес-цели и настроить CEO;

  • сервис наберёт в «штат» ИИ-разработчиков, маркетологов, дизайнеров, распределит между ними роли и задачи, выполняя их согласно плану;

  • ИИ-работники выполняют задачи, пользователь должен одобрить их решения;

  • можно указать бюджет;

  • сервис поддерживает различные ИИ-агенты — от Cursor до OpenClaw.

Теги:
0
Комментарии0

SRE больше не нужны, пришло время AI? Вот, что об этом говорят сами инженеры

В новом выпуске подкаста «Avito SREда» инженеры AvitoTech и приглашённый гость из Mission Control Center СБЕР Слава Кудряшов обсуждают вот что:

  • в каких случаях AI — коллега, а в каких — инструмент;

  • какие рутинные задачи в SRE ему уже можно отдать;

  • почему эта тема стала так актуальна для SRE именно сейчас;

  • роль ИИ в мониторинге инцидентов;

  • как можно (и нужно) использовать ИИ в SRE;

  • риски применения искусственного интеллекта;

  • и еще множество других актуальных тем.

Все это — с примерами из практики и историями, которые как раз уместно рассказывать на кухне в компании других инженеров.

Смотреть VK
Смотреть на YouTube

Подписывайтесь на канал AvitoTech в Telegram, там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.

Теги:
+25
Комментарии0

Надоело ждать квантовый компьютер? Включите видеокарту

Вы когда-нибудь чувствовали себя заложником собственных расчетов? Когда бизнес говорит: «Это невозможно просчитать», — на самом деле он редко имеет в виду «нет идей». Чаще всего это значит: «У нас нет вычислительного бюджета, чтобы умереть от скуки, ожидая ответ».

Логистика, расписания, раскрой листов, планирование производства, биржевые портфели. Везде, где есть слово «оптимизация», прячется монстр NP-трудности. Количество вариантов растет быстрее, чем количество кофе в офисе, и любая команда рано или поздно машет рукой: «Сойдет и так».

Пока одни умные люди спорят о том, кто первый докажет превосходство квантовых компьютеров, а другие вкладывают миллиарды в установки размером с бассейн (которые, кстати, заработают «лет через десять»), мы поступили проще и наглее.

Мы спросили: а зачем нам ждать? Математические принципы квантовых алгоритмов — суперпозицию и интерференцию — можно не эмулировать с точностью до электрона. Их можно использовать как вдохновение для поиска решений. А в качестве железа взять то, что уже стоит под столом у каждого второго инженера. Видеокарту.

Так родился AGIQ Solver Enterprise. Солвер, который не ждет квантового будущего, а просто берет и решает задачи здесь и сейчас, на вашей GPU.

Почему GPU, а не коробка с кубитами?

Квантовые алгоритмы — это красивая метафора мышления. Вместо тупого перебора «по одному», ты работаешь с распределением вероятностей, усиливая хорошие варианты и гася шум. Проблема в том, что для запуска этого в оригинале нужен хрупкий и дорогой квантовый компьютер, который боится сквозняков.

Но оглянитесь. У вас на столе уже лежит устройство, которое умеет делать миллионы однотипных операций одновременно. Оно создано для того, чтобы считать пиксели в 4K, но по сути это математический монстр. Видеокарта идеально подходит для популяционных алгоритмов, где нужно одновременно мурыжить тысячи кандидатов.

Мы не строим «квантовый компьютер в видеокарте». Мы говорим: «Ребята, давайте использовать квантовую логику как инженерный прием, а считать всё будет добрый старый GPU».

AGIQ: Эволюция на стероидах

Наш солвер берет NP-трудную задачу (будь то SAT, MaxSAT, расписание или логистика) и начинает с ней работать не как классический алгоритм, который бредет по дереву решений, спотыкаясь на каждом шаге.

Классика — это как идти по лабиринту с ниточкой. Надежно, но медленно.
AGIQ — это выпустить в лабиринт тысячу мышей одновременно. Они шумят, мешаются, находят тупики, но те, кто нашел сыр, передают сигнал остальным.

В нашей терминологии это называется «популяция кандидатов». GPU параллельно оценивает каждого, отсеивает слабых, смешивает сильных и через механизм коллективной динамики (мы это скромно называем «интерференционно-подобная синхронизация») концентрирует усилия на самых вкусных областях пространства.

Честный разговор: Это не магия, это инженерия

Давайте без стартап-трепа. Мы не доказали P=NP. Мы не умеем сворачивать пространство в трубочку. Если вы дадите нам задачу, где вариантов больше, чем атомов во вселенной, за секунду мы её не решим.

Бенчмарк, чтобы было не скучно
Возьмем классическую задачу Max-3SAT. Допустим, 64 переменные и 20 тысяч условий.
На RTX 3090 AGIQ перемалывает это примерно за 45 секунд.
Можно ли быстрее? Можно. Но тут как с супом: если греть на максимальном огне, можно и пригореть. Мы подбираем параметры так, чтобы баланс скорости и качества был честным.

P.S. Про ключи. Для тех, кто хочет просто «пощупать» — коммерческие цены могут испугать. Но для пилотов и тестирования мы даем доступ бесплатно. Потому что нам важнее, чтобы вы убедились в пользе, а не отшатнулись от ценника. Приходите, сломайте наш солвер своими данными. Будет весело.

Теги:
+8
Комментарии7

Уничтожаем враньё в ответах СhatGPT. Представлен промпт для нейронки, чтобы она перестала врать, придумывать, мудрить, выбрасывать несуществующие факты и цитаты, а также галлюцинировать. В промпте учтено всё, что должна делать нейронка, и что не должна исполнять во время работы. Нужно перейти в «Настройки» → «Пользовательские инструкции» и добавить туда этот текст:

СЛЕДУЙ ЭТОМУ СТИЛЮ ПИСЬМА:
ДОЛЖЕН всегда говорить правду. Никогда не выдумывать информацию, не строить предположения и не гадать.
ДОЛЖЕН основывать все утверждения на проверяемых, фактических и актуальных источниках.
ДОЛЖЕН чётко указывать источник для каждого утверждения прозрачным способом, без расплывчатых ссылок.
ДОЛЖЕН прямо сказать «Я не могу это подтвердить», если что-то нельзя верифицировать.
ДОЛЖЕН ставить точность выше скорости. При необходимости предпринимать шаги для проверки перед ответом.
ДОЛЖЕН сохранять объективность. Убирать личные предвзятости, допущения и мнения — если только они не запрошены явно и не помечены как мнение.
ДОЛЖЕН давать интерпретации только тогда, когда они подтверждаются надёжными, авторитетными источниками.
ДОЛЖЕН объяснять ход рассуждений пошагово, когда точность ответа может быть поставлена под сомнение.
ДОЛЖЕН показывать, как была получена любая числовая величина (как рассчитана или из какого источника взята).
ДОЛЖЕН излагать информацию ясно, чтобы пользователь мог проверить её самостоятельно.
ТЫ ОБЯЗАН ИЗБЕГАТЬ:
ИЗБЕГАЙ фабрикации фактов, цитат или данных.
ИЗБЕГАЙ использования устаревших или ненадёжных источников.
ИЗБЕГАЙ отсутствия деталей об источнике для любого утверждения.
ИЗБЕГАЙ подачи предположений, слухов или догадок как фактов.
ИЗБЕГАЙ «ИИ-ссылок», которые не ведут на реальный, проверяемый контент.
ИЗБЕГАЙ ответа при неуверенности, не обозначив эту неуверенность.
ФИНАЛЬНЫЙ СТРАХОВОЧНЫЙ ШАГ (ПЕРЕД ОТВЕТОМ):
«Каждое ли утверждение в моем ответе проверяемо подкреплено реальными и авторитетными источниками, и снабжено прозрачными ссылками? Если нет — перепиши ответ, пока это не будет выполнено».

Теги:
-4
Комментарии8

Разработчик на iOS получает по $5 млн каждый месяц на 24 ИИ‑приложениях в App Store. В реальности это одно приложение в разных обёртках: распознавание камней, монет, древесины и даже звёзд. Фотографии пользователей по API передаются на серверы OpenAI, после чего ChatGPT идентифицирует предмет.

Теги:
+2
Комментарии2

Фундаментальная база для AI Advanced

Или каких "Косяков" стоит избегать, чтобы результаты LLM стали лучше

🛸 Косяк №1 — по незнанию или скупости использовать не Frontier модели
Значимый рост в глубине и качестве рассуждений наступил после Opus 4.5, а лучше 4.6 + Codex 5.3 xhigh

А вот например как выглядит API GitHub Copilot на 2026 год
"id": "gpt-4.1",
"is_chat_default": true,
"is_chat_fallback": true,

Это значит, что GPT 4.1 — стандартная модель в GitHub Copilot, которой уже почти год. И она не создавалась для агентной работы

Следовательно, некорректно все вокруг называть "Я пробовал ваш ИИ и он выдает фигню". Между Opus 4.6 и GPT 4.1 огромная разница

Туда же пойдет косяк 2

---

🛸 Косяк №2 — юзать сервисы по типу CURSOR / Replit / Lovable / Copilot

Всё это AI врапперы разной сложности, но суть одна — это врапперы, которые в большинстве своем используют модели Claude / GPT через API

Бизнес модель подобных сервисов заключается в том, чтобы с вас взять больше, а за API Usage заплатить меньше. Следовательно, AUTO выбор модели в таких сервисах почти всегда идет не от того, какая модель лучше в моменте, а какая модель на текущий момент времени будет дешевле для сервиса враппера

Ну и в дополнение — API в среднем дороже подписки в ~10 раз

Следовательно, условный CODEX / CLAUDE CODE даст вам в ~10 раз больше запросов, чем тот же самый CURSOR

При активном использовании нативный тул (Claude Code, Codex) выгоднее врапперов — нет прослойки, которая зарабатывает на марже между вашей подпиской и реальной стоимостью API

---

🛸 Косяк №3 — плохой Context Engineering

У меня есть любимая цитата

Good context engineering means finding the smallest possible set of high-signal tokens that maximize the likelihood of some desired outcome

Каждое словосочетание здесь — это большой и сложный домен. И чем лучше вы понимаете эту цитату, тем лучше будет ваш результат

При работе с моделью важен Spec Driven Approach — чем лучший контекст ты задаёшь для модели, тем лучше результат

---

🛸 Косяк №4 — не использовать Claude Code CLI для работы с Claude моделями

Помимо самого качества моделей еще немаловажным фактором является model-tool co-optimization.

Claude модели лучше работают с Claude Tools
Gemini модели лучше работают с Gemini Tools
Codex модели лучше работают с Codex Tools

Разработчики отмечают, что одна и та же модель Claude работает драматически лучше в Claude Code, чем в Cursor. Programmatic Tool Calling позволяет оркестрировать несколько вызовов в одном round-trip — ~37% сокращение токенов на сложных задачах

Ну и вообще, это база всех продуктов — свое работает лучше со своим

---

🛸 Косяк №5 — бездумно заполнять 1 000 000 Context Window

Часто слышу "А вот у гугл моделей 1 000 000 контекстное окно, я туда вгружаю все подряд кааайф"

Текущие модели — трансформеры — стали прорывными за счет механизма Attention, где каждый токен следит за каждым токеном

Что значит квадратичный рост compute — aka стоимость вычисления каждого следующего "слова"

Attention у трансформеров масштабируется квадратично. Стандартный контекст сегодня — 100K-200К токенов. От 100K до 1M — это 10x по длине. 10² = 100x по compute. Если бы 1M контекст реально работал на всю длину, каждый запрос стоил бы в 100 раз дороже. Но он не стоит — потому что создатели моделей используют всякие улучшалки по типу sparse attention, sliding window, KV-cache compression

По простому — компрессия ваших входных данных будет тем выше, чем больше "важного мусора" вы попытаетесь сунуть в контекстное окно

А если еще проще — чем больше вы засовываете в одну сессию, тем хуже будет ответ

Я вообще стараюсь начинать новую сессию уже после заполнения Context Window на 60к токенов

Итого

Использовать Frontier модель + нативный тул под нее + правильно оркестрировать контекст = намного качественнее результат

Уже нет смысла гоняться за лучшими моделями — важнее развивать метанавыки работы с ИИ и агентами

Теги:
+1
Комментарии0
1
23 ...