Pull to refresh

Comments 116

А чем занимается компания?

Образовательная. В методологии написано, но кто ж её читает.

Cпасибо! видимо, глаз замылился.

Графики посмотрел, красивое™. Пользователи, конечно, еще те - один МедныйПеликан® чего стОит...

Я все думаю, как в дистрибуторской компании AI применить...

Спасибо за графики.

По дистрибуции — ну, КП под клиента, ответы на "где моя поставка", сейлзам скрипты, договоры проверять. Стандартный набор.

Но это я гадаю. А можно не гадать.

Половина ваших людей уже что-то используют. Спросите — расскажут. Или дайте доступ и через месяц гляньте логи. Там будут не мои фантазии, а реальные задачи.

Половина ваших людей уже что-то используют. Спросите — расскажут.

Угу. директор филиала картинки генерит. и всё. (ну и я научился заставлять железяку помогать в кодинге. Особенно в верстке).

Вот как применять ИИ в обучении - идеи (благодаря хаброветкам и хабросрачам на тему "упадка образования") есть. а вот насчет собственной отрасли (кроме, пожалуй, поддержки заказов) - нет. Но там как раз работа с таблицами. Не миллионы строк, конечно, но 200*300 за раз - норма жизни, да и те обсчитываются математикой.

А "только картинки" — это и есть нормальное начало.

Директор филиала не будет с ходу строить RAG-пайплайн. Он сгенерил картинку для презентации, получилось, запомнил. Через месяц попросит письмо написать. Ещё через месяц — "а можно отчёт пересказать кратко?"

74% в нашем кейсе хоть раз генерили картинки. Включая бухгалтерию. Это не "только картинки". Это точка входа.

"только картинки" — это и есть нормальное начало.

Это "начало" - уже 2 года

Ещё через месяц — "а можно отчёт пересказать кратко?"

а зачем нужны отчеты, которые нужно пересказывать кратко? у нормального отчета должно быть "саммари".

Это точка входа

У нас это так не работает. (я не говорю, что это не работает вообще). Ну и у меня не хватает квалификации, чтобы подготовить массив данных, который люди могли бы анализировать.

Вот сейчас статья про "корпоративные знания" подвигла поглядеть в эту сторону - посмотрим, что получится...

Это не "только картинки". Это точка входа.

В профессию программиста?

Точняк!

Вот как применять ИИ в обучении - идеи (благодаря хаброветкам и хабросрачам на тему "упадка образования") есть. а вот насчет собственной отрасли (кроме, пожалуй, поддержки заказов) - нет.

Кажется есть отдельные режимы работы LLM - гуглить Guided Learning
https://habr.com/ru/companies/bothub/news/934964/
https://claude.com/solutions/education

ответы на «где моя поставка»

Реальность: ИИ отвечает на вопросы недовольных клиентов «где моя поставка»
Ожидание: ИИ всё устроит так, что у клиентов этих вопросов возникать не будет...

Если поставка по виртуальным каналам - тогда проблем не будет. а в реальности на дорогах пробки 10 баллов, с соответствующими проблемами...

В ВЭДе? Там у людей довольно много нагрузки по переводам, и почти все задачи - это работа с уже существующими данными, так что места для галюнов в нейронки немного. Не всё можно светить в облака, конечно, но то, что дозволено - оно как правило довольно побочное, а делать надо. И съедает времени оно не сильно меньше, если не больше основного функционала. Полностью коммуникацию и документооборот нейросеть не заменяет, но режиме вычитки помогает работать сильно быстрее.

Так вот, ИИ отлично справляется с подстрочниками, при условии минимального понимания принципов работы LLM, реализованных в добротном промте и грамотных примерах, плюс помощи в виде классических переводческих практик - ведение глоссариев, прозрачное внесение собственных правок, явные указания по стилистике. По запаре можно применять LLM для быстрой сверки двуязычных текстов. Некоторые инструменты очень помогают переводить презентации, превращенные в растровые PDF файлы. Ещё бы кто-то научил нейросеть верстать это непотребство обратно - я был бы вообще в восторге.

И на самом деле даже с тем, что нельзя светить в облака, часто очень простые локальные модели справяются. Я даже не про DeepSeek V3.2, Qwen3-235B-A22B и GLM-4.7 - эти в задачах на перевод от моделей Google, ClosedAI и Misanthropic почти неотличимы - даже сравнительно пожилая и ужатая Gemma 3 27B Q4 QAT весьма недурно справляется. А есть модели посвежее, есть модели специализированные. Ну красота же?

И бывают вообще комичные случаи. Называется, "никто на языке поставщика не разговаривает, а очень надо")) Тогда выручает метод Розеттского камня: я так малазийцу писал, который по что по-английски, что по-китайски, ну... Вообще никак. В итоге - пишу заготовку по-русскии –> перевод на англ, вычитка-правка + перевод на кит, вычитка-правка, -> перевод с трёх языков разом на малазийский –> вычитка обратного перевода другой моделью. Циферки итак видно, тут ошибки быть не может. Удовлетворительно? Отправляем. А самое смешное то, что дело сдвинулось))

А почему английский-малазийский не работал? Слишком много ошибок? И почему тот же гугл транслейт с обратной проверкой каким-нибудь другим переводчиком не работал?

Вопрос не праздный, я по работе с китайцами и исландцами через гугл транслейт общался, с китайцами даже договор подписали, благо они нашли юристов, которые и на английском нормально шпрехали. И я постоянно думаю, что мб надо переходить на ИИ в деловых переводах, но с другой стороны зачем, если старые переводчики работают...

Там же написано "профиль изменён для защиты данных". То есть на самом деле не образовательная? Средняя зарплата как-то не похожа на учебное заведение...

Под "образовательной" имелось ввиду EdTech. Но, в целом, все равно, потому что и не EdTech.

Мм, замечу, что в терюрисдикции РФ огромные региональные различия. Например, в моих краях зарплаты учителей достигают ₽210 тыс. В глубинке же они могут быть кратно ниже (выше в глубинке вроде только в городе Москве, до ₽300 тыс). 🙂

Подержите мой кофе.... Всегда найдётся такой сотрудник как я и ваш PAYG загонит вас в минуса.

Вот он, Лазурный Дрозд в естественной среде обитания!

Из общения на форуме Delphi-разработчиков, самые лучшие результаты для Delphi даёт Claude Opus 4.5. Причём не тот, который в чатике отвечает, а агент, который сам пишет код по поставленной задаче.

При этом самые продвинутые разрабы, кто распробовал vibe-кодинг, делят проект на подзачачи и запускают сразу несколько агентов, которые пишут код, гоняют тесты, пишут документацию.

В итоге у людей Claude Pro лимиты улетают за несколько дней, переходят на Max 5x либо сразу 20x.

Так что один такой разраб съел бы сразу весь ваш бюджет на AI.

Поддержу, я когда архитектурные вещи создаю, меня сдерживают только лимиты.

Если архитектурная вещь не жесть какая сложная, то даже в настольной 5060ti с 16GB влезает Qwen3-Coder 30B, который, конечно, не Opus, но очень неплох, работает он весьма вразумительно, т.к. MOE. Правда оперативки надо побольше и подождать подольше, то фактически безлимит.

Нет, спасибо, мы с Клодом подружились) Я долго подбирал нюансы и теперь нашел как мне быстро и комфортно, например, я научил его комментировать не очевидные места.

Openwebui + litellm, внешний провайдер + vllm с oss-120b в контуре (для внутренних данных)

Модели дороже 50$ за миллион исходящих отключены, как и генерация картинок

Пока самая большая проблема - длинные чаты, несмотря на объяснения почему большая накопленная история - плохо и как перенести контекст в новый чат - регулярно вижу в litellm запросы по 80-120к токенов, без прилепленных файлов

80-120k токенов в одном чате — это люди не общаются с моделью, это они с ней живут. Там уже отношения, общие воспоминания, планы на будущее.

У нас, кстати, есть предупреждения при длинных чатах. И да, работает — реально экономит деньги.

А какая статистика потребления у вас выходит? Распределение по моделям, активность — совпадает с графиками, или без картинок картина совсем другая?

Litellm oss много дашбордов не отдает, за декабрь четверть запросов была у sonnet 4.5, ~85% всех расходов через openwebui

Данных пока мало, с ноября собираем

80-120k токенов в одном чате — это люди не общаются с моделью, это они с ней живут

Вы же на хабре. К этому размеру чата модель только начинает более-менее адекватно понимать, какой код её просят написать. И доделывает этот код до требуемого вида уже ближе к 150-200k. И хороший результат - если эти 150-200k всё ещё в рамках первого чата, а не третьего по этой же теме с переносом summary предыдущих в начало следующего чтобы продолжить работу после достижения лимита.

Поэтому, кстати, для кода так популярны тарифы с оплатой за запрос, а не за токены.

К этому размеру чата...

...если эти 150-200k всё ещё в рамках первого чата, а не третьего по этой же теме с переносом...

Так а не быстрее вручную написать код?

Нет, не быстрее. Когда быстрее - я пишу ручками. Эти 150k в режиме агента сжираются очень быстро - агент сам туда грузит нужные ему файлы, запускает тесты, etc. и всё это добавляется в контекст. Набранные вручную промпты от этого объёма занимают пренебрежимо малую часть, полагаю около 1k токенов.

По себе могу сказать - если открыть новый чат можно одной кнопкой - то буду пользоваться, если тремя - то нет. Пока в рабочем интерфейсе было подтверждение "Точно создать новый чат? А старый закрыть?" я все вопросы писал в один чат пока тупить не начинало.

А как переносить контекст в новый чат, копированием кусков из старого?

Переносить не надо. Паттерн сам по себе дерьмовый.

Есть https://arxiv.org/abs/2307.03172 — модель хорошо помнит начало и конец контекста, а середину теряет. Уже на 25% заполнения начинается деградация. Чем длиннее чат, тем больше модель "забывает" то, что было в середине.

Копировать куски из старого чата — это тащить мусор в новый дом. Вы переносите не только полезное, но и всю шелуху, которая будет мешать.

Лучше: начать чистый чат, в первом сообщении дать краткое саммари задачи и ключевые вводные. Не историю переписки, а суть. Модель работает лучше, когда важное — в начале, а не размазано по 80 тысячам токенов "контекста".

если работать с веб интерфейсом Клода, то он довольно быстро сам запускает перепаковку и создание саммари. Перезапуск чата когда идет плотная работа со множеством нюансов - это очень большой геморой и потеря контекста, с другой стороны, не каждый и не каждый день создает большие штуки.

Деградация сильно зависит от модели. Например, Claude Sonnet 4, по моим наблюдениям, 120k держит ничего не теряя. А вот всякие GPT-4 - там да, в этом плане всё плохо.

В базовом случае попросить суммировать (детально или не очень), если там код то копировать последнюю версию блока с кодом. Это в принципе можно даже автоматизировать.

а oss-120b на чём запускаете? У меня просто тот же стек на уютном домашнем сервере, подумываю о локальной llm, но есть подозрение, что для нормальной модели потребуется совсем не домашний gpu

Я себе взял для локальных моделей GMKtec EVO-X2 128GB, не самый производительный но за свои деньги отлично.

GPT-OSS-120B там запускается без особых танцев с бубном на llama.cpp. Никакого времени прогрева, распределения в RAM, всё полностью в VRAM (до 96GB максимум), время старта чуть больше времени чтения всей модели с SSD

Если интерес к локальным моделям остынет, останется домашний сервер с быстрыми 128GB RAM

"Тихо, без фанфар" и прочие признаки статьи от ИИ

Ладно, похоже мы теперь больше никогда не увидим статьи от живых людей

Любой текст без ошибок — нейросеть. Любой текст с ошибками — нейросеть притворяется. Выхода нет.

а текст, состоящий из ошибок?

Нейросеть галлюцинирует

Удивительно, наверное, но некоторые именно так и пишут. Люди же разные. К счастью.

Глянул первую статью автора за 2015 - а она лучше написана (как минимум, нет кучи абзацев по 1-2 строки, да и в целом хотя бы читается нормально). Вывод: либо автор за 10 лет деградировал, либо стал использовать ЛЛМ.

Почему «либо», раз уж на то пошло?) Автор, это шутка). Пост написан или его прогнали через LLM, это очевидно

Интересно насколько это правда, что данные через АПИ не используются для обучения

https://openai.com/enterprise-privacy/ с 2023-го. На этом строят enterprise-продажи.

Зачем им врать? Миллиарды запросов от бесплатников и тех, кто сам поставил галочку "делиться" — бери и учи. Рисковать ради тех, кто явно сказал "нет" — смысла ноль, а юридических проблем вагон.

Эта логика в современном мире не работает. Зачем собирать телеметрию со всех Windows в мире, если люди против и если даже сами сотрудники Microsoft говорят, что не могут ее внятно обработать? Зачем включать обратно выключенные галочки и переустанавливать обратно вырезанные сервисы телеметрии, рискуя репутацией и беся пользователей? А прост.

Аргумент понятен. Но разница не в морали — в экономике.

Microsoft — монополия. 73-90% рынка десктопов. Куда ты денешься? На Linux? Удачи объяснить бухгалтерии, почему 1С не работает.

OpenAI — конкурентный рынок. Enterprise доля упала с 50% до 25-27%. Anthropic уже 32%. Switching cost — дни, не годы.

Телеметрия Windows — побочный доход. Скандал с данными у OpenAI — потеря enterprise-клиентов (27-30% выручки). При минусе $9B в год.

Плюс: DPA с правом аудита, SOC 2 Type 2, 30-дневный retention. Это юридические обязательства, не слова на сайте.

Доверять OpenAI не обязательно. Достаточно доверять их жадности.

1C на Linux нормально работает

Для обучения рисковано, могут всплыть в неожиданном месте как вывод бредогенерации. А вот для статистики, выковыривания каких-либо трендов и их продаже рекламщикам и прочим игрокам рынка .. почему нет-то? Помнится авторы ИИ поначалу открещивались что контекст беседы вообще сохраняется.. теперь сами про это пишут. )

64% бюджета — генерация картинок.

Переводить лениво, поэтому под кат

AI экономит 2-5 часов в неделю на сотрудника — Federal Reserve, BCG, Adecco. Power users экономят 9-20 часов.

Если применить эти данные к нашему случаю

А если не применять? Не пробовали как-то замерить именно на вашей компании, сколько экономия? Этот момент самый интересный.

Я это к чему. Это очень важная метрика, сколько денег сэкономили. Но если применять данные от чужого исследования, то 95% статьи можно не читать, а просто посчитать вот эти данные, как вы и сделали. Но вы же не знаете (или знаете?) сколько часов именно ваши сотрудники сэкономили. Как это вообще измерить?

У двух людей в руках может быть одинаковый инструмент, но вот результаты использования... Эффект может возникнуть на слишком далеком горизонте - обучение пользователей, например, процесс не очень быстрый и затратный, если они делом заняты. На такие вопросы для компании бывает очень дорого ответить, а еще хочется знать ответ ДО внедрения, а не после. Поэтому принято ориентироваться при внедрении чего-либо на кем-либо уважаемым подсчитанные цифирьки в отрасли/области и тд, прикинуть-оценить, принять риски и пойти внедрять. После внедрения дается оценка, часто субъективная, либо вообще не про целесообразность, а про освоенный бюджет в срок, либо подогнанная под результат...

Если дать сотруднику доступ ко всем моделям — он будет использовать самую дорогую. Для любой задачи. Даже для «напиши письмо клиенту».

И в чем сотрудник не прав? Клод за 15 баксов действительно заметно лучше пишет письма чем гпт 4о мини за полбакса. Он что по вашему, должен каждый раз думать какую педаль надо нажимать для похожих задач ради экономии копеек? Ах ну да, подписки же нет, надо экономить, а лучше вообще запретить.

Он что по вашему, должен каждый раз думать какую педаль надо нажимать для похожих задач ради экономии копеек?

Кстати, тоже пришла в голову мысль, что неплохо бы сначала пропускать запрос через анализатор, который бы уже исходя из классификации запроса, мог решать, какой именно модели его переадресовать.

Да не нужен уже классификатор ( когда был нужен нормально не работал). Есть уже универсал - gemini 3 flash, всё делает достаточно хорошо и при этом относительно недорого.

Ну это все субъективно. "достаточно хорошо" и "относительно недорого" у каждой компании могут быть разные. Нужна оценка.

Цена известна, чуть дороже самых дешевых. Оценка тоже известна, топ 3 в общем мировом зачете во всех тестах. Это не точная оценка, но видно что на таком уровне нет смысла даже сравнивать с кем то.

да я даже между соннет и опус начал думать тем более что то он часто стал переключаться, но у меня подписка, меня только лимит смущает

Решение в умном роутинге. Интерфейс должен сам выбирать модель в зависимости от сложности промпта. Короткий запрос - Haiku/Mini. Длинный и сложный - Sonnet/GPT4. Пользователю вообще не надо об этом думать

По длине что ли? Я бы сказал, что длинные задачи часто самые простые, уровня "повтори по образцу"

Не в лоб по длине, отдельная модель-роутер, которая оценивает запрос и меняет модель для ответа. Это то, как работает GPT-5 в авто режиме ChatGPT (не конкретная модель, у них система с роутером просто так называется тоже)

Подписки как раз и ломают мотивацию выбирать. Когда платишь за каждый запрос то архитектура доступа решает всё. Один дефолт может сэкономить больше, чем любые инструкции

В сентябре компания перешла с GPT Image на Gemini. Тихо, без фанфар. Миграция заняла день. 30 599 запросов через Gemini за 4 месяца. Если бы остались на GPT — заплатили бы $13 558. Заплатили $1 621. Экономия: $11 936.

А были какие-то метрики удовлетворенности каждой отдельной сессией общения?
Есть ощущение, что она могла значительно упасть вслед за переходом.

Например До был сценарий:
- Сгенерируй картинку "промпт1" (В целом норм но нужно уточнить)
- Сгенерируй картинку "промпт2" (Уже почти, вот еще чуть-чуть)
- Сгенерируй картинку "промпт3" (Ну в целом то что нужно, можно брать и использовать)

А После стал сценарий
- Сгенерируй картинку "промпт1" (Блин, чет фигня. Как бы по-другому сформулировать)
- Сгенерируй картинку "промпт2" (Ну не знаю, может еще как-то надо иначе)
- Сгенерируй картинку "промпт3" (Не, ничего не выходит, пойду делать руками/заказывать)

Утрирую конечно, но тема cost-efficiency не раскрыта.

вот-вот, с одной стороны мы тут обсуждаем, какое офигенное ROI, а с другой, а с другой нас покусали финансисты и мы все пытаемся крохоборить.. А то, что у аналитика Васи, код на питоне криво работает (или вообще задача не туда пошла) и получили или неверный запрос или вообще некорректное решение задачи (которое может вывести в том числе и потери миллионов), маркетолог Таня неверно выбрала аудитории, мы не думаем

Конкретно в этом случае считается что Nano banana у Gemeni лучше GPT Image.
Руками делать/заказывать думаю не вариант. Так что скорее До был в Х итераций, а после Х/4

считается что Nano banana у Gemeni лучше GPT Image

Ну, в первом же абзаце статьи нам обещали:

Это прямые подсчёты транзакций. Не прогнозы аналитиков, не презентации вендоров — а конкретные реальные логи.

Вот хотелось бы в этом же ключе и про конечные результаты. Не бенчмарки, обещания и прогнозы, а результаты применения конкретных моделей пользователями конкретной компании.

Данные реальных логов за 7 месяцев на 527 человек — что люди делают с LLM на работе и что с ними не так

Ожидание: статья про то, чем люди занимаются на работе, учитывая, что нейросети упростили им жизнь и ускорили работу.
Реальность: раки нейросети бывают большие, но по 5 рублей, и маленькие, но по 3.

Действительно, не глубокая аналитика того зачем вообще могут быть нужны нейросети, а "ПОКУПАЙ ИНАЧЕ НЕ УСПЕЕШЬ, А НЕ КУПИШЬ - ТВОИ ДАННЫЕ СОЛЬЮТ" какое-то

Perplexity.ai не участвовал в экспериментах, интересно почему?

Он был добавлен только в декабре, но его успели "распробовать". Статистика такая маленькая, что не попал буквально.

Любопытная аналитика, спасибо. С позволения автора хотел бы дополнить о ценообразовании. Тема подписок раскрыта, но как насчет pay-as-you-go? По моим наблюдениям, в этой категории среди GPT-образных лидирует DeepSeek: $0.028 за 1М input tokens и $0.42 за 1М output tokens. Против $0.25 за 1М input tokens и $2.00 за 1М output tokens - для OpenAI GPT-5 mini.

Справедливо, DeepSeek дешевле. По бенчмаркам местами лучше.

В этом кейсе людям дали доступ ко всему — OpenAI, Anthropic, Gemini, Grok, DeepSeek. Запросов в DeepSeek: почти ноль.

Рациональный выбор? Инерция? Но факт есть факт.

Бенчмарки — это как резюме. Впечатляет, пока не начнёшь работать вместе.

Цена за токен ≠ цена за результат.

DeepSeek очень медленный и не отвечает на картинки. В свое время он был интересен только тем что давал аналог очень дорогой о1 бесплатно. Сейчас эта модель не представляет никакого интереса вообще.

Он нынче по скорости на уровне, и по бенчмаркам V3.2 очень высоко в топе. У него другая проблема - просто текстогенератор уже устарел, вокруг него построены целые экосистемы, tool calling прямо в чате, роутинг на vLLM, поиск в интернете, агентные сценарии, а дипсик пока еще может просто поискать в интернете.
OpenAI вообще дали LLM в руки калькулятор в виде python-среды для исполнения, разом решим проблемы с вычислениями (на которые было много вайна). Deepseek надо, конечно, догонять, и догонять не академически, подтягивая свою и так крутую архитектуру, а строить вокруг генератора экосистему.
И все еще CoT дипсика лучший, ризонинг полный, лимиты нормальные и вообще - это самая лучшая на данный момент Open-Source LLM.

Я тоже в итоге пришли к миксу: дешёвые модели по умолчанию, дорогие только по необходимости

Интересно было бы глянуть на когорты: сколько из этих 85% генерируют больше 5 запросов в неделю спустя полгода, возможно большинство просто держит вкладку открытой "на всякий случай"

Ну когорта в данном случае это не "вкладка", а как раз запрос :) Через пол года глянем

Самое интересное - это текст самих промптов. По ним можно понять, что за человек перед тобой.

Можете подсказать не ИТшнику, как пощупать для личного использования разные модели, с учетом доступа из РФ? Или ссылочку, где можно почитать/получить инструкцию?

Без VPN: DeepSeek — единственный топовый, который стабильно работает из РФ.

С VPN: ChatGPT, Claude, Gemini, Perplexity.

Ссылка на агрегаторы с доступом ко всем моделям — в статье, если что.

Perplexity прекрасно работают без VPN. ChatGPT, Claude, Gemini - тоже, решается заменой DNS на что-то типа comss one, блокируются там только статические ресурсы с Cloudflare - достаточно подложить локально, исправив cache timeouts.

Странное желание совать везде VPN, включая места, где он вообще не нужен!?

Не желание — физическое нахождение. Пишу откуда всё открывается, про блокировки написал по памяти. Ошибся, спасибо за поправку.

решается заменой DNS на что-то типа comss one, блокируются там только статические ресурсы с Cloudflare - достаточно подложить локально, исправив cache timeouts.

А не проще один раз VPN настроить, чем этим всем заниматься для каждого ресурса?

Если вам нравится платить деньги за то, что не нужно - платите на здоровье.

Никто не будет вас заставлять или уговаривать не тратить их.

Например, facebook и инстраграмом я не пользуюсь, для youtube прекрасно работают "дурилки".

Ни для работы, ни для развлечений мне VPN не нужен, при этом я живу своей обычной жизнью, без каких-либо самоограничений какой-то.

Рад за Вас. Но это не отменяет того, что остальным проще один раз настроить VPN. А "не нужно" это только тем, кто заранее согласен на любые текущие и будущие ограничения доступа к информации от РКН, включая любой побочный ущерб, когда блокируется доступ даже к тому, о чём РКН не в курсе. Например, есть же люди, которые вообще интернетом пользуются только на работе и только по рабочим задачам - один такой на хабре когда-то отметился, по крайней мере. Всем остальным может быть дорого/неудобно/слишком сложно - но не "не нужно".

Тоже запустил в свое время один из агрегаторов в РФ - ссылка в профиле, если вдруг нужно )

У нас есть несколько фирм, которые перепродают доступ, берут оплату рублями. Но наценка у них бешеная, и чем больше берёшь, тем больше в процентном отношении переплачиваешь, потому что у них кеширование не работает. Но попробовать, или иногда задавать одиночные вопросы Опусу - можно.

openrouter.ai. Есть бесплатные провайдеры.

только 20% населения могут нормально сформулировать промпт.

Только 20% населения способны стать программистами. Совпадение?

50-60% ваших сотрудников уже используют нейросети в работе. Ежедневно.

«Правда, такая ерунда получается...» ©

Обычный чат-интерфейс не умеет работать с таблицами. Для этого нужны агенты с code interpreter

Не волнуйтесь вы так, они тоже не умеют, но идеально умеют делать вид...

Зачем бухгалтерии картинки — отдельный вопрос.

Ну надо ж наконец узнать, как на самом деле выглядит квадратный трёхчлен!

Подскажите api openrouter.ai доступен для РФ? Сайт открывается без vpn, но мало ли.

Интересная статья, было бы ещё интереснее, если бы вы результативность применения тоже оценили сами, а не взяли из других источников. На сколько бы разошлись результаты.

Пока нет нормальных data-агентов по умолчанию, ожидания пользователей и реальность будут постоянно расходиться

Я прошёлся по части ссылок и данные по ссылкам и указанные в статье немного (сильно) не соответствуют.

> Якоб Нильсен проводил исследование, что только 20% населения могут нормально сформулировать промпт. Пробуют пару раз и уходят.

Автор статьи индус и там не про это. Надеюсь, ссылка не та, ибо на сайте всё же есть Якоб и у него несколько статей там.

> AI экономит 2-5 часов в неделю на сотрудника
Речь про 2,5% рабочего времени из статьи? Или какие-то ещё? В графиках только в процентах, в тексте и проценты, и часы, но не указанные цифры. Укажите конкретнее где смотреть, пожалуйста.

> Power users экономят 9-20 часов.
По ссылке такого нет. Про время говорится лишь про 4 часа в неделю при той же продуктивности.

Много где "исследования" это отзывы от самих пользователей, что идёт вразрез с данной статьёй. Как по мне, опрос о фантазиях ("Как вы думаете сколько вы потратили бы...") это не исследование.

Статью так же делала нейронка с галлюцинациями?

Так или иначе, у меня осталось чёткое ощущение что каждый раз, когда приводится довод против пользы генеративных ИИ на работе контр-аргумент высосан из пальца словно цель что-то продать если не здесь, то посредством статьи. Я не знаю чем вы занимаетесь, но ощущение именно такое. Дело в стиле написания или же так оно и есть - не знаю. Может упомянутый прокси для ИИ (openrouter). Спрашивать надо других.

Хотите российский сервис со всеми закрывашками и т.п. — ну вот я занимаюсь )

А вот и ответ.

Ссылки кривые. Напутал при вёрстке — Нильсен стал индусом, часы уехали. Починил, спасибо что заметили!

Персонал и не понимает на какую сумму он отправляет запрос и выкручивает всё по максимуму. Если при формировании запроса на кнопке "отправить запрос" будет интерактивно выводиться цена клика, а где нибудь в уголке будет панелька со статами по накликанному за день, неделю, месяц и прошлый месяц, то, возможно, кого-то это будет отрезвлять. А если еще и бюждет показывать, то даже можно будет планировать запросы.

Из зарплаты надо вычитать. Повысить её на бюджет, выделяемый на нейросети, и вычитать по мере отправки запросов. Тогда запросы быстро станут максимально продуманными. Сразу с ответами.

Ну как бы я к этому маразму саркастически вёл. На самом деле для самодисциплины работникам достаточно, чтобы соотношение статистики потребляемых ресурсов к результатам труда было на виду. Нагенерировал "котиков", а на выходе - месячный отчет...

Кроме "экономят/не экономят время" это не единственный критерий даже в работе. К экономии времени стоит сходу добавить:

  • снижение когнитивной нагрузки на обезьяньх задачах

  • берешься делать то, что лежало "попробовать когда-нибудь" вроде мелких скриптов или разбора записей

Эхтыж! Статья огонь!

64% бюджета — генерация картинок

Чето подумалось, что народ там сидит мемы с подписями генерирует

Бухгалтерию в OpenAI и другие агрегаторы они почти слили, конечно

Осталось ФНС подключить с обратной стороны 😂

ROI: 2800%. За месяц

Эхтыж!

Кстати, тут чат гпт поделился со мной результатами за год, и говорит что я попал в топ 10% всех людей, кто написал ему больше всего сообщений, сказал что не врет 😅

Вы (зачем я выкаю ии-шке?) как-то слишком упоролись по расходам на ИИ, но забыли, что там по качеству. Ок, качество - это субъективно. Что там по прибыли этих ваших фирм? Вы же не будете утверждать, что "новая прибыль" = "старая прибыль" + "экономия на ии"? А что с перспективами развития, может, сотрудники, которым вы перекрыли кислород более дорогих моделей, могли бы со временем учиться их использовать более полно с пользой для фирмы? Вот реально, вся статья выглядит сгенерированной по самому оптимизированному тарифу, потому что даже бесплатная чатгпт эти моменты учла бы, лол.

Если дать сотруднику доступ ко всем моделям — он будет использовать самую дорогую. Для любой задачи. Даже для «напиши письмо клиенту».

у меня на домашнем сервере развёрнут OWUI и подключены основные модели.
в итоге пришёл к нехитрому выводу — проще сразу использовать дорогую, а не быструю модель.

пример: увлекаюсь плёночной фотографией, собрался взять кюветы для проявки побольше. Выбирал между 24×30 и 30×40. Считать было лень, спросил ИИ какие предпочесть.
задал один и тот же вопрос Gemini Flash, Gemini Pro, 4o и o3.
Итог:
обе быстрые модели ответили, — бери те, что побольше! С запасом же!
обе медленные модели ответили, — бери те, что поменьше. Под твой запрос подходят, а у больших расход реактивов больше и размещать их сложнее.

Быстрые модели буквально "ляпают первое, что попалось, не подумав". Потом приходится переделывать. Использование дорогих моделей экономит время, а расходы отличаются незначительно.

Хм... А не возникало желания заиметь локальные версии нейросетей для базовых задач, решаемых текстовыми моделями? И информация не утечёт, и в долгосрочной перспективе 10К$ (да пусть даже 1К$) на дороге не валяются...

а какие задачи считать базовыми? со всеми ли справится локальная модель?

Я вот тут час назад попробовал задачу распознавания скриншота таблицы в json... уже час офигеваю...

  • 400 активных сотрудников x 3 часа/неделю x 4 недели = 4 800 часов/месяц

  • Средняя зарплата 80 000 руб/мес = ~460 руб/час

  • Экономия: 4 800 x 460 руб = 2.2 млн руб/мес

Я правильно понимаю, что было уволено сокращено 3 часа / 40 часов в неделю * 400 активных сотрудников = 30 человек?

Или сотрудники стали эффективнее на 40/(40-3) = 8%?

Иначе откуда взялись 2.2 ляма?

Они всегда используют самую дорогую модель для всего

OpenAi (и не только они) уже в какой-то степени решают это проблему: навешивают классификатор на запросы, и в зависимости от сложности задачи роутят в модель подороже/подешевле

Однако на мой взгляд тут нужно быть очень аккуратным чтобы желание экономить не привело к ухудшению UX, по своему опыту роутинг требует качество около 90-95+% точности, тк дифф с качеством дешевой/дорогой моделью часто заметен. При этом возвращаясь к OpenAI у них скорее роутинг хороший, но и ошибка при некорректном срабатывании менее незаметна

В общем пока на мой взгляд лучшее решение на текущий момент: включить автоматический роутинг на всех по умолчанию -> даст экономию, но при этом оставить возможность выбрать и зафиксировать этот выбор на топовую модель.

Тут правда есть вопрос с "пряником" для тех кто использует роутинг, но это как будто решаемо, главное без кнута в виде квот.

Если дать сотруднику доступ ко всем моделям — он будет использовать самую дорогую. Для любой задачи.

пишу вопрос недумающей модели-она быстро отвечает "да". Пишу тот же вопрос модели с тем же названием, но думающей. Медленный ответ "нет". Правильный ответ "нет". Конечно, с такими раскладами я буду использовать дорогую модель всегда! Ведь никто не гарантирует крутость модели хотя бы даже в конкретных задачах, в которых стоило бы ее применять. Просто одна быстрая, глупая и дешевая, а другая медленная, чуть поумнее и дороже. Зачем пользователю использовать дешевую модель, если она непредсказуемо врет?

зачем вообще выпускать в свет врущие модели-другой вопрос.

Зачем пользователю использовать дешевую модель, если она непредсказуемо врет?

Дороговизна модели не гарантирует вам, что модель будет в особых случаях вести себя адекватно. В целом у разных пользователей разные задачи, и для кого-то быстрая/дешевая модель лучше чем долгая/дорогая, например, в ситуациях когда количество важнее качества.

И по личному опыту замечал, что для креативных задач думающие модели пока что ведут себя более однообразно, чем те, которые пишут ответ сразу.

Спасибо за статью! При ROI 2800% ни о каком "пузыре ИИ" даже близко не может идти речи.

Очень полезная статья, спасибо! А в статистике уже учитывались модели GPT 5.x Pro? Или их из API нельзя дёргать? И второй вопрос, я как раз тот самый пользователь, кто много работает с табличками, в WebUI там всё хорошо с ними работает, специально слежу какой именно тулинг используется для ответа и т.д. миллиона строк нет, поэтому всё ок. Так вот. Для такого сценария использования описанный вариант подходит или всё же в этом случае надо идти в бизнес подписку?

Раньше лично пользовался подпиской на Про личной, и ни разу в лимит использования не утыкался, хотя очень много с этой моделью работаю. Но решили попробовать Бизнес подписку, и там кредиты внутренние просто за день можно сожрать и не моргнуть.

Вот в итоге думаю, не дешевле ли в данном случае power user'ам как вы из назвали отдельные аккаунты оплачивать?

Привет :)! Спасибо за вопросы:

  1. При регулярном использовании моделей GPT 5.x PRO точно единственный режим использования - купить оригинальную подписку OpenAI. Модель очень дорогая в API.

  2. То есть физическая возможность использовать есть, но практически это непозволительная роскошь при оплате за токены :)

Sign up to leave a comment.

Articles