Обновить

Данные реальных логов за 7 месяцев на 527 человек — что люди делают с LLM на работе и что с ними не так

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели34K
Всего голосов 97: ↑93 и ↓4+110
Комментарии106

Комментарии 106

А чем занимается компания?

Образовательная. В методологии написано, но кто ж её читает.

Cпасибо! видимо, глаз замылился.

Графики посмотрел, красивое™. Пользователи, конечно, еще те - один МедныйПеликан® чего стОит...

Я все думаю, как в дистрибуторской компании AI применить...

Спасибо за графики.

По дистрибуции — ну, КП под клиента, ответы на "где моя поставка", сейлзам скрипты, договоры проверять. Стандартный набор.

Но это я гадаю. А можно не гадать.

Половина ваших людей уже что-то используют. Спросите — расскажут. Или дайте доступ и через месяц гляньте логи. Там будут не мои фантазии, а реальные задачи.

Половина ваших людей уже что-то используют. Спросите — расскажут.

Угу. директор филиала картинки генерит. и всё. (ну и я научился заставлять железяку помогать в кодинге. Особенно в верстке).

Вот как применять ИИ в обучении - идеи (благодаря хаброветкам и хабросрачам на тему "упадка образования") есть. а вот насчет собственной отрасли (кроме, пожалуй, поддержки заказов) - нет. Но там как раз работа с таблицами. Не миллионы строк, конечно, но 200*300 за раз - норма жизни, да и те обсчитываются математикой.

А "только картинки" — это и есть нормальное начало.

Директор филиала не будет с ходу строить RAG-пайплайн. Он сгенерил картинку для презентации, получилось, запомнил. Через месяц попросит письмо написать. Ещё через месяц — "а можно отчёт пересказать кратко?"

74% в нашем кейсе хоть раз генерили картинки. Включая бухгалтерию. Это не "только картинки". Это точка входа.

"только картинки" — это и есть нормальное начало.

Это "начало" - уже 2 года

Ещё через месяц — "а можно отчёт пересказать кратко?"

а зачем нужны отчеты, которые нужно пересказывать кратко? у нормального отчета должно быть "саммари".

Это точка входа

У нас это так не работает. (я не говорю, что это не работает вообще). Ну и у меня не хватает квалификации, чтобы подготовить массив данных, который люди могли бы анализировать.

Вот сейчас статья про "корпоративные знания" подвигла поглядеть в эту сторону - посмотрим, что получится...

Это не "только картинки". Это точка входа.

В профессию программиста?

Точняк!

Вот как применять ИИ в обучении - идеи (благодаря хаброветкам и хабросрачам на тему "упадка образования") есть. а вот насчет собственной отрасли (кроме, пожалуй, поддержки заказов) - нет.

Кажется есть отдельные режимы работы LLM - гуглить Guided Learning
https://habr.com/ru/companies/bothub/news/934964/
https://claude.com/solutions/education

ответы на «где моя поставка»

Реальность: ИИ отвечает на вопросы недовольных клиентов «где моя поставка»
Ожидание: ИИ всё устроит так, что у клиентов этих вопросов возникать не будет...

Если поставка по виртуальным каналам - тогда проблем не будет. а в реальности на дорогах пробки 10 баллов, с соответствующими проблемами...

В ВЭДе? Там у людей довольно много нагрузки по переводам, и почти все задачи - это работа с уже существующими данными, так что места для галюнов в нейронки немного. Не всё можно светить в облака, конечно, но то, что дозволено - оно как правило довольно побочное, а делать надо. И съедает времени оно не сильно меньше, если не больше основного функционала. Полностью коммуникацию и документооборот нейросеть не заменяет, но режиме вычитки помогает работать сильно быстрее.

Так вот, ИИ отлично справляется с подстрочниками, при условии минимального понимания принципов работы LLM, реализованных в добротном промте и грамотных примерах, плюс помощи в виде классических переводческих практик - ведение глоссариев, прозрачное внесение собственных правок, явные указания по стилистике. По запаре можно применять LLM для быстрой сверки двуязычных текстов. Некоторые инструменты очень помогают переводить презентации, превращенные в растровые PDF файлы. Ещё бы кто-то научил нейросеть верстать это непотребство обратно - я был бы вообще в восторге.

И на самом деле даже с тем, что нельзя светить в облака, часто очень простые локальные модели справяются. Я даже не про DeepSeek V3.2, Qwen3-235B-A22B и GLM-4.7 - эти в задачах на перевод от моделей Google, ClosedAI и Misanthropic почти неотличимы - даже сравнительно пожилая и ужатая Gemma 3 27B Q4 QAT весьма недурно справляется. А есть модели посвежее, есть модели специализированные. Ну красота же?

И бывают вообще комичные случаи. Называется, "никто на языке поставщика не разговаривает, а очень надо")) Тогда выручает метод Розеттского камня: я так малазийцу писал, который по что по-английски, что по-китайски, ну... Вообще никак. В итоге - пишу заготовку по-русскии –> перевод на англ, вычитка-правка + перевод на кит, вычитка-правка, -> перевод с трёх языков разом на малазийский –> вычитка обратного перевода другой моделью. Циферки итак видно, тут ошибки быть не может. Удовлетворительно? Отправляем. А самое смешное то, что дело сдвинулось))

А почему английский-малазийский не работал? Слишком много ошибок? И почему тот же гугл транслейт с обратной проверкой каким-нибудь другим переводчиком не работал?

Вопрос не праздный, я по работе с китайцами и исландцами через гугл транслейт общался, с китайцами даже договор подписали, благо они нашли юристов, которые и на английском нормально шпрехали. И я постоянно думаю, что мб надо переходить на ИИ в деловых переводах, но с другой стороны зачем, если старые переводчики работают...

Там же написано "профиль изменён для защиты данных". То есть на самом деле не образовательная? Средняя зарплата как-то не похожа на учебное заведение...

Под "образовательной" имелось ввиду EdTech. Но, в целом, все равно, потому что и не EdTech.

Мм, замечу, что в терюрисдикции РФ огромные региональные различия. Например, в моих краях зарплаты учителей достигают ₽210 тыс. В глубинке же они могут быть кратно ниже (выше в глубинке вроде только в городе Москве, до ₽300 тыс). 🙂

Подержите мой кофе.... Всегда найдётся такой сотрудник как я и ваш PAYG загонит вас в минуса.

Вот он, Лазурный Дрозд в естественной среде обитания!

Из общения на форуме Delphi-разработчиков, самые лучшие результаты для Delphi даёт Claude Opus 4.5. Причём не тот, который в чатике отвечает, а агент, который сам пишет код по поставленной задаче.

При этом самые продвинутые разрабы, кто распробовал vibe-кодинг, делят проект на подзачачи и запускают сразу несколько агентов, которые пишут код, гоняют тесты, пишут документацию.

В итоге у людей Claude Pro лимиты улетают за несколько дней, переходят на Max 5x либо сразу 20x.

Так что один такой разраб съел бы сразу весь ваш бюджет на AI.

Поддержу, я когда архитектурные вещи создаю, меня сдерживают только лимиты.

Если архитектурная вещь не жесть какая сложная, то даже в настольной 5060ti с 16GB влезает Qwen3-Coder 30B, который, конечно, не Opus, но очень неплох, работает он весьма вразумительно, т.к. MOE. Правда оперативки надо побольше и подождать подольше, то фактически безлимит.

Нет, спасибо, мы с Клодом подружились) Я долго подбирал нюансы и теперь нашел как мне быстро и комфортно, например, я научил его комментировать не очевидные места.

Openwebui + litellm, внешний провайдер + vllm с oss-120b в контуре (для внутренних данных)

Модели дороже 50$ за миллион исходящих отключены, как и генерация картинок

Пока самая большая проблема - длинные чаты, несмотря на объяснения почему большая накопленная история - плохо и как перенести контекст в новый чат - регулярно вижу в litellm запросы по 80-120к токенов, без прилепленных файлов

80-120k токенов в одном чате — это люди не общаются с моделью, это они с ней живут. Там уже отношения, общие воспоминания, планы на будущее.

У нас, кстати, есть предупреждения при длинных чатах. И да, работает — реально экономит деньги.

А какая статистика потребления у вас выходит? Распределение по моделям, активность — совпадает с графиками, или без картинок картина совсем другая?

Litellm oss много дашбордов не отдает, за декабрь четверть запросов была у sonnet 4.5, ~85% всех расходов через openwebui

Данных пока мало, с ноября собираем

80-120k токенов в одном чате — это люди не общаются с моделью, это они с ней живут

Вы же на хабре. К этому размеру чата модель только начинает более-менее адекватно понимать, какой код её просят написать. И доделывает этот код до требуемого вида уже ближе к 150-200k. И хороший результат - если эти 150-200k всё ещё в рамках первого чата, а не третьего по этой же теме с переносом summary предыдущих в начало следующего чтобы продолжить работу после достижения лимита.

Поэтому, кстати, для кода так популярны тарифы с оплатой за запрос, а не за токены.

К этому размеру чата...

...если эти 150-200k всё ещё в рамках первого чата, а не третьего по этой же теме с переносом...

Так а не быстрее вручную написать код?

Нет, не быстрее. Когда быстрее - я пишу ручками. Эти 150k в режиме агента сжираются очень быстро - агент сам туда грузит нужные ему файлы, запускает тесты, etc. и всё это добавляется в контекст. Набранные вручную промпты от этого объёма занимают пренебрежимо малую часть, полагаю около 1k токенов.

По себе могу сказать - если открыть новый чат можно одной кнопкой - то буду пользоваться, если тремя - то нет. Пока в рабочем интерфейсе было подтверждение "Точно создать новый чат? А старый закрыть?" я все вопросы писал в один чат пока тупить не начинало.

А как переносить контекст в новый чат, копированием кусков из старого?

Переносить не надо. Паттерн сам по себе дерьмовый.

Есть https://arxiv.org/abs/2307.03172 — модель хорошо помнит начало и конец контекста, а середину теряет. Уже на 25% заполнения начинается деградация. Чем длиннее чат, тем больше модель "забывает" то, что было в середине.

Копировать куски из старого чата — это тащить мусор в новый дом. Вы переносите не только полезное, но и всю шелуху, которая будет мешать.

Лучше: начать чистый чат, в первом сообщении дать краткое саммари задачи и ключевые вводные. Не историю переписки, а суть. Модель работает лучше, когда важное — в начале, а не размазано по 80 тысячам токенов "контекста".

если работать с веб интерфейсом Клода, то он довольно быстро сам запускает перепаковку и создание саммари. Перезапуск чата когда идет плотная работа со множеством нюансов - это очень большой геморой и потеря контекста, с другой стороны, не каждый и не каждый день создает большие штуки.

Деградация сильно зависит от модели. Например, Claude Sonnet 4, по моим наблюдениям, 120k держит ничего не теряя. А вот всякие GPT-4 - там да, в этом плане всё плохо.

В базовом случае попросить суммировать (детально или не очень), если там код то копировать последнюю версию блока с кодом. Это в принципе можно даже автоматизировать.

а oss-120b на чём запускаете? У меня просто тот же стек на уютном домашнем сервере, подумываю о локальной llm, но есть подозрение, что для нормальной модели потребуется совсем не домашний gpu

"Тихо, без фанфар" и прочие признаки статьи от ИИ

Ладно, похоже мы теперь больше никогда не увидим статьи от живых людей

Любой текст без ошибок — нейросеть. Любой текст с ошибками — нейросеть притворяется. Выхода нет.

а текст, состоящий из ошибок?

Нейросеть галлюцинирует

а текст, состоящий из ошибок?

Олбанский!

Удивительно, наверное, но некоторые именно так и пишут. Люди же разные. К счастью.

Глянул первую статью автора за 2015 - а она лучше написана (как минимум, нет кучи абзацев по 1-2 строки, да и в целом хотя бы читается нормально). Вывод: либо автор за 10 лет деградировал, либо стал использовать ЛЛМ.

Почему «либо», раз уж на то пошло?) Автор, это шутка). Пост написан или его прогнали через LLM, это очевидно

Интересно насколько это правда, что данные через АПИ не используются для обучения

https://openai.com/enterprise-privacy/ с 2023-го. На этом строят enterprise-продажи.

Зачем им врать? Миллиарды запросов от бесплатников и тех, кто сам поставил галочку "делиться" — бери и учи. Рисковать ради тех, кто явно сказал "нет" — смысла ноль, а юридических проблем вагон.

Эта логика в современном мире не работает. Зачем собирать телеметрию со всех Windows в мире, если люди против и если даже сами сотрудники Microsoft говорят, что не могут ее внятно обработать? Зачем включать обратно выключенные галочки и переустанавливать обратно вырезанные сервисы телеметрии, рискуя репутацией и беся пользователей? А прост.

Аргумент понятен. Но разница не в морали — в экономике.

Microsoft — монополия. 73-90% рынка десктопов. Куда ты денешься? На Linux? Удачи объяснить бухгалтерии, почему 1С не работает.

OpenAI — конкурентный рынок. Enterprise доля упала с 50% до 25-27%. Anthropic уже 32%. Switching cost — дни, не годы.

Телеметрия Windows — побочный доход. Скандал с данными у OpenAI — потеря enterprise-клиентов (27-30% выручки). При минусе $9B в год.

Плюс: DPA с правом аудита, SOC 2 Type 2, 30-дневный retention. Это юридические обязательства, не слова на сайте.

Доверять OpenAI не обязательно. Достаточно доверять их жадности.

1C на Linux нормально работает

Для обучения рисковано, могут всплыть в неожиданном месте как вывод бредогенерации. А вот для статистики, выковыривания каких-либо трендов и их продаже рекламщикам и прочим игрокам рынка .. почему нет-то? Помнится авторы ИИ поначалу открещивались что контекст беседы вообще сохраняется.. теперь сами про это пишут. )

64% бюджета — генерация картинок.

Переводить лениво, поэтому под кат

AI экономит 2-5 часов в неделю на сотрудника — Federal Reserve, BCG, Adecco. Power users экономят 9-20 часов.

Если применить эти данные к нашему случаю

А если не применять? Не пробовали как-то замерить именно на вашей компании, сколько экономия? Этот момент самый интересный.

Я это к чему. Это очень важная метрика, сколько денег сэкономили. Но если применять данные от чужого исследования, то 95% статьи можно не читать, а просто посчитать вот эти данные, как вы и сделали. Но вы же не знаете (или знаете?) сколько часов именно ваши сотрудники сэкономили. Как это вообще измерить?

У двух людей в руках может быть одинаковый инструмент, но вот результаты использования... Эффект может возникнуть на слишком далеком горизонте - обучение пользователей, например, процесс не очень быстрый и затратный, если они делом заняты. На такие вопросы для компании бывает очень дорого ответить, а еще хочется знать ответ ДО внедрения, а не после. Поэтому принято ориентироваться при внедрении чего-либо на кем-либо уважаемым подсчитанные цифирьки в отрасли/области и тд, прикинуть-оценить, принять риски и пойти внедрять. После внедрения дается оценка, часто субъективная, либо вообще не про целесообразность, а про освоенный бюджет в срок, либо подогнанная под результат...

Если дать сотруднику доступ ко всем моделям — он будет использовать самую дорогую. Для любой задачи. Даже для «напиши письмо клиенту».

И в чем сотрудник не прав? Клод за 15 баксов действительно заметно лучше пишет письма чем гпт 4о мини за полбакса. Он что по вашему, должен каждый раз думать какую педаль надо нажимать для похожих задач ради экономии копеек? Ах ну да, подписки же нет, надо экономить, а лучше вообще запретить.

Он что по вашему, должен каждый раз думать какую педаль надо нажимать для похожих задач ради экономии копеек?

Кстати, тоже пришла в голову мысль, что неплохо бы сначала пропускать запрос через анализатор, который бы уже исходя из классификации запроса, мог решать, какой именно модели его переадресовать.

Да не нужен уже классификатор ( когда был нужен нормально не работал). Есть уже универсал - gemini 3 flash, всё делает достаточно хорошо и при этом относительно недорого.

Ну это все субъективно. "достаточно хорошо" и "относительно недорого" у каждой компании могут быть разные. Нужна оценка.

Цена известна, чуть дороже самых дешевых. Оценка тоже известна, топ 3 в общем мировом зачете во всех тестах. Это не точная оценка, но видно что на таком уровне нет смысла даже сравнивать с кем то.

да я даже между соннет и опус начал думать тем более что то он часто стал переключаться, но у меня подписка, меня только лимит смущает

Решение в умном роутинге. Интерфейс должен сам выбирать модель в зависимости от сложности промпта. Короткий запрос - Haiku/Mini. Длинный и сложный - Sonnet/GPT4. Пользователю вообще не надо об этом думать

По длине что ли? Я бы сказал, что длинные задачи часто самые простые, уровня "повтори по образцу"

Не в лоб по длине, отдельная модель-роутер, которая оценивает запрос и меняет модель для ответа. Это то, как работает GPT-5 в авто режиме ChatGPT (не конкретная модель, у них система с роутером просто так называется тоже)

Подписки как раз и ломают мотивацию выбирать. Когда платишь за каждый запрос то архитектура доступа решает всё. Один дефолт может сэкономить больше, чем любые инструкции

В сентябре компания перешла с GPT Image на Gemini. Тихо, без фанфар. Миграция заняла день. 30 599 запросов через Gemini за 4 месяца. Если бы остались на GPT — заплатили бы $13 558. Заплатили $1 621. Экономия: $11 936.

А были какие-то метрики удовлетворенности каждой отдельной сессией общения?
Есть ощущение, что она могла значительно упасть вслед за переходом.

Например До был сценарий:
- Сгенерируй картинку "промпт1" (В целом норм но нужно уточнить)
- Сгенерируй картинку "промпт2" (Уже почти, вот еще чуть-чуть)
- Сгенерируй картинку "промпт3" (Ну в целом то что нужно, можно брать и использовать)

А После стал сценарий
- Сгенерируй картинку "промпт1" (Блин, чет фигня. Как бы по-другому сформулировать)
- Сгенерируй картинку "промпт2" (Ну не знаю, может еще как-то надо иначе)
- Сгенерируй картинку "промпт3" (Не, ничего не выходит, пойду делать руками/заказывать)

Утрирую конечно, но тема cost-efficiency не раскрыта.

вот-вот, с одной стороны мы тут обсуждаем, какое офигенное ROI, а с другой, а с другой нас покусали финансисты и мы все пытаемся крохоборить.. А то, что у аналитика Васи, код на питоне криво работает (или вообще задача не туда пошла) и получили или неверный запрос или вообще некорректное решение задачи (которое может вывести в том числе и потери миллионов), маркетолог Таня неверно выбрала аудитории, мы не думаем

Конкретно в этом случае считается что Nano banana у Gemeni лучше GPT Image.
Руками делать/заказывать думаю не вариант. Так что скорее До был в Х итераций, а после Х/4

Данные реальных логов за 7 месяцев на 527 человек — что люди делают с LLM на работе и что с ними не так

Ожидание: статья про то, чем люди занимаются на работе, учитывая, что нейросети упростили им жизнь и ускорили работу.
Реальность: раки нейросети бывают большие, но по 5 рублей, и маленькие, но по 3.

Действительно, не глубокая аналитика того зачем вообще могут быть нужны нейросети, а "ПОКУПАЙ ИНАЧЕ НЕ УСПЕЕШЬ, А НЕ КУПИШЬ - ТВОИ ДАННЫЕ СОЛЬЮТ" какое-то

Perplexity.ai не участвовал в экспериментах, интересно почему?

Он был добавлен только в декабре, но его успели "распробовать". Статистика такая маленькая, что не попал буквально.

Любопытная аналитика, спасибо. С позволения автора хотел бы дополнить о ценообразовании. Тема подписок раскрыта, но как насчет pay-as-you-go? По моим наблюдениям, в этой категории среди GPT-образных лидирует DeepSeek: $0.028 за 1М input tokens и $0.42 за 1М output tokens. Против $0.25 за 1М input tokens и $2.00 за 1М output tokens - для OpenAI GPT-5 mini.

Справедливо, DeepSeek дешевле. По бенчмаркам местами лучше.

В этом кейсе людям дали доступ ко всему — OpenAI, Anthropic, Gemini, Grok, DeepSeek. Запросов в DeepSeek: почти ноль.

Рациональный выбор? Инерция? Но факт есть факт.

Бенчмарки — это как резюме. Впечатляет, пока не начнёшь работать вместе.

Цена за токен ≠ цена за результат.

DeepSeek очень медленный и не отвечает на картинки. В свое время он был интересен только тем что давал аналог очень дорогой о1 бесплатно. Сейчас эта модель не представляет никакого интереса вообще.

Он нынче по скорости на уровне, и по бенчмаркам V3.2 очень высоко в топе. У него другая проблема - просто текстогенератор уже устарел, вокруг него построены целые экосистемы, tool calling прямо в чате, роутинг на vLLM, поиск в интернете, агентные сценарии, а дипсик пока еще может просто поискать в интернете.
OpenAI вообще дали LLM в руки калькулятор в виде python-среды для исполнения, разом решим проблемы с вычислениями (на которые было много вайна). Deepseek надо, конечно, догонять, и догонять не академически, подтягивая свою и так крутую архитектуру, а строить вокруг генератора экосистему.
И все еще CoT дипсика лучший, ризонинг полный, лимиты нормальные и вообще - это самая лучшая на данный момент Open-Source LLM.

Я тоже в итоге пришли к миксу: дешёвые модели по умолчанию, дорогие только по необходимости

Интересно было бы глянуть на когорты: сколько из этих 85% генерируют больше 5 запросов в неделю спустя полгода, возможно большинство просто держит вкладку открытой "на всякий случай"

Ну когорта в данном случае это не "вкладка", а как раз запрос :) Через пол года глянем

Самое интересное - это текст самих промптов. По ним можно понять, что за человек перед тобой.

Можете подсказать не ИТшнику, как пощупать для личного использования разные модели, с учетом доступа из РФ? Или ссылочку, где можно почитать/получить инструкцию?

Без VPN: DeepSeek — единственный топовый, который стабильно работает из РФ.

С VPN: ChatGPT, Claude, Gemini, Perplexity.

Ссылка на агрегаторы с доступом ко всем моделям — в статье, если что.

Perplexity прекрасно работают без VPN. ChatGPT, Claude, Gemini - тоже, решается заменой DNS на что-то типа comss one, блокируются там только статические ресурсы с Cloudflare - достаточно подложить локально, исправив cache timeouts.

Странное желание совать везде VPN, включая места, где он вообще не нужен!?

Не желание — физическое нахождение. Пишу откуда всё открывается, про блокировки написал по памяти. Ошибся, спасибо за поправку.

решается заменой DNS на что-то типа comss one, блокируются там только статические ресурсы с Cloudflare - достаточно подложить локально, исправив cache timeouts.

А не проще один раз VPN настроить, чем этим всем заниматься для каждого ресурса?

Тоже запустил в свое время один из агрегаторов в РФ - ссылка в профиле, если вдруг нужно )

У нас есть несколько фирм, которые перепродают доступ, берут оплату рублями. Но наценка у них бешеная, и чем больше берёшь, тем больше в процентном отношении переплачиваешь, потому что у них кеширование не работает. Но попробовать, или иногда задавать одиночные вопросы Опусу - можно.

openrouter.ai. Есть бесплатные провайдеры.

Deepseek, Qwen, Kimi

только 20% населения могут нормально сформулировать промпт.

Только 20% населения способны стать программистами. Совпадение?

50-60% ваших сотрудников уже используют нейросети в работе. Ежедневно.

«Правда, такая ерунда получается...» ©

Обычный чат-интерфейс не умеет работать с таблицами. Для этого нужны агенты с code interpreter

Не волнуйтесь вы так, они тоже не умеют, но идеально умеют делать вид...

Зачем бухгалтерии картинки — отдельный вопрос.

Ну надо ж наконец узнать, как на самом деле выглядит квадратный трёхчлен!

Подскажите api openrouter.ai доступен для РФ? Сайт открывается без vpn, но мало ли.

Интересная статья, было бы ещё интереснее, если бы вы результативность применения тоже оценили сами, а не взяли из других источников. На сколько бы разошлись результаты.

Пока нет нормальных data-агентов по умолчанию, ожидания пользователей и реальность будут постоянно расходиться

Я прошёлся по части ссылок и данные по ссылкам и указанные в статье немного (сильно) не соответствуют.

> Якоб Нильсен проводил исследование, что только 20% населения могут нормально сформулировать промпт. Пробуют пару раз и уходят.

Автор статьи индус и там не про это. Надеюсь, ссылка не та, ибо на сайте всё же есть Якоб и у него несколько статей там.

> AI экономит 2-5 часов в неделю на сотрудника
Речь про 2,5% рабочего времени из статьи? Или какие-то ещё? В графиках только в процентах, в тексте и проценты, и часы, но не указанные цифры. Укажите конкретнее где смотреть, пожалуйста.

> Power users экономят 9-20 часов.
По ссылке такого нет. Про время говорится лишь про 4 часа в неделю при той же продуктивности.

Много где "исследования" это отзывы от самих пользователей, что идёт вразрез с данной статьёй. Как по мне, опрос о фантазиях ("Как вы думаете сколько вы потратили бы...") это не исследование.

Статью так же делала нейронка с галлюцинациями?

Так или иначе, у меня осталось чёткое ощущение что каждый раз, когда приводится довод против пользы генеративных ИИ на работе контр-аргумент высосан из пальца словно цель что-то продать если не здесь, то посредством статьи. Я не знаю чем вы занимаетесь, но ощущение именно такое. Дело в стиле написания или же так оно и есть - не знаю. Может упомянутый прокси для ИИ (openrouter). Спрашивать надо других.

Хотите российский сервис со всеми закрывашками и т.п. — ну вот я занимаюсь )

А вот и ответ.

Ссылки кривые. Напутал при вёрстке — Нильсен стал индусом, часы уехали. Починил, спасибо что заметили!

Персонал и не понимает на какую сумму он отправляет запрос и выкручивает всё по максимуму. Если при формировании запроса на кнопке "отправить запрос" будет интерактивно выводиться цена клика, а где нибудь в уголке будет панелька со статами по накликанному за день, неделю, месяц и прошлый месяц, то, возможно, кого-то это будет отрезвлять. А если еще и бюждет показывать, то даже можно будет планировать запросы.

Из зарплаты надо вычитать. Повысить её на бюджет, выделяемый на нейросети, и вычитать по мере отправки запросов. Тогда запросы быстро станут максимально продуманными. Сразу с ответами.

Кроме "экономят/не экономят время" это не единственный критерий даже в работе. К экономии времени стоит сходу добавить:

  • снижение когнитивной нагрузки на обезьяньх задачах

  • берешься делать то, что лежало "попробовать когда-нибудь" вроде мелких скриптов или разбора записей

Эхтыж! Статья огонь!

64% бюджета — генерация картинок

Чето подумалось, что народ там сидит мемы с подписями генерирует

Бухгалтерию в OpenAI и другие агрегаторы они почти слили, конечно

Осталось ФНС подключить с обратной стороны 😂

ROI: 2800%. За месяц

Эхтыж!

Кстати, тут чат гпт поделился со мной результатами за год, и говорит что я попал в топ 10% всех людей, кто написал ему больше всего сообщений, сказал что не врет 😅

Вы (зачем я выкаю ии-шке?) как-то слишком упоролись по расходам на ИИ, но забыли, что там по качеству. Ок, качество - это субъективно. Что там по прибыли этих ваших фирм? Вы же не будете утверждать, что "новая прибыль" = "старая прибыль" + "экономия на ии"? А что с перспективами развития, может, сотрудники, которым вы перекрыли кислород более дорогих моделей, могли бы со временем учиться их использовать более полно с пользой для фирмы? Вот реально, вся статья выглядит сгенерированной по самому оптимизированному тарифу, потому что даже бесплатная чатгпт эти моменты учла бы, лол.

Если дать сотруднику доступ ко всем моделям — он будет использовать самую дорогую. Для любой задачи. Даже для «напиши письмо клиенту».

у меня на домашнем сервере развёрнут OWUI и подключены основные модели.
в итоге пришёл к нехитрому выводу — проще сразу использовать дорогую, а не быструю модель.

пример: увлекаюсь плёночной фотографией, собрался взять кюветы для проявки побольше. Выбирал между 24×30 и 30×40. Считать было лень, спросил ИИ какие предпочесть.
задал один и тот же вопрос Gemini Flash, Gemini Pro, 4o и o3.
Итог:
обе быстрые модели ответили, — бери те, что побольше! С запасом же!
обе медленные модели ответили, — бери те, что поменьше. Под твой запрос подходят, а у больших расход реактивов больше и размещать их сложнее.

Быстрые модели буквально "ляпают первое, что попалось, не подумав". Потом приходится переделывать. Использование дорогих моделей экономит время, а расходы отличаются незначительно.

Хм... А не возникало желания заиметь локальные версии нейросетей для базовых задач, решаемых текстовыми моделями? И информация не утечёт, и в долгосрочной перспективе 10К$ (да пусть даже 1К$) на дороге не валяются...

а какие задачи считать базовыми? со всеми ли справится локальная модель?

Я вот тут час назад попробовал задачу распознавания скриншота таблицы в json... уже час офигеваю...

  • 400 активных сотрудников x 3 часа/неделю x 4 недели = 4 800 часов/месяц

  • Средняя зарплата 80 000 руб/мес = ~460 руб/час

  • Экономия: 4 800 x 460 руб = 2.2 млн руб/мес

Я правильно понимаю, что было уволено сокращено 3 часа / 40 часов в неделю * 400 активных сотрудников = 30 человек?

Или сотрудники стали эффективнее на 40/(40-3) = 8%?

Иначе откуда взялись 2.2 ляма?

Они всегда используют самую дорогую модель для всего

OpenAi (и не только они) уже в какой-то степени решают это проблему: навешивают классификатор на запросы, и в зависимости от сложности задачи роутят в модель подороже/подешевле

Однако на мой взгляд тут нужно быть очень аккуратным чтобы желание экономить не привело к ухудшению UX, по своему опыту роутинг требует качество около 90-95+% точности, тк дифф с качеством дешевой/дорогой моделью часто заметен. При этом возвращаясь к OpenAI у них скорее роутинг хороший, но и ошибка при некорректном срабатывании менее незаметна

В общем пока на мой взгляд лучшее решение на текущий момент: включить автоматический роутинг на всех по умолчанию -> даст экономию, но при этом оставить возможность выбрать и зафиксировать этот выбор на топовую модель.

Тут правда есть вопрос с "пряником" для тех кто использует роутинг, но это как будто решаемо, главное без кнута в виде квот.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации