Пока из того, что работает более менее стабильно это последние мистрали на 24b параметров и qwen3-30b-a3b-instruct\thinking. Но специально на эту задачу я не тестировал широкий спектр моделей.
Круто, что получился очень даже живой сервис при таком железе.
У меня чуть больше возможностей по железу, так что такую историю я тестил на 24b-30b моделях, которые весьма неплохо справляются с задачей. Лучше всего у них получается работать с mermaid библиотекой, особенно если в системный промпт добавлять валидный пример кода.
Передовые облачные могут с ходу выдать корректный код bpmn, а если их правильно запромтить, то легко переделывают базовый bpmn в проприетарный, например формат business studio. Но тогда теряется конфиденциальность. Жду новое поколение 20-30b нейронок, они уже очень близки к качественному выполнению задачи.
Зависит от оболочки для запуска и установленного макс контекста.
Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.
Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.
Спасибо за интересный тест. Почему такая низкая скорость инференса, если вся модель влезла в vram? Какого компонента не хватает системе для инференса хотя бы на уровне 10т\с?
Ребята, спасибо за крутую идею! Как раз такая сейчас стоит задача в цехе и потом примерно к тем же мыслям - что ллм здесь излишне применять. А есть код или пример похожей реализации где-нибудь на github? Задача прямо 1 в 1.
Очень хорошее базовое руководство по выходу из начального выгорания для менеджеров. Можно бесконечно детализировать различными инструментами, но рабочая основа уже есть. Забрал.
Спасибо за идею с альтернативными моделями! Тоже делаю себе такое, но как мобильное приложение на телефон, осталось прикрутить разделение на спикеров.
На пк делал как в комментарии выше через v3 turbo и pyannote - работает очень хорошо.
Во всех этих историях мне пока совершенно не понятно, как поселить такого слушателя во встрече в teams, в условиях перехода на on prem
Пока из того, что работает более менее стабильно это последние мистрали на 24b параметров и qwen3-30b-a3b-instruct\thinking. Но специально на эту задачу я не тестировал широкий спектр моделей.
Спасибо за обзорную статью. Как на практике применять скиллы при использовании cline/kilo агентов с курсор, например. Был у кого опыт?
Круто, что получился очень даже живой сервис при таком железе.
У меня чуть больше возможностей по железу, так что такую историю я тестил на 24b-30b моделях, которые весьма неплохо справляются с задачей. Лучше всего у них получается работать с mermaid библиотекой, особенно если в системный промпт добавлять валидный пример кода.
Передовые облачные могут с ходу выдать корректный код bpmn, а если их правильно запромтить, то легко переделывают базовый bpmn в проприетарный, например формат business studio. Но тогда теряется конфиденциальность. Жду новое поколение 20-30b нейронок, они уже очень близки к качественному выполнению задачи.
https://habr.com/ru/articles/953320/
Советую использовать модель turbo v3 вместо large.
Я все хочу закинуть свою версию на гит или веткой к ребятам или отдельно, но времени нет. Отладил под cuda только только на днях
Как раз недавно себе пилил такую систему но полностью локальную на whisperx и наработках из другого поста хабра. Работает весьма-весьма.
Именно
Зацикливание кстати очень часто происходит, даже далеко от границы достижения макс токенов
Зависит от оболочки для запуска и установленного макс контекста.
Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.
и gpu? И какое время инференса на обеих моделях?
Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.
27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.
Согласен, это весомые риски. Держим в голове обязательно 👍
Спасибо за интересный тест. Почему такая низкая скорость инференса, если вся модель влезла в vram? Какого компонента не хватает системе для инференса хотя бы на уровне 10т\с?
Ребята, спасибо за крутую идею! Как раз такая сейчас стоит задача в цехе и потом примерно к тем же мыслям - что ллм здесь излишне применять. А есть код или пример похожей реализации где-нибудь на github? Задача прямо 1 в 1.
Очень хорошее базовое руководство по выходу из начального выгорания для менеджеров. Можно бесконечно детализировать различными инструментами, но рабочая основа уже есть. Забрал.