Обновить
2
0

Пользователь

Отправить сообщение

Спасибо за идею с альтернативными моделями! Тоже делаю себе такое, но как мобильное приложение на телефон, осталось прикрутить разделение на спикеров.

На пк делал как в комментарии выше через v3 turbo и pyannote - работает очень хорошо.

Во всех этих историях мне пока совершенно не понятно, как поселить такого слушателя во встрече в teams, в условиях перехода на on prem

Пока из того, что работает более менее стабильно это последние мистрали на 24b параметров и qwen3-30b-a3b-instruct\thinking. Но специально на эту задачу я не тестировал широкий спектр моделей.

Спасибо за обзорную статью. Как на практике применять скиллы при использовании cline/kilo агентов с курсор, например. Был у кого опыт?

Круто, что получился очень даже живой сервис при таком железе.

У меня чуть больше возможностей по железу, так что такую историю я тестил на 24b-30b моделях, которые весьма неплохо справляются с задачей. Лучше всего у них получается работать с mermaid библиотекой, особенно если в системный промпт добавлять валидный пример кода.

Передовые облачные могут с ходу выдать корректный код bpmn, а если их правильно запромтить, то легко переделывают базовый bpmn в проприетарный, например формат business studio. Но тогда теряется конфиденциальность. Жду новое поколение 20-30b нейронок, они уже очень близки к качественному выполнению задачи.

https://habr.com/ru/articles/953320/

Советую использовать модель turbo v3 вместо large.

Я все хочу закинуть свою версию на гит или веткой к ребятам или отдельно, но времени нет. Отладил под cuda только только на днях

Как раз недавно себе пилил такую систему но полностью локальную на whisperx и наработках из другого поста хабра. Работает весьма-весьма.

Зацикливание кстати очень часто происходит, даже далеко от границы достижения макс токенов

Зависит от оболочки для запуска и установленного макс контекста.

Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.

и gpu? И какое время инференса на обеих моделях?

Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.

27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.

Согласен, это весомые риски. Держим в голове обязательно 👍

Спасибо за интересный тест. Почему такая низкая скорость инференса, если вся модель влезла в vram? Какого компонента не хватает системе для инференса хотя бы на уровне 10т\с?

Ребята, спасибо за крутую идею! Как раз такая сейчас стоит задача в цехе и потом примерно к тем же мыслям - что ллм здесь излишне применять. А есть код или пример похожей реализации где-нибудь на github? Задача прямо 1 в 1.

Очень хорошее базовое руководство по выходу из начального выгорания для менеджеров. Можно бесконечно детализировать различными инструментами, но рабочая основа уже есть. Забрал.

Информация

В рейтинге
4 669-й
Зарегистрирован
Активность