Комментарии / Профиль leon

Пользователь

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Вопрос к экспертам, так как не увидел прямого ответа в комментариях выше. Если уже есть 3090, можно ли докупить к ней 3060ti на 12gb так как очень часто для 30б моделей не зватает совсем чуть-чуть, памяти, чтобы дотянуться до адекватных квантов и контекста около 40 тыс? или это провал и надо целиться во вторую 3090?

Сам себе отвечу:
https://www.reddit.com/r/LocalLLaMA/comments/1kgs1z7/309030603060_llamacpp_benchmarks_tips/

Xiaomi Mimo V2: Как бесплатная модель от вендора смартфонов обошла Qwen 235B в генерации образовательного контента

leon_sergey 4 янв в 08:02

2 вопроса из контента статьи:

1. Вы пишите, что MiMo гораздо меньше Qwen3 235B, но в ее документации указано, что она имеет 309B параметров, упакованных в MoE структуру по 15B на одного эксперта. Мы говорим о разных моделях?

2. Gemini 2.5 Flash.

Пока мы писали эту статью и восхищались скоростью Xiaomi (11 секунд), Google выкатил превью Gemini 2.5 Flash"

Мы точно о 2.5 Flash говорим? Я ей уже около полугода пользуюсь, как превьюшками, так и финальной.

Наверное, я что-то упустил или не понял, заранее извиняюсь за душноту, просто интересно стало.

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)

leon_sergey 29 дек 2025 в 20:09

Спасибо за идею с альтернативными моделями! Тоже делаю себе такое, но как мобильное приложение на телефон, осталось прикрутить разделение на спикеров.

На пк делал как в комментарии выше через v3 turbo и pyannote - работает очень хорошо.

Во всех этих историях мне пока совершенно не понятно, как поселить такого слушателя во встрече в teams, в условиях перехода на on prem

Как я навайбкодил сервис генерации диаграмм: 2 недели от идеи до реализации

leon_sergey 27 дек 2025 в 08:30

Пока из того, что работает более менее стабильно это последние мистрали на 24b параметров и qwen3-30b-a3b-instruct\thinking. Но специально на эту задачу я не тестировал широкий спектр моделей.

Навыки агентов (Agent Skills): что это такое и почему это больше, чем «папка с промптами»

leon_sergey 27 дек 2025 в 08:24

Спасибо за обзорную статью. Как на практике применять скиллы при использовании cline/kilo агентов с курсор, например. Был у кого опыт?

Как я навайбкодил сервис генерации диаграмм: 2 недели от идеи до реализации

leon_sergey 25 дек 2025 в 19:53

Круто, что получился очень даже живой сервис при таком железе.

У меня чуть больше возможностей по железу, так что такую историю я тестил на 24b-30b моделях, которые весьма неплохо справляются с задачей. Лучше всего у них получается работать с mermaid библиотекой, особенно если в системный промпт добавлять валидный пример кода.

Передовые облачные могут с ходу выдать корректный код bpmn, а если их правильно запромтить, то легко переделывают базовый bpmn в проприетарный, например формат business studio. Но тогда теряется конфиденциальность. Жду новое поколение 20-30b нейронок, они уже очень близки к качественному выполнению задачи.

Топ-7 нейросетей для транскрибации аудио в текст: обзор лучших AI-моделей для быстрой и точной расшифровки

leon_sergey 24 дек 2025 в 14:26

https://habr.com/ru/articles/953320/

Советую использовать модель turbo v3 вместо large.

Я все хочу закинуть свою версию на гит или веткой к ребятам или отдельно, но времени нет. Отладил под cuda только только на днях

Топ-7 нейросетей для транскрибации аудио в текст: обзор лучших AI-моделей для быстрой и точной расшифровки

leon_sergey 24 дек 2025 в 14:19

Как раз недавно себе пилил такую систему но полностью локальную на whisperx и наработках из другого поста хабра. Работает весьма-весьма.

Проект автоматизации заводов «Логики молока»: внедрение роботизированной системы

leon_sergey 14 ноя 2025 в 20:18

Именно

Gemma 3: Google DeepMind делает ИИ по-настоящему доступным

leon_sergey 16 мар 2025 в 09:47

Зацикливание кстати очень часто происходит, даже далеко от границы достижения макс токенов

Gemma 3: Google DeepMind делает ИИ по-настоящему доступным

leon_sergey 16 мар 2025 в 09:46

Зависит от оболочки для запуска и установленного макс контекста.

Open webui с ollama есть гораздо больше памяти, лм студии меньше, но в любом случае, максимальный контекст даже для лм студии не больше 40-50 токенов для 12б 4км модели. Больший контекст не влазит в 24 гб памяти и после этого происходит значительный дроп производительности.

Gemma 3: Google DeepMind делает ИИ по-настоящему доступным

leon_sergey 13 мар 2025 в 07:14

и gpu? И какое время инференса на обеих моделях?

Gemma 3: Google DeepMind делает ИИ по-настоящему доступным

leon_sergey 13 мар 2025 в 04:33

Попробовал 12б 6км - 40 токенов и есть ещё запас по памяти, думаю 8 бит потянет. Но ничем выдающимся не отличается, только поддержка русского на высоте.

Gemma 3: Google DeepMind делает ИИ по-настоящему доступным

leon_sergey 12 мар 2025 в 18:33

27b 4_k_m на 3090 "летит" со скоростью 2,5 токена в сек. То есть неюзабельно.

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

leon_sergey 11 мар 2025 в 11:57

Я угадаю, что рабочий цеха хочет ввести, с трёх букв

leon_sergey 27 ноя 2024 в 15:35

Согласен, это весомые риски. Держим в голове обязательно 👍

Мы потратили 320 тысяч рублей ради Nvlink для нейросетей. Но был ли в этом смысл?

leon_sergey 27 ноя 2024 в 13:48

Спасибо за интересный тест. Почему такая низкая скорость инференса, если вся модель влезла в vram? Какого компонента не хватает системе для инференса хотя бы на уровне 10т\с?

Я угадаю, что рабочий цеха хочет ввести, с трёх букв

leon_sergey 25 ноя 2024 в 05:09

Ребята, спасибо за крутую идею! Как раз такая сейчас стоит задача в цехе и потом примерно к тем же мыслям - что ллм здесь излишне применять. А есть код или пример похожей реализации где-нибудь на github? Задача прямо 1 в 1.

Как подружиться с хаосом и осознанно управлять своим временем. Опыт продуктового дизайнера

leon_sergey 16 апр 2023 в 08:04

Очень хорошее базовое руководство по выходу из начального выгорания для менеджеров. Можно бесконечно детализировать различными инструментами, но рабочая основа уже есть. Забрал.