Или обновили, или ещё что.. Сегодня скачал - как написано 16.5, так и на диске занимает 16.5 Впрочем не важно, 15.5 слишком много для реальной работы на GPU, необходимо выносить часть слоёв. Плохо! Делали бы они все модели 20B, как OpenAI - вот это комфортный размер для 16ГБ. А тут прям как насмешка..
А про паплайн.. спасибо за совет! Я лишь имел в виду, что если уж включать "думание", то его не следует ограничивать, иначе ерунда получается.
Да, уже разобрался про Nvidia. Жаль. Тому же Unsloth возможно имеет смысл "подкрутить" бенчмарки, а вот Nvidia вроде особого смысла нет, могут просто качественно стараться сделать.
Спасибо за результаты, пойдёт как ориентир. Однако Вы сами не нейросеть? :) 1) у Вас "Gemma 4 - 15,5 ГБ" а в другом абзаце "помещается в VRAM". И потом приводите порог в 15.3.. Если сама сеть 15ГБ+, то в 16ГБ она никак не лезет, Ваши же пороги это подверждают.
Хотя ладно: 2) Не могли бы сказать, кто сжимает Гемму MXFP4 в 15.5 ? Я вижу только 16+ варианты 3) Так понимаю, что llama.cpp ещё не поддерживает NVFP4? Иначе можно было бы взять квант напрямую от Nvidia. 4) И по моим наблюдениям, часто QWEN3.6 –reasoning off работает лучше, чем с размышлениями. Однако уже не раз натыкался, что для qwen надо именно что НЕ ограничивать бюджет на размышления, типа это у них в архитектуре заложено. Однако на железках уровня 5060/5070 выглядит малореально..
И эта модель ( gpt‑oss‑20b ) реально работает на 5060 Ti 16ГБ ? Опыта мало, выбираю себе для такой же карты модель в качестве baseline-а для агентской системы.
YOLO внутри сразу, скорей всего, "пожмёт" Ваши данные к 640х640 и ничего не поменяется. Причём и снизу(480p) и сверху (1080p). Так что в детекции только небольшие накладные расходы.. Извините что опять встреваю)
У Вас на видео в простейшем случае вылезла ошибка, а Вы забыли это упомянуть. Потому следующие замечания: 1) 100 эпох на yolo8n для детекции номеров на 25к изображений? У меня не то чтобы много опыта, но тот что есть, говорит - скорей всего переобучение. Для подобной задачи это всё ещё большая модель. 2) Вот на видео очевидная пробелма в простейшей ситуации. И подозреваю, что Вы не знаете, как это фиксить. Проблема "коробочного" решения в 2 клика.. Но может я и ошибаюсь - распознаватель-то у Вас свой )
Было бы приятнее прочитать про Ваш опыт, если бы в статье было поменьше восторженных эпитетов, если результат отнюдь не выдающийся. Однако какой-то результат получили, что уже неплохо!
Разве что в самом начале, как и в обычном обучении. Потом формируются закономерности, как и в обыном обучении, причём формируются и у обучаемого и у обучающего. И зайти он, очевидно, может гораздо дальше, нежели зашли мы с собственными архитектурами и подходами. Действительно интересно..
Немного оффтоп и я не спец, но часто повторяемая идея "данные закончились" кажется весьма абсурдной. Сколько знаний большие модели могут извлечь из задачи "вот перыдущие 5 кадров видео с едущей по дороге машиной, нарисуй 6-й?" Или дальше, "вот кадры начала падения капли жидкости, добавь следующие". "Предскажи положинеи листа на дереве", "сгиб куска пластика"? Бесконечное море данных! Причём очень точных, без дилетансткого "шума" в интернете..
Мной, как не профессионалом в области, использование чанков воспринимается жутким костылём. Даже Ваши статистические выкладки не убедили: похоже, результат больше зависит от того, попала ли связанная информация в один чанк или нет. Неужели нет распростронённых подходов в виде каких-нибудь "семантических деревьев поиска"(фразу я придумал) или что-то подобного? Понимаю, что в индустрии "все" так делают, но это очевидный недостаток алгоритма, на мой взгляд.
Весьма наглядный пример и есть возможности для развития, благодарю!
Вопрос: не будет ли преимуществом объединить(перенести в единую модель) извлечение ключевых слов и формирование эбеддингов? Ведь когда Вы одной сеткой извлекаете ключевые слова и темы, то вы разрушаете между ними связь. Т.е. для второй сетки, которая фомирует эмбеддинги, это просто отдельные слова и фразы.
Очень интересно. Спасибо за статью, так бы пропустил.. Мне кажется это отличный маркер готовности к серьёзной работе в ML - если можешь сходу осознать каждую формулу и замечание из этой работы!
Если решите поразбираться, то, как предлагали в другой статье про Курсор, можете подсунуть собственный ключ от openAI/Google и т.д. и посмотреть реальный промт на другой стороне. На всякий случай, вдруг не в курсе..
Предположу, что стиль изложения больше подходит специалистам-теоретикам, чем тем, кто решает практические задачи. Остальным, чтобы разобратсья в этих формулах, необходимо прилагать усилия, пусть и не большие. А смысла в этом сокрей всего не будет, раз не применяется широко..
Автору: если Вы заинтересованы в обсуждении данной темы, Вы бы подготовили наглядный пример, допустим что-нибудь на ViT для картинок и показали разницу, между классическим подходом и вашим.
Или обновили, или ещё что.. Сегодня скачал - как написано 16.5, так и на диске занимает 16.5
Впрочем не важно, 15.5 слишком много для реальной работы на GPU, необходимо выносить часть слоёв. Плохо!
Делали бы они все модели 20B, как OpenAI - вот это комфортный размер для 16ГБ. А тут прям как насмешка..
А про паплайн.. спасибо за совет! Я лишь имел в виду, что если уж включать "думание", то его не следует ограничивать, иначе ерунда получается.
Да, уже разобрался про Nvidia.
Жаль. Тому же Unsloth возможно имеет смысл "подкрутить" бенчмарки, а вот Nvidia вроде особого смысла нет, могут просто качественно стараться сделать.
Спасибо за результаты, пойдёт как ориентир. Однако Вы сами не нейросеть? :)
1) у Вас "Gemma 4 - 15,5 ГБ" а в другом абзаце "помещается в VRAM". И потом приводите порог в 15.3.. Если сама сеть 15ГБ+, то в 16ГБ она никак не лезет, Ваши же пороги это подверждают.
Хотя ладно:
2) Не могли бы сказать, кто сжимает Гемму MXFP4 в 15.5 ? Я вижу только 16+ варианты
3) Так понимаю, что llama.cpp ещё не поддерживает NVFP4? Иначе можно было бы взять квант напрямую от Nvidia.
4) И по моим наблюдениям, часто QWEN3.6 –reasoning off работает лучше, чем с размышлениями. Однако уже не раз натыкался, что для qwen надо именно что НЕ ограничивать бюджет на размышления, типа это у них в архитектуре заложено. Однако на железках уровня 5060/5070 выглядит малореально..
Благодарю за ссылки и совет.
И эта модель ( gpt‑oss‑20b ) реально работает на 5060 Ti 16ГБ ?
Опыта мало, выбираю себе для такой же карты модель в качестве baseline-а для агентской системы.
YOLO внутри сразу, скорей всего, "пожмёт" Ваши данные к 640х640 и ничего не поменяется. Причём и снизу(480p) и сверху (1080p). Так что в детекции только небольшие накладные расходы..
Извините что опять встреваю)
У Вас на видео в простейшем случае вылезла ошибка, а Вы забыли это упомянуть.
Потому следующие замечания:
1) 100 эпох на yolo8n для детекции номеров на 25к изображений? У меня не то чтобы много опыта, но тот что есть, говорит - скорей всего переобучение. Для подобной задачи это всё ещё большая модель.
2) Вот на видео очевидная пробелма в простейшей ситуации. И подозреваю, что Вы не знаете, как это фиксить. Проблема "коробочного" решения в 2 клика.. Но может я и ошибаюсь - распознаватель-то у Вас свой )
Было бы приятнее прочитать про Ваш опыт, если бы в статье было поменьше восторженных эпитетов, если результат отнюдь не выдающийся.
Однако какой-то результат получили, что уже неплохо!
"Афтар пишы исчо!"(С)
А если серьёзно, то очень полезно, благодарю!
Для интересующихся, такие обзоры очень полезны - позволяют чётко увидеть тренд.
Попробуем, попробуем. Благодарю!
Разве что в самом начале, как и в обычном обучении.
Потом формируются закономерности,
как и в обыном обучении, причём формируются и у обучаемого и у обучающего. И зайти он, очевидно, может гораздо дальше, нежели зашли мы с собственными архитектурами и подходами.Действительно интересно..
Немного оффтоп и я не спец, но часто повторяемая идея "данные закончились" кажется весьма абсурдной.
Сколько знаний большие модели могут извлечь из задачи "вот перыдущие 5 кадров видео с едущей по дороге машиной, нарисуй 6-й?" Или дальше, "вот кадры начала падения капли жидкости, добавь следующие". "Предскажи положинеи листа на дереве", "сгиб куска пластика"?
Бесконечное море данных! Причём очень точных, без дилетансткого "шума" в интернете..
Весьма обстоятельно!
Мной, как не профессионалом в области, использование чанков воспринимается жутким костылём. Даже Ваши статистические выкладки не убедили: похоже, результат больше зависит от того, попала ли связанная информация в один чанк или нет.
Неужели нет распростронённых подходов в виде каких-нибудь "семантических деревьев поиска"(фразу я придумал) или что-то подобного? Понимаю, что в индустрии "все" так делают, но это очевидный недостаток алгоритма, на мой взгляд.
Весьма наглядный пример и есть возможности для развития, благодарю!
Вопрос: не будет ли преимуществом объединить(перенести в единую модель) извлечение ключевых слов и формирование эбеддингов? Ведь когда Вы одной сеткой извлекаете ключевые слова и темы, то вы разрушаете между ними связь. Т.е. для второй сетки, которая фомирует эмбеддинги, это просто отдельные слова и фразы.
А есть ли преимущества по сравнению с тем же CocoTB? Было бы неплохо сравнить)
Очень интересно. Спасибо за статью, так бы пропустил..
Мне кажется это отличный маркер готовности к серьёзной работе в ML - если можешь сходу осознать каждую формулу и замечание из этой работы!
Если решите поразбираться, то, как предлагали в другой статье про Курсор, можете подсунуть собственный ключ от openAI/Google и т.д. и посмотреть реальный промт на другой стороне. На всякий случай, вдруг не в курсе..
Предположу, что стиль изложения больше подходит специалистам-теоретикам, чем тем, кто решает практические задачи. Остальным, чтобы разобратсья в этих формулах, необходимо прилагать усилия, пусть и не большие. А смысла в этом сокрей всего не будет, раз не применяется широко..
Автору: если Вы заинтересованы в обсуждении данной темы, Вы бы подготовили наглядный пример, допустим что-нибудь на ViT для картинок и показали разницу, между классическим подходом и вашим.
А на Python? :)
Выглядит очень интересно! Прям достойно полноценной статьи.
Глядишь и ПЛИС перестанут быть экзотикой..
Подскажите, для задач кодинга Курсор используете или что-то другое? Или может сами соорудили себе инструмент?