Обновить
1

Пользователь

Отправить сообщение

Непонятно, зачем ветки с бесконечно сжимаемым контекстном хранить. Каждое сжатие контекста - это шаг в сторону регресса. После нескольких итераций решение задач в той же ветке становится практически бессмысленным.

Автор, ты просто закинул в ИИ промт с просьбой написать статью и скопипастил результат? Ты вообще хотя бы раз запускал LLM локально? Во-первых, методы и параметры оборудования максимально отличаются от реально используемых. Какие ещё VPS, какой ARM, что за набор бреда?

Прочитай про аренду GPU, про квантованные модели, которые чаще всего запускают на бытовых видеокартах или арендованных мощностях.

За такое надо банить, я считаю.

Нейронка будет парсить огромный кусок текста, а если он будет разбит на модули, его банально будет проще править. На мой взгляд. По крайней мере, я сравнивал оба подхода, и пришёл к выводу, что всё в один файл пихать не особо эффективно.

Ахаха, уже и комментарии пишут с помощью нейронки)

Вот, поддерживаю, qwen3.6 27b - просто невероятная модель, так что статья устарела явно.

Ну не знаю, пользуюсь gut 5.5 pro для своих реальных проектов, и Codex решает сложнейшие задачи (в том числе, отлавливая ошибки, о которых я и представить не мог).

Никакой революции, к сожалению. Для задач кодинга это слабая модель. MoE-архитектура идеально подходит для локальных помощников с широким спектром простых задач вроде простых переводов, простых случаев написания скриптов, но вот для больших и сложных проектов, связанных с кодингом, они подходят плохо.

Потому что вы и сами можете представить, насколько сильно страдает качество генерации, учитывая, что там реально 3 миллиарда активных параметров.

Для реальных задач в области разработки нужно использовать либо очень большие MoE, либо dense-модели вроде недавно вышедшей qwen 3.6 27b (тоже маленькая, но она точно гораздо лучше в программировании).

Шестиконечная звезда)

Вряд ли эти отзывы имеют отношение к действительности. Почему сравнивают старую специализированную модель 2.5 coder с 3.5? Во-первых, непонятно, с какой именно (разное количество параметров в одном семействе). Во-вторых, почему тогда не сравнить сразу с 3.6 35B A3B? Ну, и объективно по любым тестам она будет проигрывать новым моделям (даже неспециализированным MoE) просто потому, что все эти новые маленькие модели наверняка получаются путем дистилляции флагманских моделей.

Не хочу быть токсичным и дизморалить автора, но:

  1. не пользоваться рассуждениями и агентскими возможностями модели, которая ИМЕННО для этого всего и создавалась - полное безумие. Лучше использовать классические density-модели, специально обученные для работы с кодом (тут уже можно дополнительно выбрать конкретную модель для написания/автодополнения);

  2. системные промпты пишутся не так.

Ну, и больше предпочтения я на вашем месте отдал бы загрузке квантованной модели с хорошей cli-средой и большим контекстом, и уже там бы смотрел на результат. И то, задача у вас не особо подходящая. Эта модель (я про Qwen 3.6 35B A3B) больше подходит для локального редактирования кода с использованием инструментов, а именно с созданием сайта и вёрсткой с нуля в сто раз лучше справятся более компактные и даже более старые модели, но монолитные и заточенные именно под написание кода с нуля.

Чтобы пользоваться такими древними ОС, надо быть совсем отбитым (при условии подключения к сети). Потому что это стопроцентная гарантия попадания в ботнет, т.к. критических уязвимостей найдено огромное количество с момента прекращения поддержки, и они никак не закрываются.

Локально, без доступа к сети - наверное, можно. Хотя, опять же, я не понимаю причин не пользоваться более современными и не особо требовательными ОС.

Я использовал четыре видеокарты на бытовой (хоть и дорогой) материнской плате, причем четвертый слот я получил с помощью PCIE-бифуркации и переходника M2->PCIE. И там было x1 (хоть и не PCIE 3.0), это не играет ровным счётом никакой роли, если речь не идет именно о загрузке модели.

Почитайте, чем инференс отличается от обучения или параллельного обсчёта на нескольких GPU. Для обучения скорость пропускания PCIE является решающим фактором (и поэтому порой даже не PCIE используется для передачи данных между устройствами), но для генерирования текста в обычных домашних системах вообще никакого значения не имеет (кроме скорости загрузки модели в видеопамять). Во время инференса (уже после загрузки слоёв в видеопамять) между видеокартами передаётся ничтожное количество данных - грубо говоря, активации. Реально вычисления производятся, как ни странно, на одном GPU (как правило. Например, вы можете открыть монитор ресурсов при работе LM Studio с двумя-тремя GPU: видеопамять будет заполнена, а реально работать будет только один GPU, при этом между видеокартами будет передаваться мало данных).

Вот если речь идёт про тензорный параллелизм - тогда да, это влияет достаточно сильно, но в 99% случаев такие системы (на 3-4 относительно низкопроизводительных GPU и на бытовой системе) собирают любители, которые могут максимум установить какой-нибудь Oobabooga WebUI, LMStudio, oollama или KoboldCPP, а про более сложные вещи они просто не слышали.

Про теорию чисел почитайте - чисто так, для самообразования. И тогда узнаете, что же это за n, p и так далее.

Такое же ощущение возникло, кстати.

На новых аудиоинтерфейсах все завязано на качественные DSP-чипы, имеющие мизерную задержку, некоторые позволяют штатными средствами обрабатывать микрофон и гитару практически без задержек, и выглядит это фантастически. То есть буквально даже не через стороннее ПО, а через приложение, входящее в комплект с драйвером, как на Sennheiser UR MK2.

Да дело не в количестве знаний человечества, а в том, что модели большого размера при прочих равных все же решают в разы более сложные задачи. Локально вы сможете вносить, к примеру, какие-то минорные правки в несколько файлов несложного проекта, но взять и загрузить проект хотя бы на 10 мб исходного кода, чтобы в разумное время модель сама его проанализировала, выдала резюме относительно особенностей архитектуры, протоколов, тонкостей технической реализации вы не сможете.

Ну, вы сравнили тоже... три 3090 (72 Гб видеопамяти) против 1 Тб. В одном случае вы запустите маленькую локальную модель, в другом - аналогичную онлайн-моделям огромного размера. Класс решаемых задач у них объективно не совпадает.

С вами вряд ли согласятся миллионы людей, играющие в игры наподобие "Wild Rift". Дело привычки. Я вот больше люблю тачскрин в этом отношении, хотя я и рос в 90-е годы.

Информация

В рейтинге
5 008-й
Зарегистрирован
Активность