Обновить
3
0.2
Константин@dkeiz

Пользователь

Отправить сообщение

вы недельный расчет на пк делаете? альтернатив нет?

>Загадочный смысл у этого вопроса, что вы вообще имели в виду?
Хотелось бы реальный список зада где реальной производительности реально не хватает. Убрать все сложновычислительные задачи, которые считаются на кластерах или через видеокарты. Убрать хайлоад в серверах, которые решаются за счет линейного масшатабирования.
Что останется? Очень долгая компиляция сложных проектов на макбуках, потому что мак про слишком дорогой? Так получается проблема не в производительности а в цене.
>Если ударяться в такие степи
Если не ударяться в такие степи то все остальное бессмысленно. Какое контрактное производство будет доступно, на таком и будем делать. А скорее всего не будем, потому что им продавать готовую продукцию нам - выгоднее, при условии грамотной логистики производства.

мне вот ради интереса, можете описать реальный стэк где не хватает? вот прям реально не хватает, а не чтобы оно делает расчет по 8 часов, а хотелось бы за 4.

оу, прошу прощения. Нет никакой проблемы в однопоточной производительности или в режиме трансляции. Есть одна проблема - эльбрус. Его не производит. Никто. И не будет.
Нет необходимости параллелить или оптимизировать код под не производимый процессор. Ничего под него него требуется. Сдох тузик, и не по своей вине.
А с дедами я вас спутал, потому что именно такое же ворчание встречал на форумах лет 10-15 назад. И про что надо просто все взять и перекомпилировать. И про то что x86 мертв. И про то что будущее за параллелизмом команд. И все они оказались правы. Вот только эльбрус до этих счастливых дней не дожил.

И я то вас понял, ещё лет 10 назад понял. а вот вы меня не поняли. Одно изменилось. Эльбрус вышел. Он был не плох. Его можно было допиливать и с ним работать. Но больше эльбруса нет. И не будет. Нечего оптимизировать под процессор которого нет и не будет. И нет никакого рака прикладного ПО. 90% людей пользуется телефонами на 3ггц и 6-8gb одноплатной памяти и все у них хорошо. И у софта все хорошо, когда интернет ловит. Хотя и этого скоро не будет.

Единственный бред - это выстраивать системы и заставлять людей работать под несуществующий продукт. На свои деньги выстраивайте, я на вас посмотрю.
По поводу однопотока - у нас есть прекрасные примеры от apple, которые воткнули другой подход к контроллеру памяти и всем всего хватает. И от amd, которые поставляли процессоры на 1ггц меньше, но с 3D-кэшем, и хрен их купишь теперь.

согласен, для памяти другие обозначения (1β - 1γ), но оно вызовет больше путаницы чем понимания. 4нм это про HBM. Но даже 12нм - это это пол года минимум если все готовое.

люди не предвидели, потому что люди не предвидели 100 млрд денег кэша у одной компании, которая выкупит все открытые контракты на поставку памяти. Ну не каждый день у одной компании без обязательств появляется сто ярдов денег на которые она уже не знает что ещё купить. А смогут ли китайцы закрыть грядущий дефицит для себя - им нечем его закрывать, 2nm на деревьях не растут, а из стареньких 7nm делать жутко не выгодно. Рынок покажет, но возможно на безрыбье и старую память начнут клепать. Но даже в таком случае задержка до выхода продукции 3-6 месяцев.

дед, во давай по честному, где имеет место быть недостаток производительности железа? Вот этот недостаток производительности он с нами в одной комнате?

Проблема эльбруса не в эльбрусе, хотя vliw попробовали все желающие, и все от него отказались. Проблема его - в производстве на литографии. Был бы свой 2nm завод можно было бы хоть в телефон пихать.

>, что задача была что sequence должен начать выдачу с "последнее значение KeyId + 1
Вот так бы дипсику и ответили, и показали что он об этом думает.

Есть подозрение что высокая ценна - это pay wall чтобы конкуренты, особенно откуда-то с азии, не получали высококачественные синтетические данные. А то внезапно через 2 месяца выйдет deepseek r2 по всем тестам догоняющий, но опять условно бесплатный. Второй раз такой ошибки не будет.

ради такого можно и }коду попробовать

токен - базовая единица для языковых моделей и вообще расчета инференса.
Раньше люди информацию измеряли мегабайтами, LLM измеряет токенами.

AidBlock, настало твоё время!
А вообще главный вопрос не куда уходить а за чем уходить. Для информации в прошлом хватит одной большой LLM, был бы инференс доступен. Для настоящего - только общение с непосредственными участниками процесса, посредники не нужны. Так что уходить либо в люди, либо от людей. Интернет оставим ботам, их тут все равно больше чем нас.

Осталось протестировать и узнать - это очередная benchmaxed модель или реально что-то интересное.
Предыдущий V3.2Exp был очень тупой, но очень дешевый.
То что V3.2-Speciale должен уметь решать сложные задачи, но при этом не умеет в tool call вызывает недоумение. Получается либо это ультранишевая моделька ученных повеселить, либо придется врапать вокруг искусственный tool call, что всегда минус.
Есть подозрение, что tool call завезут по традиции чуть позже, может под новый год. Будем ждать.
P.S. бенчи не интересны, но многие ожидают от deepseek интересных моделей. Смогут ли эти обогнать R1-0528?

rust + iced или node + fastapi, пару локальных проектов. Что qwen что gemini что glm требовали babysitting'а. Сейчас вот запущен симулятор детского сада с grok-code-fast, но он хотя бы бесплатный. И все они каждый раз после обсуждения плана лезут туда куда их не просят и забывают оригинальный план в три итерации.

Я глядел все. И платное и бесплатное. Единственная модель с которой мне не приходится спорить по поводу архитектурных решений R1-0528. Я предпочту беду с контекстом чем бесконечные споры с LLM и ежесекундные вычитывания их бредопредложений. Но это в моем стеке. Для всяких html one-shot qwen coder очень хорош. Сейчас вот сижу бодаюсь с gemini 2.5pro пока на openrouter R1 не доступен и это такая трата токенов в никуда.
Сейчас бы сберовский кодер бахнуть, но где его найти за 10 баксов в год.

С одной стороны - обучить самостоятельно модель класса DeepSeek V3 с нуля - это очень крутая задача. Поздравляю.
Получается отставание на 9 месяцев от китайской лабы, но это все равно прекрасно.
С другой стороны - почему V3 а не R1? По опыту R1 показывает себя сильно лучше там где нужна реально большая LLM, а не просто чат. Ещё вопрос - если уж это не reasoning модель то смысл делать чат на больших весах? Для чата и малых моделей хватает, им важнее умение держать контекст и/или работать с mcp tool call. А тут tool call не завезли.
Куда применять 10 A1.8B тоже не понятно. Сами пишите, что dense модели проще обучать, но в отличи от <10B MOE A1.8B> Qwen3 4B можно хоть на телефоне запускать, базовые требование по памяти сильно меньше. А тут не мелкая MoE модель как её файнтюнить локально? Не понятно.
Ну и отдельный момент - раз обучили модель, значить есть на чем, есть железо, есть инфраструктура, и есть специалисты. Это замечательно.
Вот прям DeepSeek у нас дома. Лишь бы был дальнейший прогресс.
Но с высоты своего дивана не вижу причины перелезать с R1-0528 для кодинга и qwen4b-oblitirated для локального баловства.

получить реальные 256к контекста на домашнем железе практически невозможно, так что возможно вы не верно задали настройки, либо они были проигнорированы и свалились в дефолтные 4k (особенно если подключались сторонним клиентом).
У ollama вышло обновление с gui, попробуйте там покрутить настройки и поиграться с чатом. А чтобы модель точно следовала вашим указаниям об этом ей надо сообщить в системном промпте (или в правилах), да и температуру выставить. Много, в общем, параметров.
Если с ollama не наглядно попробуйте LM Studio - там GUI подскажет, на сколько это возможно.

контекст теряют потому что в дефолте запускаются с малым контекстным окном (вроде 4k), поставьте больше и не будут терять контекст. Применение - отлично работает в рамках qwen3-4b-vl-Instruct, с mcp tool call и распознаванием всего подряд. А как это использовать вы уж сами решайте.
Собственно все тоже самое можно запустить на любом телефоне. Это год назад модели меньше 8B были очень тупыми, сейчас скорее возникает вопрос зачем кроме кодинга использовать большие модели.

для рефакторинга CLI отлично подходит. Можете побаловаться с qwen cli, можете сразу поставить codex или claude. Если проект большой и сложный то бесплатно будет мучительно больно.

>допустим, у вас нейросеть однобитная
не допустим

Информация

В рейтинге
3 058-й
Откуда
Чебоксары, Чувашия, Россия
Дата рождения
Зарегистрирован
Активность