Я тоже так сначала подумал, и такого в сети хватает. Именно поэтому я нагуглил сам документ и автор прикрепил его в статью (посмотрите первые комментарии в цепоче). Вы сначала взгляните ещё раз на сам документ, немного более внимательно, а то мне кажется вы поспешили с выводами.
Там про 35 лет тоже есть, но скорее тут про формулировки, про дружины, про расплывчато описанные превинтимные меры.
Главное не понятно чего добиваются, какой-то тяни-толкай. С одной стороны у запада с каждым днем все больше средств воздействия на умы населения и ввиду этого вылетают запреты целых платформ. С другой стороны постановления вроде того что мы обсуждаем выглядят так будто попытка вырастить побольше конформистов, но конформистами проще управлять. И непонятно что в итоге это за мечево.
А знаете что самое смешное? Через пару лет никаких живых дружинников с их субъективным "выискиванием" не будет. Они натаскают нейросеть на наших же омментариях, и робот-патрульный будет ставить вам диагноз "обременённость излишними знаниями" автоматически, за 0.3 секунды. Так что молимся товарищи, чтобы наших комментариев в датасете не оказалось.
Да, если просто вдуматься в суть что первого, что второго документа. Эээ. как бы это помягче сказать... - напоминает помесь неких исторических фактов и некоторой литературы, и вовсе не напоминает план, надёжный как часы.
я уже тоже почитал. Тоже пришёл к выводу, что чтиво больно сырое, детерминированности явно не хватает. Цель ясна и понятна, а заголовки будущих методологий определённо подкачали...
Но самое интересное в этом, если рассматривать это как ускореное (а потому топорное) внедрение привентивных мер противодействия - то какого будет воздействие?)
Новость любопытная, но без ссылки на документ отдаёт в жёлтый спектр. Ссылка на ТАСС, которая подписана "документ" - здорово, но у ТАСС ни ссылки, ни хотя бы текста документа тоже не наблюдается.
Ну да, а когда майнинг у некоторых индивидов был на девелоперской машине, выжирал весь GPU, то сам редактор на CPU рисовался ещё печальнее. Так что это не "куда катится мир, проклятье!" а обычная разгрузка шины, в стиле современности)
Разве не вы писали 3GB или 27GB в ram/vram памяти? Но я рад, что вы уточнили этот момент.
`обосновываю, что для сравнения модель qwen3.6-35b-a3b более близкий аналог` - я с вами согласен.
По делу: да, llama.cpp бэкенд имеет такую особенность инференса. И снова я повторюсь - MoE ускоряется за счёт меньшего числа FLOPs, и даже если мы берем бэкенд llama.cpp: 1) загрузка части --model moe это особенность конкретного инференса, а не свойства архитектуры MoE, и загрузится как вы правильно сказали `базовые слои и нужных экспертов` и это не 3Gb 2) и главное - MoE ускоряется за счёт меньшего числа FLOPs и даже без соответствующего режима --model moe, у будучи полностью загруженной модели, производительность не уменьшится пропорционально расходу памяти (как бы хотелось), а не изменится или даже скорее всего увеличится (дозалитие экспертов в кейсе 1 требует времени, а тут все уже в памяти)
MoE модели грузятся в v(ram) целиком, все параметры/слои, включая "неактивные"). Так что потребление v(ram), может быть даже выше, чем у Dense (плотной) модели того же размера (арбитр, гейт слои т.п., те самые 3B). Речь идет об ускорении инференса за счёт того, что для каждого токена активируется лишь малая часть "экспертов" - получается меньше FLOPs (вычислений), но никак не меньше занятой памяти. 35B-A3B встречается редко, тем не менее это про 3млрд "активных" из 35, но все в вашей v(ram) так или иначе. В любом случае быстрее -да, но не про экономию v(ram).
с потерей детерминированности, на мой взгляд, можно будет мириться с многими "НО". Хотя-бы чтобы генерация всего приложения с нуля занимало секунды или хотя-бы минуты. Т.е. например ЛЛМ использовала бы очень высокоуровневый ЯП. Развитие тестов e2e, чтобы тестировать как черный ящик, и не во всех предметных областях, конечно же - для космонавтики, медицины, авиации все равно низкий уровень и детерминизм. В целом направление годное, но для ниши программирования (что-то сложнее табуретки) оно сыровато пока. Хотя, с умом, местами уже можно использовать.
upd. А ну ещё и экономическая составляющая данного вопроса тоже имеет место быть.
wan2.1 + 4steps lora. и будет вам счастье на вашей 3060 - примерно 90 + 90 сек генерацию. Там есть версия, где две модели high и low noise (как в wan2.2), каждая в q4 влезает на 3060 с её 12 гб, инференс по очереди - сначала high, потом low.
P.S.: А на wan2.2 у вас такой долгий инференс был, скорее всего потому, что просто модель в VRAM не уместилась.
Лично мои впечатления от вайб-кодинга: - сам код это "джуносеньор", конечно зависит от модели, но нужен постоянный ревью; - местами беды с неактуальными знаниями, например чуть устаревшие библиотеки у которых вышла новая мажорная версия; - стилистика кода - либо ужесточай линтер до предела, либо корми в контекст чуть ли не весь проект (по токенам интересная картина), либо правь за ним; - проморгал, недосмотрел и техдолг выше бурж-халифы; - чем крупнее и сложнее проект, тем сложнее с ним работать таким образом; - создание чего-то с нуля - черновик (скучный CRUD, миграции БД, базовые DTO) делает молниеносно, а вот если что-то сложное тогда (нет валидации, нет транзакций, индексы не те) и т.п... Короче молниеносно не тоже самое, что готово к проду; - попадание в предметную область - тут все сложно особенно когда предметная область сложная.
Это только первое что приходит на ум. В целом, местами как будто бы ассистирует. По ощущениям местами может ускорить процентов на 15-25. Но фокус внимания чуть больше смещается на код ревью с определенной спецификой (например корявый код джуна смотришь под лупой, а код сильной ллм можешь проморгать расслабившись).
Хоть и есть на хабре очень интересные статьи про нейросети (и ллм в частности), и с неросетями работать интересно (в т.ч. файнтюнить и разбираться в механизмах), но хайп немного бесит =)
Интересная штука. Хотел потыкать, но у вас регистрация только по приглашениям. Судя по описанию и скринам интерфейса (здесь и у вас на сайте), я бы сказал, вашей системе недостаёт векторного поиска. Полезная штука, когда документации много и коррелирует с вашими планами - я имею в виду ИИ помощника (RAG)
В целом тяжеловато что-то делать когда это происходит не в IDE, а в окне браузера. Но все же тоже изредка этим грешу)). Конкретно про облачный deepseek могу сказать, что если сначала обговорить с ним архитектуру или продумать ее самому (или описать если она уже разработана), а deepseek'у максимально конкретизировать задачу - то он не занимается такой ерундой.
А в целом работа через ИИ это постоянный жесткий codereview, даже покруче чем с джунами. И задачи описывать приходится мегаподробно. А там где мегаподробно описывать не нужно - проще самому руками сделать. Может, конечно, я что-то не так делаю :)
Насколько я понял, они использовали iFlow Cli два агента: Архитектор и Программист. Они брали реальный репозиторий (какого-нибудь публичного проекта) в исходном состоянии и какой-нибудь целевой коммит (спустя долгое время, в среднем почти год или 70 коммитов спустя). Ставилась задача пройти путь от базы до целевого коммита внося изменения итеративно. В каждой итерации Архитектор генерил файл requirements.xml для Программиста который попадал в его контекст с остальными файлами проекта. Что касается MCP, то у IFlow CLI он полностью поддерживается, но судя по описанию теста не использовался. Там прямо говориться что агентам было запрещено выходить за границы директории проекта, запускать тесты, и т.д.
Я тоже так сначала подумал, и такого в сети хватает. Именно поэтому я нагуглил сам документ и автор прикрепил его в статью (посмотрите первые комментарии в цепоче). Вы сначала взгляните ещё раз на сам документ, немного более внимательно, а то мне кажется вы поспешили с выводами.
Там про 35 лет тоже есть, но скорее тут про формулировки, про дружины, про расплывчато описанные превинтимные меры.
Главное не понятно чего добиваются, какой-то тяни-толкай. С одной стороны у запада с каждым днем все больше средств воздействия на умы населения и ввиду этого вылетают запреты целых платформ. С другой стороны постановления вроде того что мы обсуждаем выглядят так будто попытка вырастить побольше конформистов, но конформистами проще управлять. И непонятно что в итоге это за мечево.
А знаете что самое смешное? Через пару лет никаких живых дружинников с их субъективным "выискиванием" не будет. Они натаскают нейросеть на наших же омментариях, и робот-патрульный будет ставить вам диагноз "обременённость излишними знаниями" автоматически, за 0.3 секунды. Так что молимся товарищи, чтобы наших комментариев в датасете не оказалось.
Жесть
К сожалению, видимо, не все там любят/знают историю.
Да, если просто вдуматься в суть что первого, что второго документа. Эээ. как бы это помягче сказать... - напоминает помесь неких исторических фактов и некоторой литературы, и вовсе не напоминает план, надёжный как часы.
Спасибо я оценил)))
Но стоит отдать должное, тут хотя-бы есть
Т.е. шаги в сторону объяснения терминов и определений в рамках "полёта мысли" для менее искушённых. Именно этого не хватает в предыдущем документе.
я уже тоже почитал. Тоже пришёл к выводу, что чтиво больно сырое, детерминированности явно не хватает. Цель ясна и понятна, а заголовки будущих методологий определённо подкачали...
Но самое интересное в этом, если рассматривать это как ускореное (а потому топорное) внедрение привентивных мер противодействия - то какого будет воздействие?)
upd. Нагуглил.
Оставлю здесь http://publication.pravo.gov.ru/document/0001202605040042?index=1
Содержание любопытное. Был бы рад, если бы автор чуть больше раскрыл тему основываясь на самом документе.
Новость любопытная, но без ссылки на документ отдаёт в жёлтый спектр. Ссылка на ТАСС, которая подписана "документ" - здорово, но у ТАСС ни ссылки, ни хотя бы текста документа тоже не наблюдается.
Ну да, а когда майнинг у некоторых индивидов был на девелоперской машине, выжирал весь GPU, то сам редактор на CPU рисовался ещё печальнее. Так что это не "куда катится мир, проклятье!" а обычная разгрузка шины, в стиле современности)
Разве не вы писали
3GB или 27GB в ram/vram памяти? Но я рад, что вы уточнили этот момент.`обосновываю, что для сравнения модель qwen3.6-35b-a3b более близкий аналог` - я с вами согласен.
По делу: да, llama.cpp бэкенд имеет такую особенность инференса. И снова я повторюсь - MoE ускоряется за счёт меньшего числа FLOPs, и даже если мы берем бэкенд llama.cpp:
1) загрузка части
--model moeэто особенность конкретного инференса, а не свойства архитектуры MoE, и загрузится как вы правильно сказали `базовые слои и нужных экспертов` и это не 3Gb2) и главное - MoE ускоряется за счёт меньшего числа FLOPs и даже без соответствующего режима
--model moe, у будучи полностью загруженной модели, производительность не уменьшится пропорционально расходу памяти (как бы хотелось), а не изменится или даже скорее всего увеличится (дозалитие экспертов в кейсе 1 требует времени, а тут все уже в памяти)MoE модели грузятся в v(ram) целиком, все параметры/слои, включая "неактивные"). Так что потребление v(ram), может быть даже выше, чем у Dense (плотной) модели того же размера (арбитр, гейт слои т.п., те самые 3B). Речь идет об ускорении инференса за счёт того, что для каждого токена активируется лишь малая часть "экспертов" - получается меньше FLOPs (вычислений), но никак не меньше занятой памяти.
35B-A3Bвстречается редко, тем не менее это про 3млрд "активных" из 35, но все в вашей v(ram) так или иначе. В любом случае быстрее -да, но не про экономию v(ram).с потерей детерминированности, на мой взгляд, можно будет мириться с многими "НО". Хотя-бы чтобы генерация всего приложения с нуля занимало секунды или хотя-бы минуты. Т.е. например ЛЛМ использовала бы очень высокоуровневый ЯП. Развитие тестов e2e, чтобы тестировать как черный ящик, и не во всех предметных областях, конечно же - для космонавтики, медицины, авиации все равно низкий уровень и детерминизм. В целом направление годное, но для ниши программирования (что-то сложнее табуретки) оно сыровато пока. Хотя, с умом, местами уже можно использовать.
upd. А ну ещё и экономическая составляющая данного вопроса тоже имеет место быть.
wan2.1 + 4steps lora. и будет вам счастье на вашей 3060 - примерно 90 + 90 сек генерацию. Там есть версия, где две модели high и low noise (как в wan2.2), каждая в q4 влезает на 3060 с её 12 гб, инференс по очереди - сначала high, потом low.
P.S.: А на wan2.2 у вас такой долгий инференс был, скорее всего потому, что просто модель в VRAM не уместилась.
ваши бы слова, да эффективным менеджерам в уши
Лично мои впечатления от вайб-кодинга:
- сам код это "джуносеньор", конечно зависит от модели, но нужен постоянный ревью;
- местами беды с неактуальными знаниями, например чуть устаревшие библиотеки у которых вышла новая мажорная версия;
- стилистика кода - либо ужесточай линтер до предела, либо корми в контекст чуть ли не весь проект (по токенам интересная картина), либо правь за ним;
- проморгал, недосмотрел и техдолг выше бурж-халифы;
- чем крупнее и сложнее проект, тем сложнее с ним работать таким образом;
- создание чего-то с нуля - черновик (скучный CRUD, миграции БД, базовые DTO) делает молниеносно, а вот если что-то сложное тогда (нет валидации, нет транзакций, индексы не те) и т.п... Короче молниеносно не тоже самое, что готово к проду;
- попадание в предметную область - тут все сложно особенно когда предметная область сложная.
Это только первое что приходит на ум. В целом, местами как будто бы ассистирует. По ощущениям местами может ускорить процентов на 15-25. Но фокус внимания чуть больше смещается на код ревью с определенной спецификой (например корявый код джуна смотришь под лупой, а код сильной ллм можешь проморгать расслабившись).
Хоть и есть на хабре очень интересные статьи про нейросети (и ллм в частности), и с неросетями работать интересно (в т.ч. файнтюнить и разбираться в механизмах), но хайп немного бесит =)
я по названию нагуглил https://gost-on.ru/
Интересная штука. Хотел потыкать, но у вас регистрация только по приглашениям. Судя по описанию и скринам интерфейса (здесь и у вас на сайте), я бы сказал, вашей системе недостаёт векторного поиска. Полезная штука, когда документации много и коррелирует с вашими планами - я имею в виду ИИ помощника (RAG)
В целом тяжеловато что-то делать когда это происходит не в IDE, а в окне браузера. Но все же тоже изредка этим грешу)). Конкретно про облачный deepseek могу сказать, что если сначала обговорить с ним архитектуру или продумать ее самому (или описать если она уже разработана), а deepseek'у максимально конкретизировать задачу - то он не занимается такой ерундой.
А в целом работа через ИИ это постоянный жесткий codereview, даже покруче чем с джунами. И задачи описывать приходится мегаподробно. А там где мегаподробно описывать не нужно - проще самому руками сделать. Может, конечно, я что-то не так делаю :)
Насколько я понял, они использовали iFlow Cli два агента: Архитектор и Программист. Они брали реальный репозиторий (какого-нибудь публичного проекта) в исходном состоянии и какой-нибудь целевой коммит (спустя долгое время, в среднем почти год или 70 коммитов спустя). Ставилась задача пройти путь от базы до целевого коммита внося изменения итеративно. В каждой итерации Архитектор генерил файл requirements.xml для Программиста который попадал в его контекст с остальными файлами проекта. Что касается MCP, то у IFlow CLI он полностью поддерживается, но судя по описанию теста не использовался. Там прямо говориться что агентам было запрещено выходить за границы директории проекта, запускать тесты, и т.д.