Обновить
-2

Back to the roots

Отправить сообщение

Есть определенная стилизация кода, и там все на English, поэтому либо пишите по общепринятому стилю на английском, либо дообучите модель на dense преобразование, чтобы он взял целый проект (full context) + сделал анализ (каждую строчку кода , каждый класс и объект), а затем выписал это все списком в отдельный .md себе.

link - ссылка
button - кнопка

Но лучше первый вариант, потому что рано или поздно он все равно периодически будет писать как его обучили на уровне тензоров.

Еще вариант - сменить LLM, авось другая обучалась на коде в кириллице

8Gb VRAM

16Gb RAM

250Gb Nvme

Реально вообще qwen3.6 MoE запустить в llama.cpp?)

Ща буду пробовать сперва эти модельки, потом уже turboquant и танцы с бубном подключать.

Qwen3.6-35B-A3B-UD-IQ4_NL
Qwen3.6-35B-A3B-UD-IQ4_XS
Qwen3.6-35B-A3B-UD-IQ3_S
Qwen3.6-35B-A3B-UD-IQ3_XXS

Спасибо за наводку.

почему статью еще не потерли, а автор не в бане?

а md для чего? Впринципе не проблема так сделать. У меня там ChromaDB при нахождении чанка возвращает весь документ целиком, я посчитал, что для регуляторки это то, что нужно и md тут лишний, т.к метаданные из доков нужны минимальные (номера, заголовки, пункты, типизированные обозначения и названия), а основное выполнение энкодера будет ориентироваться на dense/lexical. Документы - ГОСТы скачанные с Консультант+ с мусором и банерами и кривыми кодировками внутри доков. То есть они очищаются и могут лежать в оюбом формате doc/md/txt/json/pdf. У меня там docx. Сейчас такой RAG уже во всех IDE есть в виде встроенной тулзы - добавление документаций в контекст модели, вот там .md как раз must have

Вопрос знатокам, а ведь можно же расширить model context (который 32k) до условных 128k, задействуя не VRAM видеокарты, а RAM/Nvme?

GPU Direct Storage/HiFC - это тут применимо вообще? Скорость t/s вообще не важна, главное чтобы слабое железо тянуло сложные задачи. Или все-таки порекомендуете лучше думать в сторону выбора другой модели и квантизации? Ну просто 32к это совсем ниочем, функцию написать и задебаждить максимум…

Инструкции из системного промпта берутся, которые всегда сидят в кеше и работают только в stateless (без сохранения состояния модели/без сохранения истории предыдущих запросов). Вы говорите про attention. Снижение температуры как раз на attention влияет, но на моей практике температуру лучше не трогать, а грамотно и кратко составить инструкцию, подбирая каждое слово так, чтобы их векторные представления были далеко друг от друга.

Лучше киньте боевой пример, я наглядно вам покажу

Continue это oss плагин в VS code, в виде чат-интерфейса как и встроенный copilot, но без привязок и лимитов как copilot, а работающий как отдельный агент (инстанс). Ты сам выбираешь, какой llm/cli/backend использовать. Единственное, нужно немножко попариться, чтобы четко настроить backend (mcp/tools/docs/rag и т.д)

  • в continue можно много инстансов поднять на разных агентах, то есть это полноценный agentic-workflow инструмент, хотя изначально он создавался как авто-комплитер.

Интересный проект, а почему бесплатный? Тенденция в 1С обратная вроде…

Официальных MCP у 1С нету… Есть только кастомные, кривые, которые потом еще самому допиливать придёться. Нужно выкачивать всю документацию их https://its.1c.ru/db/v8std и конвертировать всё в agentskills. Сизифов труд. HTTP открытый вроде. Еще прокси как сервис надо поднимать для аутификации / прямого подключения stdio.

UPD: ну вот же

https://github.com/Nikolay-Shirokov/cc-1c-skills https://github.com/johnnyshut/1c-its-parser-py

куча кастомных проектов, а через год они выкатят изменения, и все перестанет работать)) и это только конфигурация, а еще есть базы данных OData с коммерческой инфой, их же тоже надо по-хорошему в контексте хранить как-то. Ой, проще на нормальную архитектуру перейти, чем с этим 1С тюкаться. Монолитный динозавровый помет… Надо на S3 переходить потихоньку всем.

Автор, в целом все грамотно настроил, но у тебя reasoning не работал на Квене нормально потому что:

Qwen3-Coder 30B-A3B coder не поддерживает режима Thinking/Reasoning, но у нее огромный контекст (256К-1М) поправь для неё ещё:

--mmap
--n-gpu-layers 48

Qwen 3.5/3.6 35B-A3B qwen использует chatML для jinja, нужно добавить параметр в llama

--cml

UPD: или просто скачай фикс, вышел недавно:

https://huggingface.co/froggeric/Qwen-Fixed-Chat-Templates

--jinja --chat-template-file qwen3.6/chat_template.jinja

Попробуй еще вот эту модельку:

https://huggingface.co/froggeric/Qwen3.6-27B-MTP-GGUF потом расскажешь, как она.

Я пришёл к выводу, что для всех этих локальных инференсов всё же нужно юзать универсальный инструмент VS Code + Continue. Все остальные одеяло на себя тащат со всеми этими спецификациями и ограничениями тупыми ради долларов.

Есть мнение, что после окончательной интеграции Цифрового Рубля, Биометрии, и тотальной цифровизации к 2030 году, блокировки постепенно начнут ослаблять.

для успешного стартапа нужны несколько факторов:

  1. Помимо хорошей идеи, продукт объективно должен быть в спросе (это самое сложное и мучительное, т.к нужно анализировать всю мировую инфографику, что нереально.

  2. на рынке либо нет аналогов (чт крайне маловероятно), либо же максимум 1 конкурирующий проект существующий, но ты хочешь сделать лучше UX (другая архитектура/фишки/актуальный стек), отняв у него рынок себе.

  3. ты шаришь за отрасль своего продукта (большой бэкграунд)

  4. тебе нужны +1 или +2 энтузиаста в команду, и вам всем нужны знания основ гибкости agile-менеджмента от каждого.

Все остальное (инвестиции, кодинг, монетизация) - это уже технические решаемые вопросы.

В твоем проекте https://vibeling.app/ru (приложение для изучения Английского) - широкая аудитория с большой конкуренцией. Неоднозначный прогнозируемый спрос. 1 шанс из 1кк, что прокнет, я бы не брался за такой проект и сразу бы его похоронил еще в зачатке идеи. Без обид, я субъективно. Но можно добавить новые фишки, которые зайдут, типа голосового ассистента. Нужно говорить голосом, а ии-ассистент будет понимать и анализировать речь юзера. Для такой фишки нужны знания PEFT/TensorFlow Lite/Keras или брать готовые OpenAI Whisper/SpeechBrain/NeMo и башлять за токены. В любом случае, можно довести до ума твой проект, чтобы не начинать новый или вовсе забить и отчаятся, что неправильно. В общем 0% осуждения, 100% понимания.

Большинство пет-проектов начинаются как для изучения стеков-технологий, переростая в MVP, а технологии сейчас каждый день новые + уже есть вайбкодинг для всего этого. Изучение базового менеджмента и бизнес-моделирования - неотъемлемые знания, по мимо технических, которые нуждны для монетизации и лута долларов.

google ai studio: n8n -> profiles -> share.

yandex ai studio: agent atelier -> статья автора.

Вот пример: гранты Яндекса на пользование их сервисом DataSphere для студентов.

Вот пример: гранты Яндекса на пользование их сервисом DataSphere для студентов.

Здравые люди, ну вы же понимаете, что все эти бенчмарки - ничего не значат на самом деле?
Любые новые бенчи, с любыми новыми абстракциями подстраивается через RL, добавив весов с новым респонсом.
PS: ARC - это не картинки, это матрица, там VL модели не нужны.
Попробуйте лучше научить LLM/"AGI" механизмам изоляции/атомарности без агентов. Только тогда она и сможет сама себя обучать.
Next level GPT6 - внедрение ONNX Runtime (нативное управление приложениями/сервисами внутри ОС). Глянем, но это сразу х100-x1000 по железу, чтобы продолжать вести RL

Извините, что не прочитал все комментарии: вайб-кодинг не вытеснет, а трансформирует нынешнюю модель обучения программированию. Однозначно появятся новые языки программирования с новыми логиками и синтаксисом. А ведь раньше, если кто помнит и жил в то время, кодили на перфо-картах так-то.

Не затронут главный философский вопрос: для чего нужны собственные LLM, и каково их практическое применение в жизни. Всё остальное - дело техники. Имхо, в будущем у каждой уважающей себя корпорации будет своя LLM (не агенты)
Стёпик - что-то знакомое, помоему это чувак, продающий платные курсы, которые лежат в открытых источниках, если покопать в интернете поглубже. Кстати, все платные курсы - нагенеренные с минимальными правками, часто неактуальные по теоретической части, и всегда неактуальны в практической. Пока их кому-то продадут, уже технологии поменяются. Удачи этим добрякам, а я дальше пойду смотреть бесплатные лекции из Гарварда и гуглить.

Для меня ИИ в конечном итоге его эволюции должен освободить людей от компьютеров и телефонов.

ИИ - это очень широкое понятие и гибкий инструмент для создания собственного уникального сервиса по автоматизации задач и работа с большими данными. Применить можно везде, но нужно нехило шарить в этой теме, чтобы не использовать чужие платные сервисы со стандартными шаблонами использования.

Для обучения и написания кода ии уже подтвердил свою компетентность, куда сложнее применять ии в исследованиях.

И помните о нотации: "всегда проверяйте любую полученную информацию на достоверность" - токены имеют свойство плавать.

Очень много инфы, но самое важное в этой строчке для себя увидел: "Ребята в текстовой Алисе проделали большую работу по подбору удачного сетапа RL".

Яндекс оптимизирует UX и управляемость ответов, а не интеллект модели. RL используется как механизм форматирования ответа, а не как инструмент развития reasoning. Для корпоративных внедрений это упирается в потолок "search + summary".

  1. Если есть цель двигать саму модель, логичный шаг - выпустить открытую или полуоткрытую LLM для сообщества. Без этого нет масштабного ни фидбека, ни реальных экспериментов с RL, ни роста reasoning, ни полезных уникальных нод под РФ. Иначе весь прогресс так и останется на уровне аккуратного UX поверх retrieval, а не эволюции LLM.

  2. Даёшь кодерскую модель и аналог Copilot

1

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Инженер по компьютерному зрению, Инженер электронных устройств
Средний
От 262 144 ₽
OpenCV
FPGA
UVM
RISC-V
Операционная система реального времени
ООП