Мне понравилось как jetbrains сделали в своём встроенном агенте, ИИ выводит кусок кода и есть кнопка применить, по её нажатию запускается отдельный запрос в ИИ который формирует изменения. Т.е. можно формировать код с помощью мощной и дорогой модели, а применять изменения в помощью проверенной быстрой и дешевой.
Хорошо бы ещё видеть в таких обзорах qwen последний. Сравнение между закрытыми моделями - нормально, но интереснее увидеть какой есть разрыв (и есть ли он) с открытыми моделями.
Orange pi выглядят перспективнее для AI чем raspberry. Уже есть встроенный npu на борту и поддержка некоторых плат расширений от raspberry. Можно использовать послабже на RK3588 или помощнее последнюю версию до 45 TOPS (эту я ещё в руках не держал).
Отрасль саморегулируется (если это можно так назвать), стало слишком много джунов, теперь среди них будет очень жёсткий отсев (ещё жёстче чем последние пару лет).
Я для коротких скетчей недавно использовал AI Mode search от Гугла, там простенький ИИ, но в основе контекста лежит релевантный(в большинстве случаев) поиск в интернете. Результат для esp32c6 с использованием wifi мне выдавал без delay() сразу, без просьб. Вполне может учитывать нюансы платы и датчиков. Если нужно много кода - то проще попросить его выписать все нюансы и закинуть их в более мощный ИИ.
Капельницы ставить с малыми концентрациями GHK-Cu и сильно бОльшими концентрациями GHK. Могжет GHK перехватывать освободившуюся медь при "использовании" в клетках GHK-Cu?
По поводу запуска на NPU в RK3588S я смог накопать только что нужны специальные драйвера в ядре и они есть в ubuntu rockchip 24.04. У меня ubuntu rockchip 22.04 и нужных драйверов нет, переустановить её никак руки не дойдут поэтому как дальше не знаю, но самым простым способом запустить мне видится https://github.com/Pelochus/ezrknn-llm/
Попросил ИИ посчитать производительность модели на CPU RK3588S в сравнимых величинах, пишет что CPU RK3588S ~0.8 TOPS, но учётом квантизации полагаю скорость генерации будет сравнимой c orange pi rv2.
Если хочется заморочиться и теоретически ускорить генерацию в 2 раза, можно попробовать запустить модель на NPU RK3588S, который может использовать до 4GB RAM. Как минимум снять нагрузку с процессора.
Во-первых, как ты ни читай/проверяй код, ты все равно не будешь его знать также хорошо, как написанный собственноручно. Следовательно, будешь хуже знать, как работает система.
Попользовав ИИ я понял что вопрос по большей части в месте размещения контекста.
как работает система
особенно вот этот момент, предполагается что сейчас эта информация для написания кода содержится в вас в голове.
Для ИИ важно чтобы информация о работе системы содержалась в его контекстном окне. Но просто верхнеуровневой информации часто мало, ведь ИИ строит свой ответ на "предсказаниях" и сложные предсказания ему строить трудно, т.к. чтобы выдать правильное перед этим нужно понимать как изменение может повлиять на другой код в рамках текущего метода/класса/компонента так и как он может повлиять на другие компоненты системы.
В статье как раз описывается случай подходящий под недостаток контекста, когда сначала пишется код на 1000 строк (создаётся контекст), а потом этот код упрощается до 100 строк (на основе созданного контекста). Возможно внутренние рассуждения ИИ когда-нибудь дойдут до уровня когда смогут сделать это сразу.
Возможен случай когда контекст будет создаваться заранее для каждого значимого обьекта насколько мал бы он не был. Например: если изменить одно на первый взгляд незначительное условие вызываемое не явно или через длинную цепочку то изменится поведение в другом компоненте. И для этого куска кода обязательно нужен контекст (комментарий), который укажет все компоненты и случаи которые может затронуть изменение, чтобы ИИ не нужно было производить вычисления каждый раз заново (чего он сейчас часто сделать просто не может).
На телефоне подключаешься к wg и получаешь доступ к ha в сети wg, из внешнего интернета он по прежнему не доступен.
Можно не использовать wg на телефоне, поставить на vps Nginx Proxy Manager для прокидывания портов и получать доступ к веб интерфейсу по интернет домену, но моя паранойя запрещает мне так делать.
Роутеру не нужны колонка и микрофон, роутеру нужно только уметь общаться с устройством у которого они есть по умолчанию и которое есть практически у каждого - с телефоном.
Телефон лучше вас слышит и вы лучше будете слышать ваш телефон, ибо он чаще рядом с вами.
Шумит прилично, перегрева не замечено. Поставил официальное обновление биоса которое вроде улучшает работу кулера. Но с другой стороны задач настолько горячих у меня и нет, нагружен только видеочип когда запущена LLM. Теоретически если запустить в windows и загрузить cpu, gpu и npu одновременно может и будут проблемы с перегревом, в linux пока доступ к npu ограничен (early access)
Я себе взял для локальных моделей GMKtec EVO-X2 128GB, не самый производительный но за свои деньги отлично.
GPT-OSS-120B там запускается без особых танцев с бубном на llama.cpp. Никакого времени прогрева, распределения в RAM, всё полностью в VRAM (до 96GB максимум), время старта чуть больше времени чтения всей модели с SSD
Если интерес к локальным моделям остынет, останется домашний сервер с быстрыми 128GB RAM
На "Strix Halo" желательно Linux ставить, т.к. производительность при запуске LLM выше. Ну и конечно можно, та же Ubuntu 24 ставится без проблем.
VRAM от 512MB до 96GB при 128GB RAM, unified
В ROCm недавно добавили официально поддержку этого чипа, но только GPU, поддержки NPU пока нет, впрочем GPU выдает нормальные результаты, у меня даже немножко больше чем на графиках в статье.
Мне понравилось как jetbrains сделали в своём встроенном агенте, ИИ выводит кусок кода и есть кнопка применить, по её нажатию запускается отдельный запрос в ИИ который формирует изменения. Т.е. можно формировать код с помощью мощной и дорогой модели, а применять изменения в помощью проверенной быстрой и дешевой.
Мне показалось что OrangePi 6 Plus выглядит привлекательнее, даже не смотря на то что производительность NPU меньше, 28 tops
Хорошо бы ещё видеть в таких обзорах qwen последний. Сравнение между закрытыми моделями - нормально, но интереснее увидеть какой есть разрыв (и есть ли он) с открытыми моделями.
Orange pi выглядят перспективнее для AI чем raspberry. Уже есть встроенный npu на борту и поддержка некоторых плат расширений от raspberry. Можно использовать послабже на RK3588 или помощнее последнюю версию до 45 TOPS (эту я ещё в руках не держал).
Отрасль саморегулируется (если это можно так назвать), стало слишком много джунов, теперь среди них будет очень жёсткий отсев (ещё жёстче чем последние пару лет).
Я для коротких скетчей недавно использовал AI Mode search от Гугла, там простенький ИИ, но в основе контекста лежит релевантный(в большинстве случаев) поиск в интернете. Результат для esp32c6 с использованием wifi мне выдавал без delay() сразу, без просьб. Вполне может учитывать нюансы платы и датчиков. Если нужно много кода - то проще попросить его выписать все нюансы и закинуть их в более мощный ИИ.
Капельницы ставить с малыми концентрациями GHK-Cu и сильно бОльшими концентрациями GHK. Могжет GHK перехватывать освободившуюся медь при "использовании" в клетках GHK-Cu?
orange pi rv2 обещает 2TOPS
NPU в RK3588S обещает 6TOPS
По поводу запуска на NPU в RK3588S я смог накопать только что нужны специальные драйвера в ядре и они есть в ubuntu rockchip 24.04. У меня ubuntu rockchip 22.04 и нужных драйверов нет, переустановить её никак руки не дойдут поэтому как дальше не знаю, но самым простым способом запустить мне видится https://github.com/Pelochus/ezrknn-llm/
Попросил ИИ посчитать производительность модели на CPU RK3588S в сравнимых величинах, пишет что CPU RK3588S ~0.8 TOPS, но учётом квантизации полагаю скорость генерации будет сравнимой c orange pi rv2.
Если хочется заморочиться и теоретически ускорить генерацию в 2 раза, можно попробовать запустить модель на NPU RK3588S, который может использовать до 4GB RAM. Как минимум снять нагрузку с процессора.
Ну и?
Есть 2 варианта одинаковые по влиянию на природу, я выберу тот где рядом со мной не будет шума и выхлопных газов.
Попользовав ИИ я понял что вопрос по большей части в месте размещения контекста.
особенно вот этот момент, предполагается что сейчас эта информация для написания кода содержится в вас в голове.
Для ИИ важно чтобы информация о работе системы содержалась в его контекстном окне. Но просто верхнеуровневой информации часто мало, ведь ИИ строит свой ответ на "предсказаниях" и сложные предсказания ему строить трудно, т.к. чтобы выдать правильное перед этим нужно понимать как изменение может повлиять на другой код в рамках текущего метода/класса/компонента так и как он может повлиять на другие компоненты системы.
В статье как раз описывается случай подходящий под недостаток контекста, когда сначала пишется код на 1000 строк (создаётся контекст), а потом этот код упрощается до 100 строк (на основе созданного контекста). Возможно внутренние рассуждения ИИ когда-нибудь дойдут до уровня когда смогут сделать это сразу.
Возможен случай когда контекст будет создаваться заранее для каждого значимого обьекта насколько мал бы он не был. Например: если изменить одно на первый взгляд незначительное условие вызываемое не явно или через длинную цепочку то изменится поведение в другом компоненте. И для этого куска кода обязательно нужен контекст (комментарий), который укажет все компоненты и случаи которые может затронуть изменение, чтобы ИИ не нужно было производить вычисления каждый раз заново (чего он сейчас часто сделать просто не может).
Можно реле в распределительную коробку, главное оставить к ним доступ и заложить размер побольше, тогда и ноль тянуть к подрозетнику не нужно.
Я делал так:
Самый дешёвый vps, на нём wg сервер.
На телефоне клиент wg
На железе с ha клиент wg с авто подключением
На телефоне подключаешься к wg и получаешь доступ к ha в сети wg, из внешнего интернета он по прежнему не доступен.
Можно не использовать wg на телефоне, поставить на vps Nginx Proxy Manager для прокидывания портов и получать доступ к веб интерфейсу по интернет домену, но моя паранойя запрещает мне так делать.
Причем в последнее время намеренно, оправданно и всё чаще
я решил провести эксперимент и попробовал указать ударение в этой модели
сработало: zamək или zaˈmok?
не сработало:
зАмок или замОк?
з+амок или зам+ок?
з^aмок или зам^ок?
за́мок или замо́к?
<phoneme alphabet="ipa" ph="ˈzamək">замок</phoneme> или <phoneme alphabet="ipa" ph="zaˈmok">замок</phoneme>?з'амок или зам'ок?
з!aмок или зам!ок?
заммок или замоок?
Роутеру не нужны колонка и микрофон, роутеру нужно только уметь общаться с устройством у которого они есть по умолчанию и которое есть практически у каждого - с телефоном.
Телефон лучше вас слышит и вы лучше будете слышать ваш телефон, ибо он чаще рядом с вами.
Шумит прилично, перегрева не замечено. Поставил официальное обновление биоса которое вроде улучшает работу кулера. Но с другой стороны задач настолько горячих у меня и нет, нагружен только видеочип когда запущена LLM. Теоретически если запустить в windows и загрузить cpu, gpu и npu одновременно может и будут проблемы с перегревом, в linux пока доступ к npu ограничен (early access)
Я себе взял для локальных моделей GMKtec EVO-X2 128GB, не самый производительный но за свои деньги отлично.
GPT-OSS-120B там запускается без особых танцев с бубном на llama.cpp. Никакого времени прогрева, распределения в RAM, всё полностью в VRAM (до 96GB максимум), время старта чуть больше времени чтения всей модели с SSD
Если интерес к локальным моделям остынет, останется домашний сервер с быстрыми 128GB RAM
Странно что в сравнении нет qwen3
На "Strix Halo" желательно Linux ставить, т.к. производительность при запуске LLM выше. Ну и конечно можно, та же Ubuntu 24 ставится без проблем.
VRAM от 512MB до 96GB при 128GB RAM, unified
В ROCm недавно добавили официально поддержку этого чипа, но только GPU, поддержки NPU пока нет, впрочем GPU выдает нормальные результаты, у меня даже немножко больше чем на графиках в статье.