Комментарии / Профиль puchuu / Хабр

@puchuu

Пользователь

0,1

Рейтинг

Подписчики

ПрофильСтатьиПостыНовостиКомментарии169

Почему ИИ пока не увольняет целиком: разбор «зон автоматизации» и реальных данных по задачам

puchuu 23 апр в 21:32

Более простой и животрепещущий пример. Автоматизировали Верочку, которая приносила кофе. А потом, когда уволили, поняли, что кроме кофе они делала еще 20 задач, о которых даже не подозревали. Извинились перед Верочкой, подняли ей зарплату и вернули на позицию. Получили от инвесторов, пострвдали в зарплате, не нравится. Больше не будем автоматизировать.

Почему ИИ-код создаёт больше проблем, чем решает

puchuu 22 апр в 08:57

Ии мне помгает не допускать глупых ошибок и писать юнит тесты. Точнее я начинаю писать юнит тесты и он в моем же стиле напузивает еще 10-15 штук чтобы протестить все боундари. Удобно.

ИИ-агент — не программист: пять наблюдений и три следствия

puchuu 14 апр в 17:25

Программисты запустили ии и ушли в отпуск, через год вернулись на повышенную зарплату. Ии навалил техдолг и заказчик плакал чтобы кто то это разгреб.

Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python

puchuu 12 апр в 22:42

Проблем там огромное количество. Во первых используется когнитивная нагрузка в виде mcp протоколов и тул колинга. Даже несчастная запись в файл делается через джсон. Люди не могут понять, что создавая когнитивную нагрузку, нагружают модель ненужным форматированием. А нужно использовать маркдаун или вообще простую горизонтальную линию, после которой идет аутпут.

Кроме того в самом проекте ланг чеин промпты весьма наивные и думают что модель ответит верно с 1 раза. Нет мульти аутпута и ранжирования ответов llm судьями. Да и вообще нет даже элементарной проверки на self bleu или rouge. И тд.

Все это говорит о том что наработки и абстракции ланг чеин можно юзать, но только в ознакомительных целях.

Qwen стал лидером open-source рынка — у модели 942 млн загрузок

puchuu 11 апр в 22:57

Я крутил 27b q4 на двух 9070 с контекстом 128к, было отлично. Но потом раскидал 9070 на 2 машины и стал крутить 122b, в итоге общая производительность увеличилась а качество не упало.

OpenClaw переписали на Go и уместили в один бинарник на 35 МБ. Зачем и что это даёт

puchuu 7 апр в 17:00

Живой проект vs мертвый форк (или реимплемент), действительно что же выбрать?

Отказ от Cursor 🙅‍♂️ Луну обогнули 🌔, вернёмся на землю. ...

puchuu 7 апр в 16:15

Типа замена всех в т.ч. девопса на красного рака. Очень смешно.

Я заменил целую команду разработки на ИИ. 0 рублей, 2 недели, 2 приложения

puchuu 3 апр в 23:41

Это не решало проблему полностью, но снижало количество «а что это за проект?» моментов процентов на 70. Доставал структуру проекта командой

Можно было нанять разработчика на подработку хотябы для того, чтобы он сделал тебе в проекте .skills или хотябы объяснил что это. Если ты и дальше будешь подколхоживать файнд, то продвинуться в поддержке приложения тебе не удасться.

Вышла Google Gemma 4 — открытая модель с 31 млрд параметров обходит ИИ вдвое крупнее

puchuu 2 апр в 21:33

31b плотная и 27b тоже плотная.

Вышла Google Gemma 4 — открытая модель с 31 млрд параметров обходит ИИ вдвое крупнее

puchuu 2 апр в 20:50

По бенчам она хуже квен 3.5 27b, нету смысла. Как максимум - на должность судьи.

Конец преимущества корпораций: как вайбкодинг уравнял малый бизнес с энтерпрайзом в автоматизации

puchuu 1 апр в 06:52

Крупный бизнес в то же время старается пихануть поки на прод. Что также уравнивает его с малым. Что верно

Вайбкодинг с Claude | Создание Telegram-ботов

puchuu 28 мар в 08:52

Все уже, ушла эпоха вайбкодинга с телеграм сдк. Вайбкодинг же с макс сдк работает плохо. Уже так просто не напузишь 50 статей об успешном вайбкодинге.

NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах

puchuu 27 мар в 20:51

Использую немотрон только как судью т.к. не нравится стиль в котором он кодит. По мне квен кодит намного лучше.

TurboQuant: Google сжал KV-кеш LLM до 3 бит без потери точности – ускорение на H100 до 8 раз

puchuu 26 мар в 20:52

Конечно это синдром поиска скрытого смысла, но звучит действительно красиво.

Когда нейросети общаются сами: эксперимент с диалогом двух LLM и графическая утилита на Go

puchuu 22 мар в 18:37

Я тоже пробовал таким заниматься и пришел к выводу, что это не работает. Ллм хорошо себя показывает в столкновении с детерминизмом т.е. с некоторой формой реальности. Столкновение же с другой ллм ухудшает ситуацию т.к. снижает уровень детерминизма и увеличивает возможность для фантазий. Я видел как ллм пытаются прийти к консенсусу и выйти на хороший результат. Но по факту это дает результат хуже чем если ллм пытается прийти к консенсусу с реальной внешней утилитой.

«Спасибо, что довели нас сюда»: Альтман поблагодарил программистов — и вызвал ярость

puchuu 19 мар в 16:23

Ну вообще в посте написано буквально, что мы говорим спасибо тем, кто писал софт символ-за-символом. Это намек на то, что сейчас можно писать с помощью ии. Ничего криминального нет вообще.

Mistral AI показала Leanstral: кодинг, который можно не проверять

puchuu 17 мар в 13:26

Mistral взяли свою собственную модель и сделали ее файн тюнинг используя lean. Затем они сравнили свой файнтюн и ванильные модели других вендоров в других задачах lean. А почему не сделали такие же файнтюны моделей других вендоров и не сравнили их?

Я бы охарактеризовал это как синдром Кандинского-Клерамбо: одной рукой разработчики Mistral делают файн тюн, а другой рукой маркетологи втюхивают это как прорыв по сравнению с другими вендорами. Псевдоавтоматизмы - это верный признак шизофрении в компании. Я бы в такую компанию не инвестировал.

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

puchuu 15 мар в 21:09

Автор, если ты этой темой интересуешься, то я тебе могу дать интересную наводку на еще одну штуку: локальное кеширование в слотах. Я просто сам изучаю и возможно тебе будет это интересно взять.

В llama.cpp (и не только) ты можешь кешировать несколько контекстов параллельно. Например если у тебя lang chain, то ты можешь очень эффективно обрабатывать несколько чейнов параллельно на нескольких машинах одной и той же моделью. Твоя задача - обеспечить любой вид синхронизации между ЖД на разных локальных машинах по сети. Размер kv кеша разнится от модели к модели, но обычно не более 8 гб.

Самое интересное, что можно дать фидбек из самого приложения и удалить kv кеш файл тогда, когда ты полностью обработал lang chain.

Получается очень круто: одна машина начинает обрабатывать один чеин, а вторая - другой. После обработки машины буквально за пару секунд обмениваются кешами и теперь каждая из них может обрабатывать любой чеин дальше.

Еще в данной парадигме интересно как будет работать мультиагентность с разными моделями. Т.е. на каждой из 10 машин у нас хранится много моделей и мы решаем сколько инстансов на данную модель поднять. Например мы решили по каким-то соображениям (из фидбэка самого приложения) поднять 3 машины с одинаковым агентами и моделями. После этого эти машины начинают шарить между собой общий кеш и очень эффективно в группе обрабатывать запросы. Т.е. получается алгоритм буста в мультиагентных системах с шарингом кеша.

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

puchuu 15 мар в 20:21

Здравствуйте. Chat GPT инстант, подписка за 8 баксов. Отлично консультирует и вообще для всего.

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

puchuu 15 мар в 20:09

Заходь на hugginface и смотри внимательно: для видеокарт на 8gb сейчас специально выпускают неплотные мое модели. Такие модели имеют в имени "a3b", что значит 3 миллиарда активных параметров. В реальности на карте для размещения всех слоев модели (а это как правило роутер + аутпут) нужно всего 4 гб видеопамяти. Получается, что остальные 4 гб видеопамяти можно заюзать на kv кеш для контекста (<= 96к) и обеспечить хорошую производительность. Если отключить ризонинг (или взять инстракт модель), то это дает возможность интегрировать абсолютно ненужную и завалящую видеокарту на 8 гб (типа 2060 super или 3050) на дев или даже стейджинг (на прод конечно не стоит).

2 3 ...

8 9