Обновить
3

Пользователь

0,1
Рейтинг
1
Подписчики
Отправить сообщение

Более простой и животрепещущий пример. Автоматизировали Верочку, которая приносила кофе. А потом, когда уволили, поняли, что кроме кофе они делала еще 20 задач, о которых даже не подозревали. Извинились перед Верочкой, подняли ей зарплату и вернули на позицию. Получили от инвесторов, пострвдали в зарплате, не нравится. Больше не будем автоматизировать.

Ии мне помгает не допускать глупых ошибок и писать юнит тесты. Точнее я начинаю писать юнит тесты и он в моем же стиле напузивает еще 10-15 штук чтобы протестить все боундари. Удобно.

Программисты запустили ии и ушли в отпуск, через год вернулись на повышенную зарплату. Ии навалил техдолг и заказчик плакал чтобы кто то это разгреб.

Проблем там огромное количество. Во первых используется когнитивная нагрузка в виде mcp протоколов и тул колинга. Даже несчастная запись в файл делается через джсон. Люди не могут понять, что создавая когнитивную нагрузку, нагружают модель ненужным форматированием. А нужно использовать маркдаун или вообще простую горизонтальную линию, после которой идет аутпут.

Кроме того в самом проекте ланг чеин промпты весьма наивные и думают что модель ответит верно с 1 раза. Нет мульти аутпута и ранжирования ответов llm судьями. Да и вообще нет даже элементарной проверки на self bleu или rouge. И тд.

Все это говорит о том что наработки и абстракции ланг чеин можно юзать, но только в ознакомительных целях.

Я крутил 27b q4 на двух 9070 с контекстом 128к, было отлично. Но потом раскидал 9070 на 2 машины и стал крутить 122b, в итоге общая производительность увеличилась а качество не упало.

Живой проект vs мертвый форк (или реимплемент), действительно что же выбрать?

Типа замена всех в т.ч. девопса на красного рака. Очень смешно.

Это не решало проблему полностью, но снижало количество «а что это за проект?» моментов процентов на 70. Доставал структуру проекта командой

Можно было нанять разработчика на подработку хотябы для того, чтобы он сделал тебе в проекте .skills или хотябы объяснил что это. Если ты и дальше будешь подколхоживать файнд, то продвинуться в поддержке приложения тебе не удасться.

31b плотная и 27b тоже плотная.

По бенчам она хуже квен 3.5 27b, нету смысла. Как максимум - на должность судьи.

Крупный бизнес в то же время старается пихануть поки на прод. Что также уравнивает его с малым. Что верно

Все уже, ушла эпоха вайбкодинга с телеграм сдк. Вайбкодинг же с макс сдк работает плохо. Уже так просто не напузишь 50 статей об успешном вайбкодинге.

Использую немотрон только как судью т.к. не нравится стиль в котором он кодит. По мне квен кодит намного лучше.

Конечно это синдром поиска скрытого смысла, но звучит действительно красиво.

Я тоже пробовал таким заниматься и пришел к выводу, что это не работает. Ллм хорошо себя показывает в столкновении с детерминизмом т.е. с некоторой формой реальности. Столкновение же с другой ллм ухудшает ситуацию т.к. снижает уровень детерминизма и увеличивает возможность для фантазий. Я видел как ллм пытаются прийти к консенсусу и выйти на хороший результат. Но по факту это дает результат хуже чем если ллм пытается прийти к консенсусу с реальной внешней утилитой.

Ну вообще в посте написано буквально, что мы говорим спасибо тем, кто писал софт символ-за-символом. Это намек на то, что сейчас можно писать с помощью ии. Ничего криминального нет вообще.

Mistral взяли свою собственную модель и сделали ее файн тюнинг используя lean. Затем они сравнили свой файнтюн и ванильные модели других вендоров в других задачах lean. А почему не сделали такие же файнтюны моделей других вендоров и не сравнили их?

Я бы охарактеризовал это как синдром Кандинского-Клерамбо: одной рукой разработчики Mistral делают файн тюн, а другой рукой маркетологи втюхивают это как прорыв по сравнению с другими вендорами. Псевдоавтоматизмы - это верный признак шизофрении в компании. Я бы в такую компанию не инвестировал.

Автор, если ты этой темой интересуешься, то я тебе могу дать интересную наводку на еще одну штуку: локальное кеширование в слотах. Я просто сам изучаю и возможно тебе будет это интересно взять.

В llama.cpp (и не только) ты можешь кешировать несколько контекстов параллельно. Например если у тебя lang chain, то ты можешь очень эффективно обрабатывать несколько чейнов параллельно на нескольких машинах одной и той же моделью. Твоя задача - обеспечить любой вид синхронизации между ЖД на разных локальных машинах по сети. Размер kv кеша разнится от модели к модели, но обычно не более 8 гб.

Самое интересное, что можно дать фидбек из самого приложения и удалить kv кеш файл тогда, когда ты полностью обработал lang chain.

Получается очень круто: одна машина начинает обрабатывать один чеин, а вторая - другой. После обработки машины буквально за пару секунд обмениваются кешами и теперь каждая из них может обрабатывать любой чеин дальше.

Еще в данной парадигме интересно как будет работать мультиагентность с разными моделями. Т.е. на каждой из 10 машин у нас хранится много моделей и мы решаем сколько инстансов на данную модель поднять. Например мы решили по каким-то соображениям (из фидбэка самого приложения) поднять 3 машины с одинаковым агентами и моделями. После этого эти машины начинают шарить между собой общий кеш и очень эффективно в группе обрабатывать запросы. Т.е. получается алгоритм буста в мультиагентных системах с шарингом кеша.

Здравствуйте. Chat GPT инстант, подписка за 8 баксов. Отлично консультирует и вообще для всего.

Заходь на hugginface и смотри внимательно: для видеокарт на 8gb сейчас специально выпускают неплотные мое модели. Такие модели имеют в имени "a3b", что значит 3 миллиарда активных параметров. В реальности на карте для размещения всех слоев модели (а это как правило роутер + аутпут) нужно всего 4 гб видеопамяти. Получается, что остальные 4 гб видеопамяти можно заюзать на kv кеш для контекста (<= 96к) и обеспечить хорошую производительность. Если отключить ризонинг (или взять инстракт модель), то это дает возможность интегрировать абсолютно ненужную и завалящую видеокарту на 8 гб (типа 2060 super или 3050) на дев или даже стейджинг (на прод конечно не стоит).

1
23 ...

Информация

В рейтинге
3 760-й
Зарегистрирован
Активность