All streams
Search
Write a publication
Pull to refresh

Comments 13

Интересный момент. Когда gpt думает - ассоциирует себя с "мы" ("thinking": "We need ...", "we should"). Это и есть тот самый mix of experts - несколько разно-обученных моделей под капотом?

Нет, MOE это скорее по аналогии с разными областями в человеческом мозгу. Для разных процессов у вас задействованы разные области, каждая специализируется на своей функциональной области. А вместе это единый мозг. То, что мозг задействует разные области в разное время и для разных задач не говорит о том, что мы себя воспринимаем как множественность Я. Я имею в виду здоровых людей.

Это всего лишь следствие перенятия "публицистического" стиля, где зачастую текст пишется от второго лица. То есть, (мы) представим, (нам) нужно подумать.

Да, думаю это особенность идет из chain-of-thought, где идет подбор "коллегиального" ответа!

И для чего ее использовать? На моей 7900xtx работает быстро, а толку. Тестил на анализе документах и книг. Галюны пошли с первых промтов.

Давайте коллабиться, я только за! :)

Автор, отличное начало, но хочется продолжение. Чтобы полностью покрыть технические особенности (time to first token, vram, tps) нужно тестировать с разным набором параметров. Доступное окно контекста влияет на заполнение VRAM, фактически заполненное контекста влияет на TPS и time to first token. Очень хочется посмотреть на результаты такого тестирования.

А попробуйте кстати спросить большую модель мнение о своей статье, что скажет? Какие метрики посоветует оценить?

Спасибо за конструктивный комментарий! В следующих статьях я посвящу этому отдельную часть 🙏

Мне кажется, было бы куда интереснее увидеть ответы модели на загадку, нежели унылое сравнение дедлайна.

Зачем на олламе скорость замерять?
vllm и 50 параллельных запросов, тем более если есть h100

На ollama даже 4060 не раскроется, чего уж говорить о картах мощнее

на vllm я замерил в другой статье - https://habr.com/ru/articles/939950/ .

тут я скорее показывал, как ее развернуть и показал простой тест. да и на vllm 4090/5090 слабо адаптирована (именно версия по gptoss). там прям геморой. они сами пишут на сайте, что пока прорабатывают стабильную поддержку для 5090 и пока ее нету, только какие-то пользовательские костыли

на vllm я замерил в другой статье - https://habr.com/ru/articles/939950/ .

тут я скорее показывал, как ее развернуть и показал простой тест. да и на vllm 4090/5090 слабо адаптирована (именно версия по gptoss). там прям геморой. они сами пишут на сайте, что пока прорабатывают стабильную поддержку для 5090 и пока ее нету, только какие-то пользовательские костыли

Sign up to leave a comment.

Articles