Не "ещё", LCPP - это "бэкенд" поверх которого работает Ollama. Сама Ollama - это репозиторий сконвертированных моделей и конфигов к ним, чтоб голову не надо было включать.
A Full GC could occur before all Java heap memory has been exhausted due to the necessity of finding a contiguous set of regions for them. Potential options in this case are increasing the heap region size by using the option -XX:G1HeapRegionSize to decrease the number of humongous objects, or increasing size of the heap. In extreme cases, there might not be enough contiguous space available for G1 to allocate the object even if available memory indicates otherwise. This would lead to a VM exit if that Full GC can not reclaim enough contiguous space. As a result, there are no other options than either decreasing the amount of humongous object allocations as mentioned previously, or increasing the heap.
Полагаю, у автора вопроса просто глаз зацепился за знакомое слово.
А 1,5B даже и не знаю кому и зачем может пригодиться
Мелкие модели (1.5-3B) - это, как правило, draft-модели для спекулятивного декодинга. Пока большая модель (от 70B) рожает ежа, draft-модель быстро подкидывает наиболее вероятные токены.
Некоторые издатели (в частности SEGA и Sony) блокируют возможность дарить игры на аккаунты RU\BY. Steam ещё и Family Share "улучшил", теперь нельзя пригласить в "семью" пользователя из другого региона.
Конкретно с Sega, кстати, там довольно забавно получается - игры по Persona российским аккаунтам можно дарить, а игры по Yakuza - нет.
Осталось только придумать, как это ловить при игре с обычного монитора, на обычном компьютере. В VR либо отслеживание взгляда для этого есть, либо просто считают от центра линзы.
Ну вот в хотелках как раз было не жрать, что дают, а запускать своё без геморроя. Например, что-нибудь из 14B, плата на 16\32 ГБ вроде бы должна осилить.
А можно по-подробнее? Пробовал запустить LLM на OrangePi 5 Plus, и нормально "работал" только MLC, но процесс конвертации моделей больно муторный. LCPP\KCPP тоже запустились, но это был мрак по скорости. Пробовал ковыряться с RKNN, но там всё выглядит как "короч, мы тут сделали, а вы сами *битесь как с этим работать" (вообще, по опыту, довольно типичный подход китайцев к одноплатникам).
Не понял связи между казахстанской симкой и "иностранным" IP. Автор хотел сказать, что симка стучится в домашний регион, а оттуда сервер опсоса услужливо подтягивает страницу?
* - ваши поля - не поля; необязательныe поля не необязательны; порядок полей неправильный; структура поля неправильная; мы такое поле не знаем, а потому идите лесом; у вас в сообщении весь контекст вместо одного сообщения - идите лесом; сообщения от system нельзя, идите вслед за предыдущими двумя.
Можно, но скорость упадёт. У меня нет R1 под рукой, но Mistral NeMo 12B на RTX4090 выдаёт 50 токенов в секунду, а на Ryzen 9 5900X - 2.5 ток/с. С DDR5 будет чуть быстрее, но не сильно.
Суть R1, скорее, в том, что у ней внутренеонка рассуждения. Приделать Chain of Thought можно почти к любой модели, но у R1 CoT прям в датасете, похоже.
Не "ещё", LCPP - это "бэкенд" поверх которого работает Ollama. Сама Ollama - это репозиторий сконвертированных моделей и конфигов к ним, чтоб голову не надо было включать.
Для "печальных владельцев AMD" есть https://github.com/YellowRoseCx/koboldcpp-rocm, либо поддержка Vulkan Compute.
K80 - это бутерброд из двух ГПУ на 12ГБ, больно геморройно на ней модели запускать.
Он не смог решить какой вариант будет выгоднее, поэтому сыграл в обе стороны.
https://web.archive.org/web/20240222094115/https://volozh.com/
В доках по G1 есть такое упоминание:
Humongous Object Fragmentation
A Full GC could occur before all Java heap memory has been exhausted due to the necessity of finding a contiguous set of regions for them. Potential options in this case are increasing the heap region size by using the option -XX:G1HeapRegionSize to decrease the number of humongous objects, or increasing size of the heap. In extreme cases, there might not be enough contiguous space available for G1 to allocate the object even if available memory indicates otherwise. This would lead to a VM exit if that Full GC can not reclaim enough contiguous space. As a result, there are no other options than either decreasing the amount of humongous object allocations as mentioned previously, or increasing the heap.
Полагаю, у автора вопроса просто глаз зацепился за знакомое слово.
Ещё остаётся RFC 1149! /s
Мелкие модели (1.5-3B) - это, как правило, draft-модели для спекулятивного декодинга. Пока большая модель (от 70B) рожает ежа, draft-модель быстро подкидывает наиболее вероятные токены.
Некоторые издатели (в частности SEGA и Sony) блокируют возможность дарить игры на аккаунты RU\BY. Steam ещё и Family Share "улучшил", теперь нельзя пригласить в "семью" пользователя из другого региона.
Конкретно с Sega, кстати, там довольно забавно получается - игры по Persona российским аккаунтам можно дарить, а игры по Yakuza - нет.
Мету, видимо, оповестить забыли.
CryEngine же.
Осталось только придумать, как это ловить при игре с обычного монитора, на обычном компьютере. В VR либо отслеживание взгляда для этого есть, либо просто считают от центра линзы.
Ну вот в хотелках как раз было не жрать, что дают, а запускать своё без геморроя. Например, что-нибудь из 14B, плата на 16\32 ГБ вроде бы должна осилить.
А можно по-подробнее? Пробовал запустить LLM на OrangePi 5 Plus, и нормально "работал" только MLC, но процесс конвертации моделей больно муторный. LCPP\KCPP тоже запустились, но это был мрак по скорости. Пробовал ковыряться с RKNN, но там всё выглядит как "короч, мы тут сделали, а вы сами *битесь как с этим работать" (вообще, по опыту, довольно типичный подход китайцев к одноплатникам).
Интересно, а решения
в поисках проблемытипа SG2002 - это ещё микроконтроллер или таки уже одноплатник?Здрасьте, это ещё в 2016 было.
Так ведь уже было
Не понял связи между казахстанской симкой и "иностранным" IP. Автор хотел сказать, что симка стучится в домашний регион, а оттуда сервер опсоса услужливо подтягивает страницу?
Поэтому то и дело встречается compatible*.
* - ваши поля - не поля; необязательныe поля не необязательны; порядок полей неправильный; структура поля неправильная; мы такое поле не знаем, а потому идите лесом; у вас в сообщении весь контекст вместо одного сообщения - идите лесом; сообщения от system нельзя, идите вслед за предыдущими двумя.
Можно, но скорость упадёт. У меня нет R1 под рукой, но Mistral NeMo 12B на RTX4090 выдаёт 50 токенов в секунду, а на Ryzen 9 5900X - 2.5 ток/с. С DDR5 будет чуть быстрее, но не сильно.
Суть R1, скорее, в том, что у ней внутре
неонкарассуждения. Приделать Chain of Thought можно почти к любой модели, но у R1 CoT прям в датасете, похоже.