У тебя какая-то фигня вместо промта. Сижу в r/locallama и замечаю что это частая проблема. А я ещё раньше смеялся над идеей prompt engineering — ведь всё же очевидно, но похоже нужный навык.
У меня в данный момент только модели для кодинга скачаны. Самый первый же результат от codellama-13b-instruct.Q6_K.gguf:
Выхлоп
[INST] В комнате сидят три человека — Маша, Петя и Даша. Сколько в комнате девушек а сколько мальчиков? [/INST] В комнате есть три человека: Маша, Петя и Даша.
Сколько девушек в комнате: 2 (Маша и Даша)
Сколько мальчиков в комнате: 1 (Петя) [end of text]
Ты можешь скачать эту же модель от TheBloke. И запустить с парметрами как у меня:
./main -s 0 --temp 0 --mirostat 2 -e -m ~/Downloads/codellama-13b-instruct.Q6_K.gguf -p "[INST] В комнате сидят три человека - Маша, Петя и Даша. Сколько в комнате девушек а сколько мальчиков? [/INST]"
Ну это откровенная ложь. Вам человек выше привёл пример от 13B-Q4. Я сам тоже прекрасно использую 13B-Q6/Q8 модельки на русском языке. Оно понимает контекст и нифига не "отвратительно глупое". Просто не стоит брать распиаренные Vicuna и Nous-Hermes, у них из-за файтюнинга видимо качество русского языка упало.
В начале августа Минцифры РФ сообщило, что готовит увеличение до 30 лет возраста отсрочки от призыва для IТ-специалистов в связи с повышением призывного возраста с 1 января 2024 года, а освобождение от призыва на срочную военную службу для сотрудников аккредитованных IT-компаний действует с 18 до 27 лет.
Какое однако фиговое управление зависимостями — ручное и медленное. Юридический костылепердолинг получается. Им бы всё отрефакторить, а то уж больно мало людей в этом хоть мало-мальски разбирается.
Зашёл ради это комментария. Действительно rwkv выглядит самым интересным вариантов для запуска на обычном железе. Да и для разработчиков тоже. Ведь сама модель простая RNN без всяких замудрённостей в виде сетей внимания.
Жаль что в такой хорошей обзорной статье абсолютно ничего про это не сказано.
Попробуйте brook. Он может выглядеть как socks5-прокси, так и http-прокси. Всего один бинарник(доступный под основные системы и архитектуры), и не требует никакой конфигурации. Также он шифрует трафик и «not detectable»(предполагаю маскируется под https трафик).
Сам тоже раньше сидел через ssh port-forwarding, но провайдер стал почему-то и как-то блокировать. Т.е. я подключался через
ssh -D 2345 ....
и всё ок(scp тоже работало), но стоило только пустить что-либо через 2345 как соединение рвалось.
Спасибо за канал. Это впечатляет, не знал что такое вообще возможно. Интересно какое железо у автора.
Но ни одной игры пока ещё мне найти не удалось
Потому что количество необходимых вычислений с любыми оптимизациями абсурдным должно быть. У veloren неплохой блог, там были заметки по поводу производительности.
У киви давно есть.
Я уж лучше OpenAI заплачу, чем бесплатно через Сбер ID. И мне кажется я не один такой.
А может ли этот чип принимать радиосигналы?
Может это какой-то бекдор чтобы при получении нужного сигнала размыкать эту самую дорожку тем самым вырубая монитор?
Гомеопатический чип для улучшения картинки в глазах пользователя?
У тебя какая-то фигня вместо промта. Сижу в r/locallama и замечаю что это частая проблема. А я ещё раньше смеялся над идеей prompt engineering — ведь всё же очевидно, но похоже нужный навык.
У меня в данный момент только модели для кодинга скачаны. Самый первый же результат от codellama-13b-instruct.Q6_K.gguf:
[INST] В комнате сидят три человека — Маша, Петя и Даша. Сколько в комнате девушек а сколько мальчиков? [/INST] В комнате есть три человека: Маша, Петя и Даша.
Сколько девушек в комнате: 2 (Маша и Даша)
Сколько мальчиков в комнате: 1 (Петя) [end of text]
Ты можешь скачать эту же модель от TheBloke. И запустить с парметрами как у меня:
Получишь абсолютно тот же результат.
Ну это откровенная ложь. Вам человек выше привёл пример от 13B-Q4. Я сам тоже прекрасно использую 13B-Q6/Q8 модельки на русском языке. Оно понимает контекст и нифига не "отвратительно глупое". Просто не стоит брать распиаренные Vicuna и Nous-Hermes, у них из-за файтюнинга видимо качество русского языка упало.
Какое однако фиговое управление зависимостями — ручное и медленное. Юридический костылепердолинг получается. Им бы всё отрефакторить, а то уж больно мало людей в этом хоть мало-мальски разбирается.
И https://github.com/BlinkDL/ChatRWKV не пропустите
Зашёл ради это комментария. Действительно rwkv выглядит самым интересным вариантов для запуска на обычном железе. Да и для разработчиков тоже. Ведь сама модель простая RNN без всяких замудрённостей в виде сетей внимания.
Жаль что в такой хорошей обзорной статье абсолютно ничего про это не сказано.
Сам тоже раньше сидел через ssh port-forwarding, но провайдер стал почему-то и как-то блокировать. Т.е. я подключался через и всё ок(scp тоже работало), но стоило только пустить что-либо через 2345 как соединение рвалось.
Потому что количество необходимых вычислений с любыми оптимизациями абсурдным должно быть. У veloren неплохой блог, там были заметки по поводу производительности.
Veloren, там вообще всё мелкое.
Очень «безопасно». Или там форк какой-то?