Intel феерично зафакапили 13 и 14 поколения процессоров (постепенно в течении 6-24 месяцев выходят из строя из-за проблемного управления питанием, которое запрашивает завышенное напряжение). Им по сути гризит возврат по горантии каждого второго процессора выпущенного за последние 2 года. Я честно говоря не знаю, что и тут может спасти, кроме может быть прямого вмешательства США ("too big to fail").
По моим (делитанстским) наблюдениям, бОльшее значение чем количество параметров имеет сколько памяти под эти параметры используются.
То есть, при одинаковом объёме используемой памяти модель с малым числом параметров в f16 (float 16 bit) даст такое же качество как Q4 (int 4 bit) с бОльшем количеством.
Многие отзываются, что Llama3 сильно страдает от квантования, например. Лично я замечаю разницу между f16 и Q6К - Q6K намного быстрее теряет когерентность и перестаёт следовать коммандам в длинных чатах.
Вот последнее как раз решается просто - собеседование с камерой и созвоны с камерой позже, по крайней мере первое время (некоторые люди не любят использовать камеру по разным причинам).
Ну вообще по поводу быстродействия вопрос вполне себе практичный: как альтернатива, вы можете нафигать в систему ssd до сатурации pci-e по скорости и использовать прямой доступ GPU к этим самым ssd (nvidia gpu это умеют). Другой вопрос сколько это стоить будет, но "не сильно много"... А то llama3 q8 70b на CPU я тоже запустит могу, со скоростью 1.2 token/sec...
Любопытства ради: а какова производительность такого подхода? Скажем, 2 GPU в одной системе против 2х систем с 1 GPU? (все GPU одинаковые)
В моих (довольно скромных) экспериметнах бутылочным горлишком, например при inference llama3 q8 70b с помощью CPU был доступ к памяти - на практике выражалось в том, что увеличене потоков больше 2х не увеличивало производитекльность совершено. (Немного другой случай, но, имхо, показательный)
Так же lamma3 f16 8b на tesla p40 быстрее, чем на gtx 3060 Ti + tesla p40
Зависит от лаптопа. Если у вас есть 8gb vram - старые модели работать будут Вы можете запустить модель и в обычной RAM, но оно будет считать процессором в течении минуты-двух одну картинку
У каждой LLM есть свой собственный стиль речи. Из моих экспериметнов, Llama3 и Yi 1.5 Chat (Китайская нейросеть) говорят совершенно по разному, так как тренированны на разных датасетах, хотя архитектура одинаковая.
Кажется, что всё это, можно обойти с правильным system prompt, попросив LLM использовать (или избегать) определённый стиль. Просто люди ленивы и не заморачиваются, а ChatGPT - самая распространённая модель.
Ничем из Панели Управления на постоянной основе мы и во времена XP не пользовались. Это собственно и есть панель для настроек, которые или устанавливаются раз и на всегда, или используют когда возникают проблемы.
Впрочем да, новые "Параметры" я использую регулярно - раздел Bluetooth. Потому что Майкрософт не смог сделать нормальный виджет для системного трея.
Хах! Вы мне сейчсас моего учителя из универа напомнили: он говорил: что если в книге написанно "это тривиально доказать" или "оставляю как упражнение читателю" - автор сам не знает доказательства :D
Когда я занимался этой задачей (подключить в проект собираемый Bazel'ом обновлённую версию AppMetrica) - всё, что я смог найти в интернете: так это что никто ещё не разобрался как это сделать. Я в итоге я просто стал патчить исходники, чтобы существующие инструменты могли собрать их. (Яндекс, фу, изменять расшинения заголовочных файлов с .h на .def - плохая идея)
У меня была такая задача (как возможное решение существовавшей проблемы), и я не уверен, что я сделал все описанные тут шаги, но проблема с которой я столкнулся и не смог побороть - в фреймворк как раз таки не были включены ресурсы. Насколько я понимаю это решение так же не включит ресурсы? Пакет, который я пытался собрать - AppMetrica
Бонус баг: иногда форма создания спора при изменении размера окна просто исчезает, без изменения статуса бота. И сделать ничего нельзя, бот думает что я создаю спор, видимых кнопок отмены нет, формы отмены нет даже после перезагрузке страницы.
Как бы логично что у вас в системе такое написанно: потому что она уже приняла такое решение. Вопрос в корректно ли она его приняла.
Итого, ваш ответ - отписка. Ну или ответ Капитана Очевидности, я не знаю...
На удивление да, 3 дня назад причём
Если вы хотите придраться к опечаткам, то в этом сообщении есть ещё как минимум три. Удачи в поисках.
Intel феерично зафакапили 13 и 14 поколения процессоров (постепенно в течении 6-24 месяцев выходят из строя из-за проблемного управления питанием, которое запрашивает завышенное напряжение). Им по сути гризит возврат по горантии каждого второго процессора выпущенного за последние 2 года. Я честно говоря не знаю, что и тут может спасти, кроме может быть прямого вмешательства США ("too big to fail").
По моим (делитанстским) наблюдениям, бОльшее значение чем количество параметров имеет сколько памяти под эти параметры используются.
То есть, при одинаковом объёме используемой памяти модель с малым числом параметров в f16 (float 16 bit) даст такое же качество как Q4 (int 4 bit) с бОльшем количеством.
Многие отзываются, что Llama3 сильно страдает от квантования, например. Лично я замечаю разницу между f16 и Q6К - Q6K намного быстрее теряет когерентность и перестаёт следовать коммандам в длинных чатах.
"Был полностью заблокирован и продолжает быть" (Ростелеком)
Страницы загружаются, видео никогда не стартует.
Вот последнее как раз решается просто - собеседование с камерой и созвоны с камерой позже, по крайней мере первое время (некоторые люди не любят использовать камеру по разным причинам).
Ну вообще по поводу быстродействия вопрос вполне себе практичный: как альтернатива, вы можете нафигать в систему ssd до сатурации pci-e по скорости и использовать прямой доступ GPU к этим самым ssd (nvidia gpu это умеют). Другой вопрос сколько это стоить будет, но "не сильно много"... А то llama3 q8 70b на CPU я тоже запустит могу, со скоростью 1.2 token/sec...
Любопытства ради: а какова производительность такого подхода? Скажем, 2 GPU в одной системе против 2х систем с 1 GPU? (все GPU одинаковые)
В моих (довольно скромных) экспериметнах бутылочным горлишком, например при inference llama3 q8 70b с помощью CPU был доступ к памяти - на практике выражалось в том, что увеличене потоков больше 2х не увеличивало производитекльность совершено. (Немного другой случай, но, имхо, показательный)
Так же lamma3 f16 8b на tesla p40 быстрее, чем на gtx 3060 Ti + tesla p40
Зависит от лаптопа. Если у вас есть 8gb vram - старые модели работать будут
Вы можете запустить модель и в обычной RAM, но оно будет считать процессором в течении минуты-двух одну картинку
Зайдите на любой популярный сайт связанный с AI артом. У них, как и у всех виртуальный арт-галерей что я знаю "двойное дно"...
У каждой LLM есть свой собственный стиль речи.
Из моих экспериметнов, Llama3 и Yi 1.5 Chat (Китайская нейросеть) говорят совершенно по разному, так как тренированны на разных датасетах, хотя архитектура одинаковая.
Кажется, что всё это, можно обойти с правильным system prompt, попросив LLM использовать (или избегать) определённый стиль. Просто люди ленивы и не заморачиваются, а ChatGPT - самая распространённая модель.
Ничем из Панели Управления на постоянной основе мы и во времена XP не пользовались. Это собственно и есть панель для настроек, которые или устанавливаются раз и на всегда, или используют когда возникают проблемы.
Впрочем да, новые "Параметры" я использую регулярно - раздел Bluetooth. Потому что Майкрософт не смог сделать нормальный виджет для системного трея.
Компании США не могут состоять в юридических отношениях с подсанкционными организациями. Eula - юридические отношения.
Ну штош... Будем продолжать его не использовать.
Хах! Вы мне сейчсас моего учителя из универа напомнили: он говорил: что если в книге написанно "это тривиально доказать" или "оставляю как упражнение читателю" - автор сам не знает доказательства :D
Когда я занимался этой задачей (подключить в проект собираемый Bazel'ом обновлённую версию AppMetrica) - всё, что я смог найти в интернете: так это что никто ещё не разобрался как это сделать. Я в итоге я просто стал патчить исходники, чтобы существующие инструменты могли собрать их. (Яндекс, фу, изменять расшинения заголовочных файлов с .h на .def - плохая идея)
У меня была такая задача (как возможное решение существовавшей проблемы), и я не уверен, что я сделал все описанные тут шаги, но проблема с которой я столкнулся и не смог побороть - в фреймворк как раз таки не были включены ресурсы.
Насколько я понимаю это решение так же не включит ресурсы?
Пакет, который я пытался собрать - AppMetrica
Ну учитывая что его установили в 2022 в 0%... Тут скорее "халява кончилась". А каким этот налог был для it до 2022?
Не удивлён, тот же Windows так и не научился нормально e-core использовать. (скинуть 12 потоков 100% загрузки p-ядер на 4 e-core - как нефиг делать)
Эй, AliExpress Россия, а куда вам багрепорты отправлять?
У вас невозможно открыть спор потому что невозможно загрузить картинку
Запрос на http://aliexpress.ru/chat-api/v2/chats/attachment/upload возвращает ошибку 405
Бонус баг: иногда форма создания спора при изменении размера окна просто исчезает, без изменения статуса бота. И сделать ничего нельзя, бот думает что я создаю спор, видимых кнопок отмены нет, формы отмены нет даже после перезагрузке страницы.