Простите, но два NAS рядом на одной полке и некие "диски вне дома" (с какой периодичностью и каким образом на них бэкапитесь? явно же не в риалтайме, иначе был бы описан и ещё один NAS) - это не стратегия 3-2-1. Нет полоценного "3" (третья копия данных явно сильно неактуальная), нет "2" (все носители одного типа) и очень условно есть "1" (из-за той самой неактуальноcти offsite копии).
Если отвлечься от абстрактной стратегии и перейти к конкретным рискам - то скачок напряжения / пожар / кража / обыск в доме оставят Вас с единственной неактуальной копией, которая, учитывая отсутствие избыточности, не факт, что прочитается. А в зависимости от того, где именно лежат "диски вне дома" и кто имеет к ним доступ, легко представить и сценарии, когда при определённых неприятностях в Вашей жизни доступ будет утрачен ко всем трём копиям одновременно...
P.S. В качестве ответа на вопросы в конце статьи и в рамках позиции "критикуешь - предлагай" в общих чертах скажу про свою схему. Основная рабочая копия - арендованный физ. сервер в РФ (SSD в RAID-1), основной софт - Seafile. Резервные копии - облачное хранилище в РФ, облачное хранилище вне РФ, домашний сервер (HDD в ZFS RAIDZ2, т.е. RAID-6). Объёмы сопоставимы с Вашими. Вместо домашнего сервера бы ленточную библиотеку (вспоминаем, что кроме 3-2-1 придумали и 3-2-1-1-0...) но то, что проходит по деньгам, изрядно древнее получается... ну и нет времени вникать.
Сам сейчас занимаюсь похожей задачей, используя OpenWebUI + Ollama. В роли генератора использую deepseek-R1 7B Q4 с сайта Ollama, Embed-модель bge-m3. Запускаю всё это на RTX 3060 12Гб. Надо будет попробовать повторить ваш алгоритм действий
Например тут я сравнивал степень развитости разных животных по сложности их артикуляции. Кошки оказались на удивление сильно развиты в артикуляции, но слабо развиты в детализации "речи".
А вот вороны неплохо.ищ минусов, я брал данные всех ворон, а надо брать воронов(чтоб сравнить, они умнее).
Аналогично, с попугаями была ошибка, так как смешал много пород попугаев, а они сильно отличаются. В среднем попугаи не особо , но опять же я брал всех. Надо брать конкретно отдельные виды и сравнивать.
Я не так давно пробовал изменить диапазон речи под человеческую: тон, форманты, темп речи. Сделал на сколько смог из имеющихся инструментов. В этом случае вместо кар мы уже слышим совсем другие звуки. И там явно более сложнее все.я сейчас так же разбираю степень развитости животных, включая ворон.
В коде выше используется библиотека fuzzywuzzy, позволяющая нечётко сравнивать строки, данная библиотека необязательна, но лучше с ней чем без неё.
Можешь ещё попробовать поработать с языковыми моделями, это щас модно :) Например, сравнивать строки, задавая вопрос гигачату:
from gigachat import GigaChat
GIGACHAT_TOKEN = "MTQ....................................1NA=="
s1 = "Что ты умеешь?"
s2 = "Расскажи, что ты можешь делать?"
with GigaChat(credentials=GIGACHAT_TOKEN, verify_ssl_certs=False) as giga:
response = giga.chat(
"На сколько процентов похожи две следующие строки? Сравни по смыслу:\n"
f"1) {s1}\n"
f"2) {s2}\n"
"В ответе напиши только одно число.")
print(response.choices[0].message.content)
Для доступа к чатгпт 4 турбо + дали3 достаточно включить почти любой впн и зайти на сайт bing.com (это микрософт). Лимиты там большие и ничто не мешает сделать больше 1 аккаунта.
К gemini подобрать впн немножко сложнее, это вариант от Гугла.
Привет, сам код стандартный, но так как модель большая, то будет проблематично запускать в Colab'е. Даже с load_in_8bit=True. Мы еще посмотрим как оптимизировать запуск и сделаем примеры дообучения с LoRA.
# !pip install transformers accelerate bitsandbytes
from transformers import GPT2TokenizerFast, AutoModelForCausalLM
tokenizer = GPT2TokenizerFast.from_pretrained('ai-forever/ruGPT-3.5-13B')
model = AutoModelForCausalLM.from_pretrained('ai-forever/ruGPT-3.5-13B')
text = "Гладить манула лучше следующим образом:"
encoded_input = tokenizer(text, return_tensors='pt').to('cuda:0')
output = model.generate(
**encoded_input,
num_beams=5,
max_new_tokens=100,
no_repeat_ngram_size=2,
num_return_sequences=5,
)
print(tokenizer.decode(output[0], skip_special_tokens=True))
Чтобы начать вваливаться в тему, рекомендую пакет diffusers для Питона. Рабочую генерацию картинок можно написать в 10 строк, потом постепенно начать углубляться.
По моему опыту, GPT-подобные модели начинают выдавать вполне качественные тексты уже начиная с 6B параметров. Примерно с этого же размера модель начинает нормально работать с логическими цепочками, а также нормально распознавать, какая часть описания к какому предмету относится.
Например
Боб — брюнет с короткой стрижкой и карими глазами, носит вязаный свитер.
Алиса — блондинка с волнистыми волосами до плеч. У неё серые глаза. Носит джинсы и кроссовки.
Вопрос: какого цвета волосы у Боба?
Ответ:
Модели меньшего размера тупо гадают — это легко увидеть, скормив этот контекст им несколько раз. Начиная с 6B на такие вопросы нейронка отвечает уверенно.
13B работает ещё лучше, однако улучшения уже носят количественный, а не качественный характер — значительно меньше промахов и корявых фраз, но примерно такие же способности к логическому анализу, как у 6B.
Дальнейшее увеличение размера на глаз практически незаметно. Так, мне не удалось в слепом тестировании отличить OPT-13B-Erebus от OPT-30B-Erebus на задаче генерации литературных текстов.
Из всего, что на данный момент выложил Сбер, наилучшие результаты показывает FRED-T5-1.7B. Для моих целей её возможностей уже вполне достаточно, но ruGPT-13B с удовольствием протестирую (если конечно там в архитектуре не будет никакой пакости вроде Sparse Attention, под которую хрен соберёшь модули).
Регистрация на мой взгляд совершенно тут не нужна, да и есть аналоги с возможностью выбора моделей и без регистрации (генерация локальная на устройстве) https://drawthings.ai
"Мы не собираемся останавливаться на тиражировании ChatGPT. Мы хотим создать помощника будущего, способного не только писать электронные письма и сопроводительные письма, но и выполнять содержательную работу, использовать API, динамически исследовать информацию и многое другое, с возможностью персонализации и расширения кем угодно. И мы хотим сделать это открытым и доступным способом, а это значит, что мы должны не только создать отличного помощника, но и сделать его достаточно компактным и эффективным для работы на потребительском оборудовании."
"GPT-J-6B тоже работает с 8bit/тензорными ядрами, но только пока не на windows :( У меня с 4090 получается примерно 15 токенов с секунду, довольно грустно, хотел ускорить."
Да, спец.ускорители есть. RTX A5000, RTX A6000 или Tesla A100, например. В зависимости от размера кошелька.
Что-то не сходится с GeoBench: https://geobench.org/. Там минимальный разброс у Gemini 2.5 Pro и это 133 км.
Простите, но два NAS рядом на одной полке и некие "диски вне дома" (с какой периодичностью и каким образом на них бэкапитесь? явно же не в риалтайме, иначе был бы описан и ещё один NAS) - это не стратегия 3-2-1. Нет полоценного "3" (третья копия данных явно сильно неактуальная), нет "2" (все носители одного типа) и очень условно есть "1" (из-за той самой неактуальноcти offsite копии).
Если отвлечься от абстрактной стратегии и перейти к конкретным рискам - то скачок напряжения / пожар / кража / обыск в доме оставят Вас с единственной неактуальной копией, которая, учитывая отсутствие избыточности, не факт, что прочитается. А в зависимости от того, где именно лежат "диски вне дома" и кто имеет к ним доступ, легко представить и сценарии, когда при определённых неприятностях в Вашей жизни доступ будет утрачен ко всем трём копиям одновременно...
P.S. В качестве ответа на вопросы в конце статьи и в рамках позиции "критикуешь - предлагай" в общих чертах скажу про свою схему. Основная рабочая копия - арендованный физ. сервер в РФ (SSD в RAID-1), основной софт - Seafile. Резервные копии - облачное хранилище в РФ, облачное хранилище вне РФ, домашний сервер (HDD в ZFS RAIDZ2, т.е. RAID-6). Объёмы сопоставимы с Вашими. Вместо домашнего сервера бы ленточную библиотеку (вспоминаем, что кроме 3-2-1 придумали и 3-2-1-1-0...) но то, что проходит по деньгам, изрядно древнее получается... ну и нет времени вникать.
Очень полезная статья!
Сам сейчас занимаюсь похожей задачей, используя OpenWebUI + Ollama. В роли генератора использую deepseek-R1 7B Q4 с сайта Ollama, Embed-модель bge-m3. Запускаю всё это на RTX 3060 12Гб. Надо будет попробовать повторить ваш алгоритм действий
ВПН не нужен. Дома берешь у гугла ключ через впн https://aistudio.google.com/app/apikey
На работе вставляешь его в сайт типа такого https://librechat-librechat.hf.space/c/new
В результате имеешь заметно более удобный сервис чем любая маша/ботхаб без впна и подписок.
Туда же можно воткнуть ключи от оригинального чатгпт и клода если сможешь их где то достать.
В SwarmUI поддерживается «из коробки».
https://github.com/mcmonkeyprojects/SwarmUI/blob/master/docs/Video Model Support.md
Например тут я сравнивал степень развитости разных животных по сложности их артикуляции. Кошки оказались на удивление сильно развиты в артикуляции, но слабо развиты в детализации "речи".
https://t.me/greenruff/2009?single
А вот вороны неплохо.ищ минусов, я брал данные всех ворон, а надо брать воронов(чтоб сравнить, они умнее).
Аналогично, с попугаями была ошибка, так как смешал много пород попугаев, а они сильно отличаются. В среднем попугаи не особо , но опять же я брал всех. Надо брать конкретно отдельные виды и сравнивать.
Я не так давно пробовал изменить диапазон речи под человеческую: тон, форманты, темп речи. Сделал на сколько смог из имеющихся инструментов. В этом случае вместо кар мы уже слышим совсем другие звуки. И там явно более сложнее все.я сейчас так же разбираю степень развитости животных, включая ворон.
https://t.me/greenruff/1932?single
Молодец!
Можешь ещё попробовать поработать с языковыми моделями, это щас модно :) Например, сравнивать строки, задавая вопрос гигачату:
Если воспользоваться RHVoice то модель не нужна.
Что-то подобное делал ранее, только в качестве самостоятельного устройства. Для синтеза речи лучше использовать модель v4_ru.pt, она быстрее.
Для доступа к чатгпт 4 турбо + дали3 достаточно включить почти любой впн и зайти на сайт bing.com (это микрософт). Лимиты там большие и ничто не мешает сделать больше 1 аккаунта.
К gemini подобрать впн немножко сложнее, это вариант от Гугла.
И есть много других открытых для всех вариантов, вот например большой мистраль https://chat.mistral.ai/chat
Ллама 70б, хайку и гпт35 есть на сайте поисковика duckduckgo.
На сайте openrouter.ai есть много бесплатного gpt4o и Claude 3 sonnet.
Привет, сам код стандартный, но так как модель большая, то будет проблематично запускать в Colab'е. Даже с load_in_8bit=True. Мы еще посмотрим как оптимизировать запуск и сделаем примеры дообучения с LoRA.
Чтобы начать вваливаться в тему, рекомендую пакет diffusers для Питона. Рабочую генерацию картинок можно написать в 10 строк, потом постепенно начать углубляться.
По моему опыту, GPT-подобные модели начинают выдавать вполне качественные тексты уже начиная с 6B параметров. Примерно с этого же размера модель начинает нормально работать с логическими цепочками, а также нормально распознавать, какая часть описания к какому предмету относится.
Боб — брюнет с короткой стрижкой и карими глазами, носит вязаный свитер.
Алиса — блондинка с волнистыми волосами до плеч. У неё серые глаза. Носит джинсы и кроссовки.
Вопрос: какого цвета волосы у Боба?
Ответ:
Модели меньшего размера тупо гадают — это легко увидеть, скормив этот контекст им несколько раз. Начиная с 6B на такие вопросы нейронка отвечает уверенно.
13B работает ещё лучше, однако улучшения уже носят количественный, а не качественный характер — значительно меньше промахов и корявых фраз, но примерно такие же способности к логическому анализу, как у 6B.
Дальнейшее увеличение размера на глаз практически незаметно. Так, мне не удалось в слепом тестировании отличить OPT-13B-Erebus от OPT-30B-Erebus на задаче генерации литературных текстов.
Из всего, что на данный момент выложил Сбер, наилучшие результаты показывает FRED-T5-1.7B. Для моих целей её возможностей уже вполне достаточно, но ruGPT-13B с удовольствием протестирую (если конечно там в архитектуре не будет никакой пакости вроде Sparse Attention, под которую хрен соберёшь модули).
Советую добавить функционал как в https://minigpt-4.github.io/, когда можно загрузить картинку и обсуждать ее, генерировать по ней код и т. д.
Регистрация на мой взгляд совершенно тут не нужна, да и есть аналоги с возможностью выбора моделей и без регистрации (генерация локальная на устройстве) https://drawthings.ai
Недавно была статья про инструмент FlexGen, который позволяет запускать LLM при ограниченной видеопамяти.
https://habr.com/ru/news/t/718684/
Модель opt-13b запустилась на GF RTX 3060 12GB
с параметрами
python server.py --model opt-13b --flexgen --compress-weight --percent 100 0 100 0 100 0
за несколько минут сочинила такой текст:
https://pastebin.com/HtCJFjbX
На той же видеокарте модель opt-30b запустилась с параметрами
python server.py --model opt-30b --flexgen --compress-weight --percent 70 30 100 0 100 0
но работает в несколько раз медленнее.
"Мы не собираемся останавливаться на тиражировании ChatGPT. Мы хотим создать помощника будущего, способного не только писать электронные письма и сопроводительные письма, но и выполнять содержательную работу, использовать API, динамически исследовать информацию и многое другое, с возможностью персонализации и расширения кем угодно. И мы хотим сделать это открытым и доступным способом, а это значит, что мы должны не только создать отличного помощника, но и сделать его достаточно компактным и эффективным для работы на потребительском оборудовании."
https://github.com/LAION-AI/Open-Assistant#the-vision
Можно использовать GPT-J, она открытая. Но на домашних мощностях это работает медленно. Вот тут в частности обсуждается производительность: https://habr.com/ru/company/selectel/blog/718134/
"GPT-J-6B тоже работает с 8bit/тензорными ядрами, но только пока не на windows :(
У меня с 4090 получается примерно 15 токенов с секунду, довольно грустно, хотел ускорить."
Да, спец.ускорители есть. RTX A5000, RTX A6000 или Tesla A100, например. В зависимости от размера кошелька.