Научный софт делается долго. Как минимум, потому что отражает параллельный процесс исследования. Как максимум – потому что процесс не организован в хуячечную по аджайлу с релизами каждый месяц.
А работать долго, не теряя фокуса, умеют не только лишь все.
Для llama3/3.1/QweN в размерах 8-13B есть хорошо проработанные механизмы дообучения на одной карте на 48 Гб, это позволяет относительно недорого реплицировать результаты и best practices
Даже не так: кто бы мог подумать, что датасеты для RL будут писаться в Китае так, чтобы всю исследовательскую группу потом не посадили!
(пайплайн открыт, возьмите список запрещённых в Китае статей с wiki, прогоните дообучение чисто по этому датасету, получите "Deepseek-R1-uncensored", если таковой ещё не сделали школьники)
Вообще есть тревожные звоночки. В Германии таки появился реестр заблокированных ресурсов (хоть в нём, кажется, и 24 пункта всего), в Италии блокируют DeepSeek.
Есть. У меня там адъ после прошлой попытки восстановления :(
Научный софт делается долго. Как минимум, потому что отражает параллельный процесс исследования. Как максимум – потому что процесс не организован в хуячечную по аджайлу с релизами каждый месяц.
А работать долго, не теряя фокуса, умеют не только лишь все.
Linux в тот момент был едва ли более пригоден к применению, чем сейчас ReactOS какой-нибудь
Для llama3/3.1/QweN в размерах 8-13B есть хорошо проработанные механизмы дообучения на одной карте на 48 Гб, это позволяет относительно недорого реплицировать результаты и best practices
Но ведь тема часов как раз не раскрыта...
Ммм, плавиковая кислота против эмали...
...но выяснилось, что даже SoC на архитектуре Pentium1 для макдональдсовских систем её имеют, а 486 – удел весьма закрытых промышленных систем
На 64 Мб рамки XP вполне работала. Компьютерный класс филфака СПбГУ, 2007 год, компы на каких-то селеронах поколения раннего P3
https://habr.com/ru/articles/879178/
О даа. Файл в формате .safetensors выполняет код, отстукивающий в Сеть..)
Даже не так: кто бы мог подумать, что датасеты для RL будут писаться в Китае так, чтобы всю исследовательскую группу потом не посадили!
(пайплайн открыт, возьмите список запрещённых в Китае статей с wiki, прогоните дообучение чисто по этому датасету, получите "Deepseek-R1-uncensored", если таковой ещё не сделали школьники)
Если уж хотите про DeepSeek писать – давайте приличные ссылки.
https://habr.com/ru/articles/879178/
Вообще есть тревожные звоночки. В Германии таки появился реестр заблокированных ресурсов (хоть в нём, кажется, и 24 пункта всего), в Италии блокируют DeepSeek.
Ну вы сравнили. Китайская фигня за доллар, и Промышленная Разработка на Серьёзной Элементной Базе!))
А что за платформа там?
К тому же, кажется, у всех уже идиосинкразия к тому, что там правительство делает. Одно желание – лишь бы не лезли в мою отрасль
...и там же
http://www.155la3.ru/blp.htm
Бери-бери, это ещё дед руками наскриптизировал
О, недавно пошёл читать про УЛМ и наткнулся на шедевр
http://www.155la3.ru/vs.htm
Ещё меня очень радует, что по сути есть две версии этой станции - с компрессором в базе, и с феном с вентилятором. Абсолютно разные по поведению.