Обновить
4
0.8

Пользователь

Отправить сообщение

Ryzen 9950x поддерживает 256 unbuffered ecc/nonecc.

Не плохо бы ещё привести какую-то информацию о необходимых мощностях для тюнинга моделей того или иного размера. Например, возможно ли дотюнить 72b модель на разумном количестве GPU типа Nvidia RTX 3090 за разумное время? Например 16 таких GPU подключенных по pci-e x8 v4 в одну материнскую плату и пару месяцев?

Странная статья, очень много таких вот маркеров, которые вадают авторство нейросети: "Квантовый танец на границе миров", "Почему это решает "три чуда", "Почему это важно", "Лаборатории против теории: кто кого?" - люди так не говорят.

Но зачем так упорото выкладывать? Я не однократно пробовал вставить текст статьи в deepseek и его можно попросить не только перевести, но и почистить, структурировать, форматировать и будет намного лучше, чем здесь.

А не надо на модель давить. Надо её подбадривать: ничего-ничего, ты справишься, я верю в тебя...

Дожили.

Ударим по нейростатьям искусственным интеллектом! Я попросил deep seek R1 0528 оценить стоит ли читать ваш рассказ, вот его вердикт:

Итог для вас:

  • Если вы хотите быстрого, незамысловатого космического детектива с легким налетом НФ-антуража и юмором – рассказ, возможно, подойдет для фонового чтения.

  • Если вы ищете оригинальную научную идею, глубину проработки концепции, интеллектуальную интригу или философский подтекст, которые заставляют задуматься о Вселенной по-новому (как у авторов из вашего списка), – этот рассказ вас глубоко разочарует. Главная интрига оказывается надуманной и решается примитивно.

А потом либо шах сдохнет, либо ишак, либо ещё что-нибудь произойдёт. А ещё есть вариант "ну не смогла я".

я постоянно работаю с deepseek и по рабочим вопросам и для развлечения и хочу сказать, что определенно ии занял многие ниши - тот же перевод уже хорошо.

Но не похоже, что 10 трилионов дадут что-то принципиально новое само по себе. Однако лёд тронулся. Новые подходы предлагаются, ставятся эксперементы, просто пока не такие масштабные. Например недавно предложили обучать разные слои с оазной скоростью: низкоуровневые близкие ко входу быстро и грубо, высокоуровневые медленно и аккуратно. Идея в том, чтобы после шага обучения слоёв оперирующими высокими абстоакциями заново переобучать под их нужды низкоуровневые слои под новые потребности "умных" слоёв. И результат по мнению авторов сильно обнадёживающий.

А это только один аспект, развиваются и стратегии инференса, предлагаются новые топологии, ускорители не стоят на месте. Например, если раньше огромную сеть нужно было целиком пихать в gpu, то moe-подход позволяет грузить в ускоритель только kv-cache и самые нагруженные эксперты.

Прошу прощение за опечатки. Набирал со смартфона.

У меня такой же вопрос. Может быть они используют llm "доученную" в Т-банке или другую не очень сильную llm?

По тому, что мой опыт показывает, что при минимальных вводных перевод не просто качественный, а ещё и учитывающий вставки кода и даже иронию или другие двусмысленные реплики, но не в коротком отдельном предложении, а когда они часть целостного текста.

Да ладно. Т.е. если взять целостный текст из которого понятно человеку, что речь идет о нейросетях, какой-нибудь deepseek переведёт llm как "магистр права"? Не верю. Его можно даже попросить сделать литературный перевод и он не плохо справится, подбирая мощные образные и зависящие от контекста образы.

Справедливости ради, LibreOffice не ставили задачу поддержания тотальной совместимости с MS как самую приоритетную. У них в приоритете свой формат в отличие от OnlyOffice который внутри оперирует абстракциями родными для MS Office и по этому значительно лучше поддерживает документы MS и для них поддержание тотальной совместимости с MS является приоритетом №1.

Я некоторое время метался между LiberOffice, в котором мне нравится открытость и OnlyOffice который практический лучше подходит для работы, да ещё сравнительно быстро работает в облаке и в итоге рабочие задачи делаю в OnlyOffice а всякие свои документы не связанные с работой оставил в LibreOffice.

(картинка Жан-Клод Вандама на шпагате между грузовиками)

У меня с корпоративной карты яндекс стал списывать когда деньги на картах физика кончились. А там за траты надо перед бухгалтерией отчитываться. Потребовал вернуть и попросил повторно списать с карты физика, они разумеется отказались. Со злости аннулировал их подписку вообще, обойдусь. Причем карта нужна была для оплаты такси, но почему-то яндекс считают, что могут по своему желанию залезать вам в карман и даже, фигурально выражаясь, в карманы ваших гостей.

Да можно и вообще смартфоном не пользоваться, чего уж там.

Да уж, видимо сильно их deepseek напугал, раз теперь они начали блочить собственных пользователей. Вы же представляете СКОЛЬКО нужно общаться в llm чтобы это стало полезно для дистилляции? Явно это перегибы на местах, возможно, вызванные паникой.

Не согласен и то и то является налогом на ФОТ (фонд оплаты труда) конкретного работника. А то что НДФЛ показывается как бы заплаченный от имени работника, а остальные налоги и сборы типа с бизнеса всего лишь бирка на сумме. Математически вся сумма налогов зависит только от ФОТ, при том работнику считается не обязательным показывать что-то кроме НДФЛ, но когда речь заходит про черные и серые зарплаты и справку 2НДФЛ, обычно тайны из этого никто не делает.

По моему, с этим агент должен справляться: https://habr.com/ru/companies/bothub/news/927146/comments/#comment_28567604 и уж тем более сохранять консистентность оассужлений в течении длительного общения. Не уходить вразнос особенно важно для агента, по моему.

А-хаха, да, смешно!

Но, если серьёзно, не соглашусь. VLM подразумевает понимание очевидных взаимосвязей типа таблиц, столбиков, стрелок и пересечений. Там было примерно следующее:

url-site1 -----+
url-site2 ---+ |
url-site3 -+ | |
           | | |
ip-addr1...+ - +
ip-addr2...+ + +
ip-addr3...+ + +
ip-addr4...+ - +
...

И после моего обьяснения она даже пепечислила сайты и работающие для каждого из них ip, т.е. как бы поняла. Но на вопросы типа "для каких сайтов все ip работают?" и "для какого сайта есть не работающие ip?", как и "для каких ip не все сайты рабоьают" ответила не просто с ошибками, а тотально не верно. Потом я стал указывать на ошибки, но она вообще в разнос пошла.

А это и есть хоть какой-то интеллект.

К сожалению, нет. Периодически я закидывал свой особенный промпт про физиков и магов исследующих черную дыру. Пол года назад работающие через openrouter версии чатжипити ничего впечатляющего не выдавали или вообще уходили в галюцинации. Deepseek выдаёт очень осмысленные и убедительные рассуждения, но не каждый раз. А правильного ответа я сам не знаю ) Очень дорогие pro-версии я не тестил, бюджет 5$ на месяц.

Через openrouter, все нориально. Правда я вычислил и заблокировпл провайдеров которые не отвечали - это можно сделать в настройках своей учетки в openrouter. У них, кстати не только deepseek не отвечал. Просто провайдеры кривые. Ещё я заблрчил тех у кого точность была понижена.

Но это не чтобы вас порадовать. Бывает она и намного менее удачно слова подбирает, тогда становится видно, что это ошибка. Это просто неспособность адекватное слово подобрать.

Вспоминаю, как мне кто-то давно сказал, что матом ругаться нельзя по тому, что мы мыслим словами и чем точнее мы подбираем слова в быту, тем точнее и острее становится наш ум. В нынешнее время, думаю это должно быть очевидным.

Зашел попробовал. Я менее "злые" тесты запускал, может быть по этому не сталкивался с такой аховой косноязычностью,как описывал выше. Скормил скриншот с таблицей. Там была маленькая заковырка: столбцы подписаны горизонтально и псевдографикой шла линия от названия до столбца к которому это название подходит. Сразу модель не разобралась, но сделала вид, что всё поняла после прямого описания механизма сопоставления, я аж обрадовался - рано. Она правильно назвали столбцы и даже написала их номера, а так же перечислила все данные в строках. Казалось бы, дальше можно работать чисто с историей чата. Но модель не смогла ответить ни на один тривиальный вопрос о содержимом строк и столбцов, типа "в каком столбце стоят везде "+" и нет "-" ?

Я свое мнение не изменил, deepseek на порядок лучше.... а может и на несколько порядков. Он таких тривиальных ошибок не делает. Я с ним даже в 3-х мерные крестики нолики поиграл в псевдографике. Причем в один момнт попросил переставить проекции в ширину, чтобы они мешались у меня в экране лучше. И потом продолжал играть без ошибок несмотря на наличие по разному расположенных проекций в истории чата. А играли в поле 7x7x7 !

Информация

В рейтинге
1 838-й
Зарегистрирован
Активность

Специализация

Системный администратор, Сетевой инженер
Ведущий
Linux
Bash