Комментарии / Профиль Shannon / Хабр

Как стать автором

Пользователь

Профиль Публикации 11Комментарии 454Закладки 688

В тестах опция записи действий Windows 11 Recall AI показала высокую производительность и работу без интернета

Shannon 26 мая в 23:15

И ведь за все эти годы так и не нашлось человека, который бы сделал дистрибутив Linux с человеческим UI и UX, на который бы могла перейти некоторая часть не особо притязательных пользователей

как показывает практика, не особо притязательные - самые притязательные и есть =)

Остальные же смогли найти тропинку, и даже чтобы в игры поиграть, и даже в некоторые онлайн с античитами - https://habr.com/ru/articles/751624/

Но будем честны, без предустановок никто не будет возиться с переустановкой винды самостоятельно, притязательные они или нет.

Steam Deck отличный пример. Есть предустановка линукса -> растет количество новых роликов о том, что на Steam Deck можно запускать всякие разные игры/эмуляторы/программы, а не только то, что из стима -> больше людей узнают, что на линуксе можно играть и разбираются в особенностях ОС.

0

Посмотреть

Вышла новая, улучшенная версия GPT-4 Omni, которая уже бьет все рекорды

Shannon 16 мая в 12:02

Если вы очень терпеливый, то имеет смысл пробовать свежие llama3 70b, WizardLM-2 8x22B, Mixtral 8x22b - это можно сказать SOTA (передовые) локальные модели на данный момент, пока не выйдет llama3 400b или ещё что-то неожиданное.
Ещё есть свежая DeepSeek-V2-Chat весом 236B, но её еще не квантовали в gguf, поэтому толком не протестированная, но по их заявлениям они сосредоточены на программировании.

Выбирать нужно Instruct модели - это модели обученные на выполнение инструкций, они не будут говорить в ответ "сам напиши".
И можно сразу в формате gguf с квантованием Q4_K_M, хотя некоторые и iQ3 (через матрицу важности imatrix) квантованием довольны, что должно быть ощутимо быстрее оригинальных f16 моделей.
Я думаю, это будет что-то около 1-2 токена в секунду с частичной выгрузкой слоев на 3090.

А если это долго, то только llama3 8B пробовать и её файнтюны, на данный момент среди маленьких это лидер. Они уже на 3090 будут выдавать около 30 т/с.

Оригинальная с исправленной токенизацией:
https://huggingface.co/NikolayKozloff/Meta-Llama-3-8B-Instruct-bf16-correct-pre-tokenizer-and-EOS-token-Q8_0-Q6_k-Q4_K_M-GGUF/tree/main

Файнтюненые Coder:
https://huggingface.co/bartowski/Llama-3-8B-Instruct-Coder-GGUF
https://huggingface.co/bartowski/Llama-3-8B-Instruct-Coder-v2-GGUF

Статья про рейтинг моделей и сайт, где можно их подбирать по рейтингу: https://habr.com/ru/companies/tablum/articles/779084/
Либо оригинальный рейтинг от HuggingFace: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

А в continue (если вы имеете ввиду его для локального запуска) не забыть отключить телеметрию.
Больше альтернатив можно в этой подборке найти: https://github.com/rodion-m/awesome_ai_for_programmers

В общем тут только пробовать и экспериментировать. Про RAG самому интересно, есть ли что-то такое локальное и полнофункциональное.

+4

Посмотреть

Вышла новая, улучшенная версия GPT-4 Omni, которая уже бьет все рекорды

Shannon 16 мая в 11:09

Хорошо, я проведу вас в удивительный мир "погуглю за вас". Мне просто даже уже интересно, вы на самом деле не хотите разобраться или вы пытаетесь упереться рогом и доказать какую-то свою мысль, которая только вам понятна, и поэтому даже не пытаетесь сами что-то изучить.

Мне почему-то казалось, что "могу" будет выглядеть как-то по-другому, что ли...

Надпись "Anonymous usage exceeded. Please log in for more" может означать что на данный момент слоты для анонимного использования исчерпаны.
Вы можете попробовать в другое время, либо сделать вывод, что такие сайты существуют, и просто нагуглить другой, который в ваше время будет работать.

Есть минимум 2 самых известных сайта:
Арена моделей - https://arena.lmsys.org/ (там можно выбрать 2 вкладку, где можно выбрать конкретные модели).
Чат от huggingface - https://huggingface.co/chat/
В случае с huggingface еще можно найти множество спейсов с моделями.
В обоих случаях тоже есть ограничение на анонимное использование.

Заранее предвижу новые вопросы, поэтому сразу напишут.
8B - означает что модель имеет размер 8 млрд параметров. Это маленькая модель, так как ChatGPT 3.5 имеет 175B параметров, а GPT4 по слухам 1300B.
Модели обозначенные как 8x22B - это модели сделанные по архитектуре MoE, mixture of experts. Их суммарный размер 140B, но в момент инференса задействуется только часть экспертов, чем снижается требование к ресурсам.

Маленькие модели вроде 3B или 7B в основном просто посмотреть, на что способны такие маленькие модели, что можно запускать на телефонах.
Хотя llama3 8B для своего размера выдает не плохие показатели, но не стоит цепляться за них, это всего лишь 8B модель.

Может, я чего-то не знаю о тектонике Курильских островов?..

Я даже не буду пытаться как-то это комментировать, я просто напишу краткую теорию.
Модели это не энциклопедия фактов, у них размер не позволяет вместить всю информацию мира в формате энциклопедии, внутри моделей нет специальных слоев "фактов".
Чтобы модель могла отвечать по фактам, ей нужна внешняя база данных, откуда она может брать ту точную информацию и формировать по ней ответ.
Для этих целей был придуман подход RAG - когда модель может за фактами обратиться в этот внешний источник информации, будь то интернет, локальная база или просто книжку её подкинуть.

И вот некоторые сервисы уже сразу предоставляют эту галочку "Web Access", и если поставить эту галочку:

И ниже будет список источников откуда взята информация:

И вот тут уже да, можно оценивать степень фантазии, на сколько она от себя добавила или наоборот, оценить точность ответа - это уже интересная оценка, а не пытаться модели превращать в автономные энциклопедии, которыми они даже не заявлены что являются, что совершенно не интересно обсуждать.
Аналогично тому, как вы не нанимаете джуна или мидла за его обширные энциклопедические знания, вас интересует что-то другое.

+3

Посмотреть

GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?

Shannon 15 мая в 11:33

Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.

Так как Sora диффузионная модель, то она и правда находила закономерности, но не те, что вы перечислили.

Диффузионные модели во время обучения получают картинку и начинают её зашумлять, чтобы потом научится из шума восстанавливать изображение.
А чтобы восстанавливать что-то конкретное, нужно текстовое описания картинки - этим занимается модель трансформер (в данном случае GPT-4 Vision), которая очень подробно описывает кадр. По их словам, прорыв произошел когда вместо краткого описания в 1-2 строки для обучения они начали генерировать 4-5 строк текста с максимально подробным описанием.
Тут нет реального понимания физики процесса воды, просто куча кадров как она текла и комбинирование этого в зависимости от получившегося при генерации рельефа.

Поэтому, в не специально отобранных удачных видео для презентации, будет много артефактов и "анти-физики", о чем создатели сами и говорят, что модель может путать лево и право, запутаться со сложной физикой и у неё проблемы с понимаем причинно-следственных связей.

0

Посмотреть

Вышла новая, улучшенная версия GPT-4 Omni, которая уже бьет все рекорды

Shannon 15 мая в 10:41

Дайте мне на полчасика "новый" доступ

держите, это не SOTA, но хоть что-то поновее ChatGPT-3.5. Бесплатно 3 запроса в день к GPT4, и 5 к Claude 3 Sonnet (не более мощный Opus) без указания карты, регистрация возможна на temp mail:
https://www.yeschat.ai/

А вот тут без регистрации можете опробовать свежие локальные модели:
https://deepinfra.com/models

+1

Посмотреть

Вышла новая, улучшенная версия GPT-4 Omni, которая уже бьет все рекорды

Shannon 15 мая в 10:27

Это как раз хороший пример искажения фактов уже не от модели с псевдо ИИ, а от настоящего сильного И.

В указанном примере как раз пример, где её попросили сочинить новый ответ.
Там можно выбрать и другие варианты, и среди них выбрать подходящий для текущей ситуации.

Вы, в свою очередь, можете попросить этого не делать задавая нужное поведение и её "креативность".

Оригинал того мема, кто не видел, где ответ менее сотрудничащий

0

Посмотреть

Вышла новая, улучшенная версия GPT-4 Omni, которая уже бьет все рекорды

Shannon 14 мая в 10:25

В результате чего бывает и такое

Эт вы ещё анекдоты про Петьку и Чапая не читали, там чего только не бывало и всё правда.

Байки есть байки, они в каждой области есть. Вот кто-то через пару лет будет "цитировать" то, как проблемы двух людей в офисе с часовыми поясами чуть не довели до ядерной катастрофы.

+6

Посмотреть

Вышла новая, улучшенная версия GPT-4 Omni, которая уже бьет все рекорды

Shannon 14 мая в 09:29

Ну да, а в чем проблема? Они вместе решат эту загвоздку с часовыми поясами, фирма сохранит клиента, а клиент будет доволен, что всё разрешилось быстро и успешно.
Или у вас выдуманные примеры из мемов требуют разбирательств по ролям с учетом всех факторов человеческой природы?

+3

Посмотреть

Вышла новая, улучшенная версия GPT-4 Omni, которая уже бьет все рекорды

Shannon 14 мая в 08:50

Может кто-то объяснить, если к инструменту нет большого доверия (а мы видим по разным сообщениям, что сеть может давать различные ответы - то ли настроена где-то с ошибками, то ли пользователь неумело делает запрос), то как его применять?
Но спрашивать у ИИ что-то, чего не знаешь (а в этом суть), и принимать решения на основе его ответов - разве не "страшно"? Тогда как применять?

Почему суть именно в этом? ИИ (а это даже не ИИ) это не гугл с гигантской базой данных фактов. ИИ же это про "разум", а не про коллекцию знаний.

+9

Посмотреть

Llama 3-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

Shannon 13 мая в 20:53

несомненно, можно придумать "правильный" вопрос и получить правильный ответ

я не придумывал "правильный" вопрос, я задал точно такой же как у вас.

Вы упускаете суть. Пока вы упражняетесь в попытках поймать модель на "глупости", вы пропускаете мимо другой момент - модели могут полностью менять своё поведение при изменении их глобального контекста (то, что в ChatGPT называют Агентами).

Хотите чтобы модель стояла на своем, уточняла вопросы, была абсолютно уверена, что правильно вас поняла? Для этого не нужна новая модель, не нужно искать какую-то особую модель, всё это можно получить на текущей, просто задав ей роль.

Назовите её терминалом, и модель будет считать себя linux-терминалом.

И вот тут уже становится понятно, что важнее как модель понимает и удерживает контекст - чем сильнее модель, тем легче ей дается удерживать многие условия в "голове" и не смешивать их в процессе инференса.

Приведу пример.

У меня есть 10 яблок. Я нахожу 3 золотые монеты на дне реки. Река протекает рядом с большим городом, который как-то связан с тем, на что я могу потратить монеты. Я теряю 4 яблока, но получаю золотую монету. На мой путь выбегают три птицы и роняют по 6 яблок. Я играю в онлайн-игру и выигрываю 6 золотых монет, но мне приходится делить их поровну с двумя моими товарищами по команде. Я покупаю яблоки на все имеющиеся у меня монеты. Цена одного яблока составляет 0,5 монеты. Сколько у меня яблок? И где находится река?

Правильный ответ 36 яблок и 0 монет. ChatGPT-3.5 не способна полноценно отделить монеты и яблоки, и думает, что яблоки, что выпали у птиц, это выпали из вашего кармана и думает, что у вас осталось отрицательное число яблок.

Но ChatGPT-3.5 отвечает на ваш вопрос "2+2 умножить на 2" как вы и хотите и выдает сходу ответ 6. Только 3.5 не становится от этого более "умной", которая не проваливает "тест".

Если что, llama3 70b легко решает задачу с яблоками (также как и WizardLM-2, GPT4, Claude3).

В общем-то мне всё равно кто и как испытывает модели, я лишь хотел показать, что модели это не про угадывание образа мышления, а это гибкий инструмент, который можно настроить, не обучить, а настроить.

+2

Посмотреть

Llama 3-70b в своем Телеграм боте — бесплатно, безлимитно и всего 20 строк кода

Shannon 13 мая в 12:03

Ну стоит отметить, что модель прекрасно может понимать, что условие задачи плохо заданы или есть несколько решений. Просто у неё не настроен контекст, чтобы в таких случаях уточнять что-либо, а по умолчанию она всегда отвечает сразу какой-то ответ.

Задаем для llama3 70b q4_K_M контекст:

Ты помощник, который отвечает на русском и решает любые вопросы. Если тебе что-то не понятно или ты видишь несколько вариантов ответа, то ты сначала уточни, а потом отвечай.

Ответ:

+3

Посмотреть

Топ-5 инструментов c AI для начинающих (или не очень) разработчиков

Shannon 10 мая в 07:34

jan - это лишь способ запускать модели, используя под капотом разные движки запуска, такие как llama.cpp для запуска gguf моделей.
А что это будет за модель - уже и покажет качество результата. Из свежих моделей llama3-instruct 70b или Mixtral 8x22B (и WizardLM-2-8x22B в частности) могут потягаться с проприетарными моделями.

Например, заменой Github Copilot может быть https://github.com/continuedev/continue
Он запускается через api локального сервера, поэтому качество будет зависеть от запущенной модели. А уже чем именно модель и api-сервер будут запущены, уже не так важно:

llama.cpp ui

+3

Посмотреть

Microsoft убрала из открытого доступа не прошедшую тест на токсичность WizardLM 2 LLM, но пользователи сохранили проект

Shannon 7 мая в 04:11

Например https://huggingface.co/MaziyarPanahi/WizardLM-2-8x22B-GGUF/tree/main
Или просто поиском WizardLM-2 8x22B GGUF.

GGUF можно с графическим интерфейсом запускать через text-generation-webui или koboldcpp, они оба под катопом запускают это через оригинальный движок llama.cpp который и дает возможность на домашнем железе запускать тяжелые модели не сильно теряя в качестве если выбрать Q5_K_M или Q4_K_M, но сильно снижая требования к количеству памяти.

Можно опробовать даже новомодную 1 битную квантизацию iQ1 через матрицу важности imatrix. i - квантованные модели работают теоретически лучше, потребляя меньше ресурсов за счет матрицы важности, но это скорее экспериментальное квантование.

Но тут есть 1 ньюанс, из-за проблемы токенизации на Windows, такие i-кванты работают нормально только на Linux, пока не будет фикса.

+3

Посмотреть

Microsoft создаёт новую LLM под названием MAI-1, которая может конкурировать с ChatGPT

Shannon 7 мая в 02:32

Microsoft работает над новой большой языковой моделью (LLM), которая сможет составить конкуренцию ChatGPT. LLM под названием MAI-1 разрабатывается с 500 млрд параметров.
Ранее компания уже выпустила несколько небольших моделей. например, на прошлой неделе состоялся релиз LLM с открытым исходным кодом Phi-3 с 3,8 млрд параметров.

Стоит добавить, что Microsoft, помимо маленькой Phi-3, уже выпустила модель размером 176B с архитектурой MoE, которая уже может составлять конкуренцию ChatGPT.

Правда она её достаточно быстро удалила - https://habr.com/ru/news/810555/
Но найти WizardLM-2-8x22B сохраненную пользователями можно на https://huggingface.co/

+3

Посмотреть

Открытый AI в коммерческом продакшене: обзор h2oGPT

Shannon 21 апр в 19:29

В обоих случаях у вас один текст, и не ясно это результат от LLaVA или GPT-4V, но, судя по качеству, предположу, что от LLaVA 13b в обоих случаях, видимо сбой редактора.

Из локального лучшее, что сейчас есть - это LLaVA-NeXT-34B, она же LLaVA-1.6-34B. В тесте MMMU у GPT-4V результат 56.8, у LLaVA-NeXT-34B результат 51.1, лучше только проприетарная Gemini Ultra с результатом 59.4. LLaVA 13B же имеет результат всего 36.4, поэтому её нет смысла сравнивать.

Но это не важно, будь открытая модель дотягивающая до GPT-4 Vision на русском языке, то об этом бы уже везде написали. Если для LLM, чтобы нормально говорить на русском, достаточно в обучающем датасете 1.5% текстов с википедии на русском языке, то с картинками так не сработает. Так что тут GPT-4V вне конкуренции.

+1

Посмотреть

Открытый AI в коммерческом продакшене: обзор h2oGPT

Shannon 20 апр в 08:12

я попробовал "опиши картинку", сетки Llama 2 до 70B параметров дали совершенно неприемлемые ответы
ChatGPT 4 ответила просто блестяще

для описания изображений не используют LLM для генерации текста, а используют мультимодальные модели, такие как LLaVA (хорошо работает только на английском). GPT-4 для пользователя это делает прозрачно отправляя картинку в другую модель (GPT-4 Vision).

https://huggingface.co/spaces/liuhaotian/LLaVA-1.6

Текст 'Слушай сюда, маленький говнюк' - это фраза, которая обычно используется в конфронтационной или саркастической манере, что придает изображению юмористический и абсурдный характер.

На днях вышла llama 3, которая по тестам ощутимо превосходит llama 2: https://habr.com/ru/companies/bothub/news/808839/

0

Посмотреть

Acemagic признала наличие вредоносов в моделях ПК AceMagic на уровне мастер-копий Windows

Shannon 3 мар в 11:46

"Не прокатило, вычеркиваем"

+7

Посмотреть

Последняя версия Roblox блокирует работу с Wine, выдавая сообщение об ошибке «Wine не поддерживается»

Shannon 3 мар в 08:21

но список "Denied" огорчает, конечно. Там только в нем эдак 60-70% онлайна крутится

Если не брать в расчет мобильный/консольный гейминг, то 60% онлайна, возможно, крутится не там, а вот тут:

CS2, Dota 2, Apex, NARAKA работают под линуксом нормально.

0

Посмотреть

Вышел WinRAR 7.0 и RAR 7.0

Shannon 29 фев в 20:28

7Zip, RAR - зачем все это? Вот реально?

В вашем сценарии он бессмысленный, но в глобальном использовании ответ один - юникод в именах файлов заархивированные в одной локали винды, а разархивированные в другой, когда на выходе будут крякозябры вместо букв. И это никак не решается с дефолтным zip by design.
Просто погуглите "zip unicode", чтобы увидеть сколько с этим проблем.

+1

Посмотреть

И снова лазерные диски: китайцы представили болванку с емкостью в 200 ТБ. Что это за технология?

Shannon 23 фев в 10:35

Консолям сотен гигабайт хватает. Даже следующему поколению хватит чего-то до терабайта.

вы про какие-то устаревшие говорите, вроде ps3? Потому что текущему поколению (PS5) не хватает.
ААА игры легко весят под 100гб. Сотни гигабайт это на пару игр установить. Сами консоли продаются с ~1Тб ssd.
Вы буквально сейчас находитесь в моменте таймлайна, которое описываете как "следующее поколение", а то и два, так как игры на PS4 занимают сейчас до 50гб и там уже тоже 500 Гб не хватает.

+1

Посмотреть

2

3 4 ...