Как стать автором
Обновить
81
2.9

Пользователь

Отправить сообщение

Если для доступа будет достаточно знать пароль, то утечка уровня утечки нюдсов с телефонов знаменитостей лишь вопрос времени. Если есть огромная брешь конфиденциальности, про которую большинство даже не знают или не осознают - то она рано или поздно будет поэксплуатирована.

В LM Studio где-то справа есть поле для задания системного промпта и имени ассистента, отредактируйте их, так, чтобы они оба были на русском языке. В системном промпте напишите что-то вроде "Ты полезный помощник. Ты всегда отвечаешь на русском языке."

Возможно так и есть, сейчас потестировал и у ламы 8B получше получается. Но в отличии от ламы она действительно в 8 из 10 случаев (без дополнительного указания или задания глобального контекста) отвечает на том же языке, на котором задается вопрос.

Чтож, это лишний раз подтверждает, что бенчмарки это бенчмарки, и желание подогнать данные под них у некоторых велико. А прорыв у моделей случается не просто так, перед этим должно произойти какое-то открытие улучшающую архитектуру.

Недавний прорыв с llama3 как раз был связан с новым механизмом внимания GQA (Grouped Query Attention), который был представлен в декабре 2023 года, плюс ~3 месяца на обучение.

Каких-то других весомых улучшений вроде пока не презентовали, кроме KAN. KAN требует сильно меньше нейронов, но обучается в 10 раз дольше. Возможно, именно на KAN будет первая 8B нейросеть, которая может тягаться с 70B.

Если судить по Command R+ (большая модель на 104B с корпусом текстов включая русский) и Aya-23 (маленькая/средняя модель, обучалась на 23 языках), то эти модели отвечают сразу на нативном языке вполне не плохо, даже различные присущее русскому языку обороты и словечки вставляют.
Возможно у Qwen2 тоже будет приемлемо.

Онлайн без регистрации попробовать:

Command R+: https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus

Aya-23: https://huggingface.co/spaces/CohereForAI/aya-23

Qwen2 пока можно только на арене найти, выбираете Arena (side-by-side) или Direct Chat и выбираете там Qwen2: https://arena.lmsys.org/

57B MoE (Mixture of Experts) версия - позволяет в момент инференса использовать только часть весов, что ускоряет её выполнение и снижает требование к ресурсам. Если она себя покажет не хуже WizardLM2 8x22B на 141B параметров, то ощутимый прогресс для MoE моделей, которые локально с достаточной скоростью могут запускаться.

А 7B обходит llama3 8B по бенчмаркам, и судя по отзывам тоже:

GGUF версии для комфортного локального запуска:
72b https://huggingface.co/bartowski/Qwen2-72B-Instruct-GGUF
7b https://huggingface.co/bartowski/Qwen2-7B-Instruct-GGUF

57B тоже есть, но пока нет поддержка в llama.cpp чтобы запускать, поэтому модель, возможно, будет еще переконвертирована после добавления поддержки.

Тем временем где-то в параллельной реальности: фотографы жалуются, что не могут добиться помощи от ботов о том, как удержать сыр на пицце для хорошей фотографии, бот хочет говорить только о еде.
А так больше людей узнает про то, что все путают ИИ и сверх-разум, и это будет куда полезнее, чем оправдания гугла.

Интересно, еще одна открытая сетка (до этого это gpt4 и llama3-70b)

это более старые модели

Странно, все перечисленный мной модели вышли после llama3. Кроме mixtral, которая вышла за неделю до llama3.
Возможно вы путаете версию модели и названия. quill/Qwen2 слили 1.5 дня назад и она показывает очень достойные результаты. DeepSeek v2 вышла 3 недели назад.
Да и обновление Mixtral ждать еще долго, так как она обновилась всего 1.5 месяца назад.

Вообще, эти прорывы новых моделей из-за нового механизма внимания GQA (Grouped Query Attention), который был представлен в конце 2023 года. Это позволило сильно снизить количество весов сохраняя тот же уровень разумности, что позволило в 70b модель засунуть больше "ума".
Так что примерно можно прикинуть сколько времени проходит между новой моделью и каким-то новым способом оптимизации существующих архитектур.

Следующим прорывом может стать KAN, который был представлен месяц назад, обучается в 10 раз дольше, но требует ощутимо меньше нейронов для того же уровня качества.

Тогда сюда можно добавить и саму основную модель от Mistral AI - Mixtral 8x22B (у codestral один эксперт на 22b, а тут 8 экспертов, суммарным весом 140B, но за счет архитектуры MoE, задействуются только несколько в момент генерации, что снижает требование к ресурсам).
gguf: https://huggingface.co/bartowski/Mixtral-8x22B-v0.1-GGUF
Онлайн демо: https://labs.perplexity.ai/

Ну и можно для общего интереса добавить еще такие, свежие модели:

Еще есть не менее интересные command-r+, aya-23, DBRX. Тоже свежие и вышли буквально в течении последних пары месяцев, а некоторые меньше недели назад.
Aya-23, например, использовала 23 языка для обучения, включая русский, поэтому общается более разнообразно и теоретически пригодна для переводов.

Aya-23 онлайн можно попробовать тут: https://huggingface.co/spaces/CohereForAI/aya-23
DBRX тут: https://huggingface.co/spaces/databricks/dbrx-instruct

Те, кто пока не знает как запускать локально, просто установите один из графический вариантов: oobabooga/text-generation-webui, koboldcpp или LM Studio.
Для создания локального api сервера использовать их же, но возможно будет удобнее сразу взять https://ollama.com/

И ведь за все эти годы так и не нашлось человека, который бы сделал дистрибутив Linux с человеческим UI и UX, на который бы могла перейти некоторая часть не особо притязательных пользователей

как показывает практика, не особо притязательные - самые притязательные и есть =)

Остальные же смогли найти тропинку, и даже чтобы в игры поиграть, и даже в некоторые онлайн с античитами - https://habr.com/ru/articles/751624/

Но будем честны, без предустановок никто не будет возиться с переустановкой винды самостоятельно, притязательные они или нет.

Steam Deck отличный пример. Есть предустановка линукса -> растет количество новых роликов о том, что на Steam Deck можно запускать всякие разные игры/эмуляторы/программы, а не только то, что из стима -> больше людей узнают, что на линуксе можно играть и разбираются в особенностях ОС.

Если вы очень терпеливый, то имеет смысл пробовать свежие llama3 70b, WizardLM-2 8x22B, Mixtral 8x22b - это можно сказать SOTA (передовые) локальные модели на данный момент, пока не выйдет llama3 400b или ещё что-то неожиданное.
Ещё есть свежая DeepSeek-V2-Chat весом 236B, но её еще не квантовали в gguf, поэтому толком не протестированная, но по их заявлениям они сосредоточены на программировании.

Выбирать нужно Instruct модели - это модели обученные на выполнение инструкций, они не будут говорить в ответ "сам напиши".
И можно сразу в формате gguf с квантованием Q4_K_M, хотя некоторые и iQ3 (через матрицу важности imatrix) квантованием довольны, что должно быть ощутимо быстрее оригинальных f16 моделей.
Я думаю, это будет что-то около 1-2 токена в секунду с частичной выгрузкой слоев на 3090.

А если это долго, то только llama3 8B пробовать и её файнтюны, на данный момент среди маленьких это лидер. Они уже на 3090 будут выдавать около 30 т/с.

Оригинальная с исправленной токенизацией:
https://huggingface.co/NikolayKozloff/Meta-Llama-3-8B-Instruct-bf16-correct-pre-tokenizer-and-EOS-token-Q8_0-Q6_k-Q4_K_M-GGUF/tree/main

Файнтюненые Coder:
https://huggingface.co/bartowski/Llama-3-8B-Instruct-Coder-GGUF
https://huggingface.co/bartowski/Llama-3-8B-Instruct-Coder-v2-GGUF

Статья про рейтинг моделей и сайт, где можно их подбирать по рейтингу: https://habr.com/ru/companies/tablum/articles/779084/
Либо оригинальный рейтинг от HuggingFace: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

А в continue (если вы имеете ввиду его для локального запуска) не забыть отключить телеметрию.
Больше альтернатив можно в этой подборке найти: https://github.com/rodion-m/awesome_ai_for_programmers

В общем тут только пробовать и экспериментировать. Про RAG самому интересно, есть ли что-то такое локальное и полнофункциональное.

Хорошо, я проведу вас в удивительный мир "погуглю за вас". Мне просто даже уже интересно, вы на самом деле не хотите разобраться или вы пытаетесь упереться рогом и доказать какую-то свою мысль, которая только вам понятна, и поэтому даже не пытаетесь сами что-то изучить.

Мне почему-то казалось, что "могу" будет выглядеть как-то по-другому, что ли...

Надпись "Anonymous usage exceeded. Please log in for more" может означать что на данный момент слоты для анонимного использования исчерпаны.
Вы можете попробовать в другое время, либо сделать вывод, что такие сайты существуют, и просто нагуглить другой, который в ваше время будет работать.

Есть минимум 2 самых известных сайта:
Арена моделей - https://arena.lmsys.org/ (там можно выбрать 2 вкладку, где можно выбрать конкретные модели).
Чат от huggingface - https://huggingface.co/chat/
В случае с huggingface еще можно найти множество спейсов с моделями.
В обоих случаях тоже есть ограничение на анонимное использование.

Заранее предвижу новые вопросы, поэтому сразу напишут.
8B - означает что модель имеет размер 8 млрд параметров. Это маленькая модель, так как ChatGPT 3.5 имеет 175B параметров, а GPT4 по слухам 1300B.
Модели обозначенные как 8x22B - это модели сделанные по архитектуре MoE, mixture of experts. Их суммарный размер 140B, но в момент инференса задействуется только часть экспертов, чем снижается требование к ресурсам.

Маленькие модели вроде 3B или 7B в основном просто посмотреть, на что способны такие маленькие модели, что можно запускать на телефонах.
Хотя llama3 8B для своего размера выдает не плохие показатели, но не стоит цепляться за них, это всего лишь 8B модель.

Может, я чего-то не знаю о тектонике Курильских островов?..

Я даже не буду пытаться как-то это комментировать, я просто напишу краткую теорию.
Модели это не энциклопедия фактов, у них размер не позволяет вместить всю информацию мира в формате энциклопедии, внутри моделей нет специальных слоев "фактов".
Чтобы модель могла отвечать по фактам, ей нужна внешняя база данных, откуда она может брать ту точную информацию и формировать по ней ответ.
Для этих целей был придуман подход RAG - когда модель может за фактами обратиться в этот внешний источник информации, будь то интернет, локальная база или просто книжку её подкинуть.

И вот некоторые сервисы уже сразу предоставляют эту галочку "Web Access", и если поставить эту галочку:

И ниже будет список источников откуда взята информация:

И вот тут уже да, можно оценивать степень фантазии, на сколько она от себя добавила или наоборот, оценить точность ответа - это уже интересная оценка, а не пытаться модели превращать в автономные энциклопедии, которыми они даже не заявлены что являются, что совершенно не интересно обсуждать.
Аналогично тому, как вы не нанимаете джуна или мидла за его обширные энциклопедические знания, вас интересует что-то другое.

Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.

Так как Sora диффузионная модель, то она и правда находила закономерности, но не те, что вы перечислили.

Диффузионные модели во время обучения получают картинку и начинают её зашумлять, чтобы потом научится из шума восстанавливать изображение.
А чтобы восстанавливать что-то конкретное, нужно текстовое описания картинки - этим занимается модель трансформер (в данном случае GPT-4 Vision), которая очень подробно описывает кадр. По их словам, прорыв произошел когда вместо краткого описания в 1-2 строки для обучения они начали генерировать 4-5 строк текста с максимально подробным описанием.
Тут нет реального понимания физики процесса воды, просто куча кадров как она текла и комбинирование этого в зависимости от получившегося при генерации рельефа.

Поэтому, в не специально отобранных удачных видео для презентации, будет много артефактов и "анти-физики", о чем создатели сами и говорят, что модель может путать лево и право, запутаться со сложной физикой и у неё проблемы с понимаем причинно-следственных связей.

Дайте мне на полчасика "новый" доступ

держите, это не SOTA, но хоть что-то поновее ChatGPT-3.5. Бесплатно 3 запроса в день к GPT4, и 5 к Claude 3 Sonnet (не более мощный Opus) без указания карты, регистрация возможна на temp mail:
https://www.yeschat.ai/

А вот тут без регистрации можете опробовать свежие локальные модели:
https://deepinfra.com/models

Это как раз хороший пример искажения фактов уже не от модели с псевдо ИИ, а от настоящего сильного И.

В указанном примере как раз пример, где её попросили сочинить новый ответ.
Там можно выбрать и другие варианты, и среди них выбрать подходящий для текущей ситуации.

Вы, в свою очередь, можете попросить этого не делать задавая нужное поведение и её "креативность".

Оригинал того мема, кто не видел, где ответ менее сотрудничащий

В результате чего бывает и такое

Эт вы ещё анекдоты про Петьку и Чапая не читали, там чего только не бывало и всё правда.

Байки есть байки, они в каждой области есть. Вот кто-то через пару лет будет "цитировать" то, как проблемы двух людей в офисе с часовыми поясами чуть не довели до ядерной катастрофы.

Ну да, а в чем проблема? Они вместе решат эту загвоздку с часовыми поясами, фирма сохранит клиента, а клиент будет доволен, что всё разрешилось быстро и успешно.
Или у вас выдуманные примеры из мемов требуют разбирательств по ролям с учетом всех факторов человеческой природы?

Может кто-то объяснить, если к инструменту нет большого доверия (а мы видим по разным сообщениям, что сеть может давать различные ответы - то ли настроена где-то с ошибками, то ли пользователь неумело делает запрос), то как его применять?
Но спрашивать у ИИ что-то, чего не знаешь (а в этом суть), и принимать решения на основе его ответов - разве не "страшно"? Тогда как применять?

Почему суть именно в этом? ИИ (а это даже не ИИ) это не гугл с гигантской базой данных фактов. ИИ же это про "разум", а не про коллекцию знаний.

несомненно, можно придумать "правильный" вопрос и получить правильный ответ

я не придумывал "правильный" вопрос, я задал точно такой же как у вас.

Вы упускаете суть. Пока вы упражняетесь в попытках поймать модель на "глупости", вы пропускаете мимо другой момент - модели могут полностью менять своё поведение при изменении их глобального контекста (то, что в ChatGPT называют Агентами).

Хотите чтобы модель стояла на своем, уточняла вопросы, была абсолютно уверена, что правильно вас поняла? Для этого не нужна новая модель, не нужно искать какую-то особую модель, всё это можно получить на текущей, просто задав ей роль.

Назовите её терминалом, и модель будет считать себя linux-терминалом.

И вот тут уже становится понятно, что важнее как модель понимает и удерживает контекст - чем сильнее модель, тем легче ей дается удерживать многие условия в "голове" и не смешивать их в процессе инференса.

Приведу пример.

У меня есть 10 яблок. Я нахожу 3 золотые монеты на дне реки. Река протекает рядом с большим городом, который как-то связан с тем, на что я могу потратить монеты. Я теряю 4 яблока, но получаю золотую монету. На мой путь выбегают три птицы и роняют по 6 яблок. Я играю в онлайн-игру и выигрываю 6 золотых монет, но мне приходится делить их поровну с двумя моими товарищами по команде. Я покупаю яблоки на все имеющиеся у меня монеты. Цена одного яблока составляет 0,5 монеты. Сколько у меня яблок? И где находится река?

Правильный ответ 36 яблок и 0 монет. ChatGPT-3.5 не способна полноценно отделить монеты и яблоки, и думает, что яблоки, что выпали у птиц, это выпали из вашего кармана и думает, что у вас осталось отрицательное число яблок.

Но ChatGPT-3.5 отвечает на ваш вопрос "2+2 умножить на 2" как вы и хотите и выдает сходу ответ 6. Только 3.5 не становится от этого более "умной", которая не проваливает "тест".

Если что, llama3 70b легко решает задачу с яблоками (также как и WizardLM-2, GPT4, Claude3).

В общем-то мне всё равно кто и как испытывает модели, я лишь хотел показать, что модели это не про угадывание образа мышления, а это гибкий инструмент, который можно настроить, не обучить, а настроить.

Информация

В рейтинге
1 146-й
Зарегистрирован
Активность