Pull to refresh
135
0.2
Январев Владислав @janvarev

VseGPT.ru 120+ нейросетей по OpenAI API

Send message

Сейчас бьюсь над задачей, чтобы нормально извлекать имена книг из их содержимого и унифицировать имена файлов.

По возможности рекомендую взять первую часть текста книги и/или имя файла и отправить с API запросом в какую-нибудь LLM, например Google Flash 1.5 с запросом типа: "Перед тобой содержимое части книги и имя файла. Ответь JSON в формате: {"title": "название книги", "book_type": "медицина|it"}"
Должно получиться довольно эффективно.

Про подборку ЛЛМ-ок под задачи и API писал на Хабре здесь

Как человек, неоднократно участвовавший в олимпиадной движухе и как ученик, и как преподаватель, могу сказать - имхо, в среднем кол-во апелляций не меняется совсем. Потому что апелляциями занимается небольшой процент участвующих, которому не совсем все равно и которые готовы потратить на это время (отдельный вопрос - зачем? поэтому мотивация для апелляции должна быть велика).

Более того, организаторы (сюрприз!) не любят править баллы, поэтому апелляции чаще всего заканчиваются ничем и все это знают. У меня есть пара феерических историй 2000-х годов:

  • В 10-м классе - физическая задача в духе "бесконечная цепь падает с бесконечного стола, найти установившуюся скорость падения". Задачу не решил никто, апелляция ничего не дала "тут все понятно"

  • Там же (9, 10 или 11 класс), информатика - "запрограммировать ход пешки". Особо умные люди учли, что короля есть нельзя и добавили это в программу. Сюрприз: тесты построены так, что после 2-го пешка постоянно ест короля. Апелляция ничего не выявила: "Нигде в задаче не сказано, что короля есть нельзя" (т.е. пользование здравым смыслом наказывается).

Открою секрет (нет) - большинство топовых моделей можно заставить рассуждать перед выводом ответа.

Нужно только использовать системный промт

You are a world-class AI system, capable of complex reasoning and reflection. 
Reason through the query inside <thinking> tags, 
and then provide your final response inside <output> tags. 
If you detect that you made a mistake in your reasoning at any point, 
correct yourself inside <reflection> tags.

Рискну оставить ссылку на свою старую хабрастатью: GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу? - там прям есть раздел про выбор моделей под ролеплей, можно посмотреть.

Т.к. держу тот самый облачный сервис с ЛЛМ-ками (интеграция с SillyTavern есть), то скажу про апдейты к статье, которые я бы внес сейчас:

Если вы не трогаете потенциально проблемных этических тем - Sonnet 3.5 рулит, прям топ-топ-топ.

Если вы периодически наталкиваетесь на нежелание модели отвечать, то ваш путь по-прежнему в опенсорс сети:

  1. Я уже отказался от идеи переводить "налету", имхо опенсорсные сети действительно стали выдавать очень неплохие ответы на русском языке, можно работать без переводчика.

  2. Для локального запуска или запуска с малыми ресурсами рекомендую Google Gemma-9B или какой-нибудь тюн Mistral 12B Nemo - например, у Ильи Гусева вышла довольно прикольная Saiga-Nemo 12B.

  3. Из больших моделей (которые лучше через API дергать, а то на своей машине не взлетит или очень медленно будет:

    1. EVA Qwen 72B

    2. Hermes 3 405B Instruct - это вообще тюн 405B модели.

    3. (из чуть более старого) WizardLM-2 8x22B

Разницей в температуре

Ну вообще-то она есть. Имхо если хотите относительно приличных результатов на LLama-моделях, то температуру надо ставить в 0.5-0.7, на 1 высока вероятность бреда.

Плюс, конечно, я сейчас сети меньше 7-8B вообще не рассматриваю, а лучше - 70B )))

На 8B есть Сайга и Вихрь недавние, на базе Llama 3.1. Рекомендую попробовать - даже с квантизацией должны работать неплохо.

Глянул - спасибо, сеть выглядит очень неплохо, генерации радуют.

Если кому нужна упомянутая 32B сеть по API для Continue или чего-то еще - можете взять на моем сервисе (ссылка в профиле). Скорость по API около 25 токенов/секунду, вероятно, будет повыше чем на локальной машине - все-таки не у всех есть GPU с большим объемом памяти.

Поскольку уже 2.5 года пилю своего опенсорс голосового помощника Ирину, оставлю ссылку на свою хабрастатью: Ирина, голосовой помощник — теперь и со вкусом GPT-3

Собственно, там уже есть:

  • плагины для выполнения разных команд

  • streaming-распознавание входящей речи (VOSK STT, еще до появления Whisper, и он хорош)

  • куча TTS-ных плагинов - если нужно, XTTS тоже народ делал. Но можно и что-то более простое, что без проблем пойдет на Raspberry Pi (XTTS там ввиду тяжеловесности не взлетит)

  • Если нужно конкретно диалог с GPT-сетями, то есть плагин, который подключается к любому OpenAI-like endpoint.

Ох. Я поддерживаю сервис, который как раз предоставляет прокси OpenAI API для нейросетей в России и релеит запросы оригинальным сервисам (в профиле есть).

Что могу сказать - по факту, вы закрыли ровно 1 кейс - т.е. отправка чисто сообщений. Не учитывается - передача температуры, параметра tools (т.е. схемы инструментов для формальных запросов) и ряда других. Не поддерживается стриминг - это такая хитрая штука, когда при ответе отсылается последовательно ряд HTTP-events, которая рендерится на клиенте (нужно, чтобы не ждать ответа от сети полностью, т.к. может быть долго, можно выводить по кусочкам). Еще понятное дело, у вас только под текстовый запрос - т.е. не поддерживаются DALL-E, embeddings, TTS, STT... :)

Я веду сервис с доступом к разным LLM-моделям, у меня основной фаворит - Claude Sonnet 3.5. Основные задачи - перевод, программирование.

Имхо, у серии Claude в целом лучше с языковыми задачами; у OpenAI - с логическими. У меня логических мало, я все равно не особо доверяю их решение моделям; то же самое по поводу фактов.

Ну, просто нормой для оценки LLM моделей как-то является указывать "с какой именно моделью вы работаете".

ChatGPT - нет такой модели. Это некий стек технологий от OpenAI, там может быть что-то навернуто (промты, тулы, доступ в интернет или нет и пр.). А так есть модели gpt-4o, gpt-4o-mini и пр.

На суть содержания статьи это не влияет, но вообще-то это правильно. Кстати, в графиках статьи от Apple, которую вы приводите, вполне точно и конкретно описано, на каких моделях производилось измерение.

Посмотрел код на Github. Сорри, как-то всего очень много.

Можно где-то простой пример скрипта, который позволяет произвести замеры бенчмарка по конкретному OpenAI-совместимому API Chat Completions с указанием base url, модели и ключа?

UPD: Желательно скрипт в Python-варианте, чтобы можно было спокойно запустить под Win.

Согласен с engine9 - впрочем, это часто )

Статья по делу, но я бы попробовал посмотреть немного с другой стороны - чтобы взрослый мир был привлекателен (например, свободами). И чтобы взросление было в рамках естественного обучения "подмастерье-мастер" - и в разновозрастных группах, но объединенных идеей профессионализма.

Идея в целом хорошо раскрыта в статье Пола Грэма "За что не любят ботанов" - если вам интересна тема, я бы рекомендовал ознакомиться.

что туалетные метафоры у людей

Не у всего Хабра, а у трех-четырех пользователей. Подумайте лучше о своих проблемах с "ассоциациями". Про проекции можете почитать, про проективный тест Роршаха.

А то классический анекдот прям "- Доктор, а откуда у вас столько неприличных картинок?"

Ну, если вы думаете и пишете про фекалии, что ж я могу поделать-то - при том, что я их не упоминал...

Вот за что за что, а за ассоциации других людей я точно не могу нести ответственности. Это от склада ума зависит, а он вне моей власти.

Не хочу Хабр, похожий на забор.

Хотя, судя по тому, что мне в основном отвечают с помощью "туалетных" метафор (вот это вот "дерьмо", "фекалии" и пр.) мои старания вряд ли увенчаются успехом...

Я считаю, что вся эта дискуссия не нужна в публичном пространстве - но мне приходится её вести.

Я могу считать, что люди не должны совершать преступления, но содержать полицию. Идея понятна?

UPD: Ладно, ок ) что-то меня тоже стриггерило ваше замечание.

UPD2: У меня тоже похожая закономерность - поэтому на дизайн стараюсь обращать поменьше внимания... и слишком хороший дизайн правда аж подозрителен - "а что там с функциональностью?" )))

1
23 ...

Information

Rating
2,389-th
Location
Королев, Москва и Московская обл., Россия
Registered
Activity