Сейчас бьюсь над задачей, чтобы нормально извлекать имена книг из их содержимого и унифицировать имена файлов.
По возможности рекомендую взять первую часть текста книги и/или имя файла и отправить с API запросом в какую-нибудь LLM, например Google Flash 1.5 с запросом типа: "Перед тобой содержимое части книги и имя файла. Ответь JSON в формате: {"title": "название книги", "book_type": "медицина|it"}" Должно получиться довольно эффективно.
Как человек, неоднократно участвовавший в олимпиадной движухе и как ученик, и как преподаватель, могу сказать - имхо, в среднем кол-во апелляций не меняется совсем. Потому что апелляциями занимается небольшой процент участвующих, которому не совсем все равно и которые готовы потратить на это время (отдельный вопрос - зачем? поэтому мотивация для апелляции должна быть велика).
Более того, организаторы (сюрприз!) не любят править баллы, поэтому апелляции чаще всего заканчиваются ничем и все это знают. У меня есть пара феерических историй 2000-х годов:
В 10-м классе - физическая задача в духе "бесконечная цепь падает с бесконечного стола, найти установившуюся скорость падения". Задачу не решил никто, апелляция ничего не дала "тут все понятно"
Там же (9, 10 или 11 класс), информатика - "запрограммировать ход пешки". Особо умные люди учли, что короля есть нельзя и добавили это в программу. Сюрприз: тесты построены так, что после 2-го пешка постоянно ест короля. Апелляция ничего не выявила: "Нигде в задаче не сказано, что короля есть нельзя" (т.е. пользование здравым смыслом наказывается).
Открою секрет (нет) - большинство топовых моделей можно заставить рассуждать перед выводом ответа.
Нужно только использовать системный промт
You are a world-class AI system, capable of complex reasoning and reflection.
Reason through the query inside <thinking> tags,
and then provide your final response inside <output> tags.
If you detect that you made a mistake in your reasoning at any point,
correct yourself inside <reflection> tags.
Т.к. держу тот самый облачный сервис с ЛЛМ-ками (интеграция с SillyTavern есть), то скажу про апдейты к статье, которые я бы внес сейчас:
Если вы не трогаете потенциально проблемных этических тем - Sonnet 3.5 рулит, прям топ-топ-топ.
Если вы периодически наталкиваетесь на нежелание модели отвечать, то ваш путь по-прежнему в опенсорс сети:
Я уже отказался от идеи переводить "налету", имхо опенсорсные сети действительно стали выдавать очень неплохие ответы на русском языке, можно работать без переводчика.
Для локального запуска или запуска с малыми ресурсами рекомендую Google Gemma-9B или какой-нибудь тюн Mistral 12B Nemo - например, у Ильи Гусева вышла довольно прикольная Saiga-Nemo 12B.
Из больших моделей (которые лучше через API дергать, а то на своей машине не взлетит или очень медленно будет:
EVA Qwen 72B
Hermes 3 405B Instruct - это вообще тюн 405B модели.
Ну вообще-то она есть. Имхо если хотите относительно приличных результатов на LLama-моделях, то температуру надо ставить в 0.5-0.7, на 1 высока вероятность бреда.
Плюс, конечно, я сейчас сети меньше 7-8B вообще не рассматриваю, а лучше - 70B )))
На 8B есть Сайга и Вихрь недавние, на базе Llama 3.1. Рекомендую попробовать - даже с квантизацией должны работать неплохо.
Глянул - спасибо, сеть выглядит очень неплохо, генерации радуют.
Если кому нужна упомянутая 32B сеть по API для Continue или чего-то еще - можете взять на моем сервисе (ссылка в профиле). Скорость по API около 25 токенов/секунду, вероятно, будет повыше чем на локальной машине - все-таки не у всех есть GPU с большим объемом памяти.
streaming-распознавание входящей речи (VOSK STT, еще до появления Whisper, и он хорош)
куча TTS-ных плагинов - если нужно, XTTS тоже народ делал. Но можно и что-то более простое, что без проблем пойдет на Raspberry Pi (XTTS там ввиду тяжеловесности не взлетит)
Если нужно конкретно диалог с GPT-сетями, то есть плагин, который подключается к любому OpenAI-like endpoint.
Ох. Я поддерживаю сервис, который как раз предоставляет прокси OpenAI API для нейросетей в России и релеит запросы оригинальным сервисам (в профиле есть).
Что могу сказать - по факту, вы закрыли ровно 1 кейс - т.е. отправка чисто сообщений. Не учитывается - передача температуры, параметра tools (т.е. схемы инструментов для формальных запросов) и ряда других. Не поддерживается стриминг - это такая хитрая штука, когда при ответе отсылается последовательно ряд HTTP-events, которая рендерится на клиенте (нужно, чтобы не ждать ответа от сети полностью, т.к. может быть долго, можно выводить по кусочкам). Еще понятное дело, у вас только под текстовый запрос - т.е. не поддерживаются DALL-E, embeddings, TTS, STT... :)
Я веду сервис с доступом к разным LLM-моделям, у меня основной фаворит - Claude Sonnet 3.5. Основные задачи - перевод, программирование.
Имхо, у серии Claude в целом лучше с языковыми задачами; у OpenAI - с логическими. У меня логических мало, я все равно не особо доверяю их решение моделям; то же самое по поводу фактов.
Ну, просто нормой для оценки LLM моделей как-то является указывать "с какой именно моделью вы работаете".
ChatGPT - нет такой модели. Это некий стек технологий от OpenAI, там может быть что-то навернуто (промты, тулы, доступ в интернет или нет и пр.). А так есть модели gpt-4o, gpt-4o-mini и пр.
На суть содержания статьи это не влияет, но вообще-то это правильно. Кстати, в графиках статьи от Apple, которую вы приводите, вполне точно и конкретно описано, на каких моделях производилось измерение.
Посмотрел код на Github. Сорри, как-то всего очень много.
Можно где-то простой пример скрипта, который позволяет произвести замеры бенчмарка по конкретному OpenAI-совместимому API Chat Completions с указанием base url, модели и ключа?
UPD: Желательно скрипт в Python-варианте, чтобы можно было спокойно запустить под Win.
Статья по делу, но я бы попробовал посмотреть немного с другой стороны - чтобы взрослый мир был привлекателен (например, свободами). И чтобы взросление было в рамках естественного обучения "подмастерье-мастер" - и в разновозрастных группах, но объединенных идеей профессионализма.
Не у всего Хабра, а у трех-четырех пользователей. Подумайте лучше о своих проблемах с "ассоциациями". Про проекции можете почитать, про проективный тест Роршаха.
А то классический анекдот прям "- Доктор, а откуда у вас столько неприличных картинок?"
Хотя, судя по тому, что мне в основном отвечают с помощью "туалетных" метафор (вот это вот "дерьмо", "фекалии" и пр.) мои старания вряд ли увенчаются успехом...
UPD: Ладно, ок ) что-то меня тоже стриггерило ваше замечание.
UPD2: У меня тоже похожая закономерность - поэтому на дизайн стараюсь обращать поменьше внимания... и слишком хороший дизайн правда аж подозрителен - "а что там с функциональностью?" )))
Новичок в торговле не вымрет! (почти (с))
По возможности рекомендую взять первую часть текста книги и/или имя файла и отправить с API запросом в какую-нибудь LLM, например Google Flash 1.5 с запросом типа: "Перед тобой содержимое части книги и имя файла. Ответь JSON в формате: {"title": "название книги", "book_type": "медицина|it"}"
Должно получиться довольно эффективно.
Про подборку ЛЛМ-ок под задачи и API писал на Хабре здесь
Как человек, неоднократно участвовавший в олимпиадной движухе и как ученик, и как преподаватель, могу сказать - имхо, в среднем кол-во апелляций не меняется совсем. Потому что апелляциями занимается небольшой процент участвующих, которому не совсем все равно и которые готовы потратить на это время (отдельный вопрос - зачем? поэтому мотивация для апелляции должна быть велика).
Более того, организаторы (сюрприз!) не любят править баллы, поэтому апелляции чаще всего заканчиваются ничем и все это знают. У меня есть пара феерических историй 2000-х годов:
В 10-м классе - физическая задача в духе "бесконечная цепь падает с бесконечного стола, найти установившуюся скорость падения". Задачу не решил никто, апелляция ничего не дала "тут все понятно"
Там же (9, 10 или 11 класс), информатика - "запрограммировать ход пешки". Особо умные люди учли, что короля есть нельзя и добавили это в программу. Сюрприз: тесты построены так, что после 2-го пешка постоянно ест короля. Апелляция ничего не выявила: "Нигде в задаче не сказано, что короля есть нельзя" (т.е. пользование здравым смыслом наказывается).
.
Открою секрет (нет) - большинство топовых моделей можно заставить рассуждать перед выводом ответа.
Нужно только использовать системный промт
Рискну оставить ссылку на свою старую хабрастатью: GPT-4, Claude 3, Gemini Pro или опенсорс — как выбрать LLM под свою задачу? - там прям есть раздел про выбор моделей под ролеплей, можно посмотреть.
Т.к. держу тот самый облачный сервис с ЛЛМ-ками (интеграция с SillyTavern есть), то скажу про апдейты к статье, которые я бы внес сейчас:
Если вы не трогаете потенциально проблемных этических тем - Sonnet 3.5 рулит, прям топ-топ-топ.
Если вы периодически наталкиваетесь на нежелание модели отвечать, то ваш путь по-прежнему в опенсорс сети:
Я уже отказался от идеи переводить "налету", имхо опенсорсные сети действительно стали выдавать очень неплохие ответы на русском языке, можно работать без переводчика.
Для локального запуска или запуска с малыми ресурсами рекомендую Google Gemma-9B или какой-нибудь тюн Mistral 12B Nemo - например, у Ильи Гусева вышла довольно прикольная Saiga-Nemo 12B.
Из больших моделей (которые лучше через API дергать, а то на своей машине не взлетит или очень медленно будет:
EVA Qwen 72B
Hermes 3 405B Instruct - это вообще тюн 405B модели.
(из чуть более старого) WizardLM-2 8x22B
Нет, как раз наоборот - все без VPN.
Ну вообще-то она есть. Имхо если хотите относительно приличных результатов на LLama-моделях, то температуру надо ставить в 0.5-0.7, на 1 высока вероятность бреда.
Плюс, конечно, я сейчас сети меньше 7-8B вообще не рассматриваю, а лучше - 70B )))
На 8B есть Сайга и Вихрь недавние, на базе Llama 3.1. Рекомендую попробовать - даже с квантизацией должны работать неплохо.
Глянул - спасибо, сеть выглядит очень неплохо, генерации радуют.
Если кому нужна упомянутая 32B сеть по API для Continue или чего-то еще - можете взять на моем сервисе (ссылка в профиле). Скорость по API около 25 токенов/секунду, вероятно, будет повыше чем на локальной машине - все-таки не у всех есть GPU с большим объемом памяти.
Поскольку уже 2.5 года пилю своего опенсорс голосового помощника Ирину, оставлю ссылку на свою хабрастатью: Ирина, голосовой помощник — теперь и со вкусом GPT-3
Собственно, там уже есть:
плагины для выполнения разных команд
streaming-распознавание входящей речи (VOSK STT, еще до появления Whisper, и он хорош)
куча TTS-ных плагинов - если нужно, XTTS тоже народ делал. Но можно и что-то более простое, что без проблем пойдет на Raspberry Pi (XTTS там ввиду тяжеловесности не взлетит)
Если нужно конкретно диалог с GPT-сетями, то есть плагин, который подключается к любому OpenAI-like endpoint.
Ох. Я поддерживаю сервис, который как раз предоставляет прокси OpenAI API для нейросетей в России и релеит запросы оригинальным сервисам (в профиле есть).
Что могу сказать - по факту, вы закрыли ровно 1 кейс - т.е. отправка чисто сообщений. Не учитывается - передача температуры, параметра tools (т.е. схемы инструментов для формальных запросов) и ряда других. Не поддерживается стриминг - это такая хитрая штука, когда при ответе отсылается последовательно ряд HTTP-events, которая рендерится на клиенте (нужно, чтобы не ждать ответа от сети полностью, т.к. может быть долго, можно выводить по кусочкам). Еще понятное дело, у вас только под текстовый запрос - т.е. не поддерживаются DALL-E, embeddings, TTS, STT... :)
Я веду сервис с доступом к разным LLM-моделям, у меня основной фаворит - Claude Sonnet 3.5. Основные задачи - перевод, программирование.
Имхо, у серии Claude в целом лучше с языковыми задачами; у OpenAI - с логическими. У меня логических мало, я все равно не особо доверяю их решение моделям; то же самое по поводу фактов.
Ну, просто нормой для оценки LLM моделей как-то является указывать "с какой именно моделью вы работаете".
ChatGPT - нет такой модели. Это некий стек технологий от OpenAI, там может быть что-то навернуто (промты, тулы, доступ в интернет или нет и пр.). А так есть модели gpt-4o, gpt-4o-mini и пр.
На суть содержания статьи это не влияет, но вообще-то это правильно. Кстати, в графиках статьи от Apple, которую вы приводите, вполне точно и конкретно описано, на каких моделях производилось измерение.
Посмотрел код на Github. Сорри, как-то всего очень много.
Можно где-то простой пример скрипта, который позволяет произвести замеры бенчмарка по конкретному OpenAI-совместимому API Chat Completions с указанием base url, модели и ключа?
UPD: Желательно скрипт в Python-варианте, чтобы можно было спокойно запустить под Win.
Согласен с engine9 - впрочем, это часто )
Статья по делу, но я бы попробовал посмотреть немного с другой стороны - чтобы взрослый мир был привлекателен (например, свободами). И чтобы взросление было в рамках естественного обучения "подмастерье-мастер" - и в разновозрастных группах, но объединенных идеей профессионализма.
Идея в целом хорошо раскрыта в статье Пола Грэма "За что не любят ботанов" - если вам интересна тема, я бы рекомендовал ознакомиться.
Не у всего Хабра, а у трех-четырех пользователей. Подумайте лучше о своих проблемах с "ассоциациями". Про проекции можете почитать, про проективный тест Роршаха.
А то классический анекдот прям "- Доктор, а откуда у вас столько неприличных картинок?"
Ну, если вы думаете и пишете про фекалии, что ж я могу поделать-то - при том, что я их не упоминал...
Вот за что за что, а за ассоциации других людей я точно не могу нести ответственности. Это от склада ума зависит, а он вне моей власти.
Не хочу Хабр, похожий на забор.
Хотя, судя по тому, что мне в основном отвечают с помощью "туалетных" метафор (вот это вот "дерьмо", "фекалии" и пр.) мои старания вряд ли увенчаются успехом...
Я считаю, что вся эта дискуссия не нужна в публичном пространстве - но мне приходится её вести.
Я могу считать, что люди не должны совершать преступления, но содержать полицию. Идея понятна?
UPD: Ладно, ок ) что-то меня тоже стриггерило ваше замечание.
UPD2: У меня тоже похожая закономерность - поэтому на дизайн стараюсь обращать поменьше внимания... и слишком хороший дизайн правда аж подозрителен - "а что там с функциональностью?" )))