Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно
Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/
Да, большая модель корректно отвечает. Собственно в этом и смысл моего поста был, что вышла модель, которая справляется с такими задачами значительно лучше, чем предыдущие. Она неплохо рассуждает. Может еще не как кандидат наук, но уже неплохо и часто гораздо быстрее. Есть задачи с которыми она не справляется, но вот с этим похоже вопрос закрыт. Приложил скрины:
На первый взгляд она реально неплохо рассуждает и 83% задач на отборочных экзаменах IMO (Международная математическая олимпиада) и 89% в соревнованиях Codeforces - звучит неплохо. Думаю в ближайший месяц мы узнаем насколько она справляется с задачами в целом, а не с конкретными бенчмарками
Все эволюционирует со страшной скоростью, те кто хотят быть на передовой видимо могут себе позволить и пару лишних инструментов освоить да и бонусов выдать по такому случаю
К сожалению, автор не написал в граммах насколько это им помогло, а просто усталые и довольные вернулись мы домой - согласен, что в таком виде эффект от внедрения выглядит сомнительным. Где-то в отчете Гугла о внедрении чего-то похожего, они отрапортовали о повышении производительности на 2% засчет автохотификсов. Если они все честно посчиталали это в масштабах нескольких сотен человек уже может быть существенно. Плюс я думаю главная история тут - они попробовали, оно в целом работает. Значит завтра можно будет настроить и более сложные вещи. В Sonarqube 100% будет встроена LLM и тогда строить кастомный пайплайн наверное не потребуется (вот кстати https://community.sonarsource.com/t/any-roadmap-to-combine-sonarqube-with-llm/111715/3).
Вообще говоря в любом, и csv, и excel хоть картинкой. Смотря какие задачи вы решаете и в какой модели. Если прямо в промпт запихнуть таблицу в тысячи или даже несколько сотен строчек - могут начать ошибаться, если десятки строчек - на моей практике все хорошо считает, сортирует, ищет и т.д.. Большие таблицы я бы аттачментом кидал. Часто для подсчетов LLM пишет python код, в OpenAI это раньше называлось Advanced Data Analysis. Сейчас кажется модель сама как-то определяет тип задачи и входит в такой режим. Если отказывается считать - как вариант дать пример файла с данными - 10-20 строчек, попросить модель написать код для вашей задачи, а запустить самостоятельно уже локально у себя, так будет больше уверенности в результате, если вы понимаете python. В Gemini кажется можно и без подписки файлы подгружать.
Попробовал сегодня Сodestral:22B с пормптом из поста, результат хуже чем у GPT4o и "Im-also-a-good-gpt2-chatbot". Код написала правдоподобный, но половину требований не выполнила, сортировку не сделала, данные не в те колонки внесла. Ну, т.е. на самом деле вполне неплохо для свободной модели, но есть лучше)
Это да, но кажется к живым разумным существам еще сложнее промпты, чем к GPT) Кстати, натыкался где-то на исследование, что у LLM можно выделить некоторый набором культурных ценностей, и этот набор не совпадает с традиционно человеческим
Согласен, у меня похожие ощущения что с последним поколением моделей "ты великий программист" это все уже не особо принципиально, а примеры и точные указания работают (собственно как и с людьми). Некоторые вещи становятся заметны при борьбе с галлюцинациями, т.е. если вам надо чтобы 100 раз из 100 запрос отработал корректно. Я тестирую и по мере получения ошибок добавляю всякие сначала логичные (типа не ошибайся так, вот еще один корректный пример с таким видом данных ), а потом уже и "шаманские" практики. Из шаманских - повторить запрос очень эффективна.
А Сommand-r-plus - вы используете как самую лучшую из бесплатных? На Lmsys - Llama-3-70b-Instruct по идее на пару позиций выше в лидерборде.
Там как-то немного странно написано в приложении в конце, что в среднем по больнице у GPT4 выигрывает перевод, но в некоторых языках директ-промптинг. Вот нагуглил большое исследование от апреля 24 https://arxiv.org/pdf/2311.07463 - насколько я понял в целом выводы такие, что нам нужны данные для тестирования, но английский все же похоже выигрывает
Поговорил с коллегами, похоже что это исследование имеет отношение только к PALM 2 - эти модели специально были обучены на мультиязычность т.е. они тренировалась на сбалансированном мультиязычном наборе данных и от этого и давали такие результаты. Все логично. Похоже даже к другим гугловским моделям типа Gemini это уже не применимо т.к. они тренировались гораздо больше на англоязычных данных, чем на других языках и перекос там значительно больше. Так что вероятно для многих моделей даже полностью автоматический перевод в среднем все еще может быть эффективнее, но лучше конечно корректно промпт перевести
Смотрите, в вашей статье речь идет про PALM2 это предшественник Gemini и сравнивается два подхода:
· Перевод через API Google Translate без последующей корректировки подается в LLM
· прямой ввод в LLM на языке оригинала
Потом еще обратный перевод где-то тестируется.
Google translate – хорош, но, конечно, не идеален, он может просто некорректно перевести некоторые вещи. Я кусочек вашей статьи им сейчас перевел, он слово «accounting» в контексте подсчета результатов перевел как «бухгалтерия». Так, конечно, можно запороть любой запрос.
Я согласен, что некорректно выразился. Правильнее сказать пользуйтесь Google Translate, но пишите на английском, в смысле переведите Google Translate и доведите до ума. Если пользователь может только Ctrl-C - Ctrl-V (не можете понять, что написано на английском), т.е. довести до корректного текста на английском нет возможности, то похоже стоит писать на родном языке. Но давайте обозначим, что это исследование не утверждает, что грамотный запрос на английском работает хуже или хотя бы так же как такой же запрос на родном языке. Тут мы упираемся в вопрос - как измерить такие вещи, это действительно нетривиально. Я погуглю, если найду подходящие исследования - напишу попозже
Попозже посмотр статью и поищу примеры с запросами и вам отвечу, то что я видел - логические задачи, (типа в комнате было три стола, пять человек и шесть яблок, три яблока забрали, сколько осталось человек ) Вот такие штуки на английском пока решает лучше. Токенизатор вы правы эффективнее, но в 1.7 раз относительно предыдущего меньше символов уходит на русский язык, но эозначает ли это что он ффективнее английского?
Иногда это означает, что человек действительно ценнее в другом месте, там знают как его применить чтобы он принес пользы на большую сумму, и тогда получается что текущая компания не может использовать его на 100%
Без конетекста как-то смысл меняется, там по-моему не совсем об этом. Речь о том, что если у вас хорошо работает голова, то вы можете много зарабатывать и на Go, и на Java, и на JS. Конечно, компания, которой нужно делать бэк на Go отдадут предпочтение человеку с релевантным опытом, который прям завтра сядет и начнет приносить пользу. Но если на рынке нет таких специалистов, то действительно достаточно убедиться что вы нормально соображаете и потом ждать какое-то время, пока вы набьете руку в конкретном языке (что видимо раньше и было в Ozon) и только потом начнете создавать что-то полезное для бизнеса. Когда на рынке полно уже готовых специалистов, конечно компания скорее выберет готового, чем того, в которого надо еще инвестировать.
Другая сторона этого вопроса, например, разработчик пирносил пользу компании и проявляет себя как толковый специалист, но технологии устарели, не востребованы. Совершенно не обязательно его скидывать со скалы и искать свежего на замену. Вполне может оказаться взаимовыгодным решением переобучить.
Супер, спасибо! Не встречал этот бенчмарк раньше, очень любопытный https://mceval.github.io/ . Судя по гитхабу ему ему полгода уже, не очень понятно когда именно модели учили, теоретически мог попасть в обучающий датасет, но все равно интересно
Обычно с этим просто, чем больше кода в интернете, тем лучше работает. Лучше всех Python, потом JS и т.д.
Там уже обновленная версия и она должна быть так же хороша, gguf перезалиты несколько часов назад, и большие опенсорсные модели QWEN (которые сравнимы с GPT4o ) тоже. Пост в их блоге: https://qwenlm.github.io/blog/qwen2.5-coder-family/
llama.cpp / ollama, кажется koboldcpp считается проще
Так все уже там: https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct-GGUF
Да, большая модель корректно отвечает. Собственно в этом и смысл моего поста был, что вышла модель, которая справляется с такими задачами значительно лучше, чем предыдущие. Она неплохо рассуждает. Может еще не как кандидат наук, но уже неплохо и часто гораздо быстрее. Есть задачи с которыми она не справляется, но вот с этим похоже вопрос закрыт. Приложил скрины:
Скрытый текст
На первый взгляд она реально неплохо рассуждает и 83% задач на отборочных экзаменах IMO (Международная математическая олимпиада) и 89% в соревнованиях Codeforces - звучит неплохо. Думаю в ближайший месяц мы узнаем насколько она справляется с задачами в целом, а не с конкретными бенчмарками
Все эволюционирует со страшной скоростью, те кто хотят быть на передовой видимо могут себе позволить и пару лишних инструментов освоить да и бонусов выдать по такому случаю
К сожалению, автор не написал в граммах насколько это им помогло, а просто усталые и довольные вернулись мы домой - согласен, что в таком виде эффект от внедрения выглядит сомнительным. Где-то в отчете Гугла о внедрении чего-то похожего, они отрапортовали о повышении производительности на 2% засчет автохотификсов. Если они все честно посчиталали это в масштабах нескольких сотен человек уже может быть существенно. Плюс я думаю главная история тут - они попробовали, оно в целом работает. Значит завтра можно будет настроить и более сложные вещи. В Sonarqube 100% будет встроена LLM и тогда строить кастомный пайплайн наверное не потребуется (вот кстати https://community.sonarsource.com/t/any-roadmap-to-combine-sonarqube-with-llm/111715/3).
Вообще говоря в любом, и csv, и excel хоть картинкой. Смотря какие задачи вы решаете и в какой модели. Если прямо в промпт запихнуть таблицу в тысячи или даже несколько сотен строчек - могут начать ошибаться, если десятки строчек - на моей практике все хорошо считает, сортирует, ищет и т.д.. Большие таблицы я бы аттачментом кидал. Часто для подсчетов LLM пишет python код, в OpenAI это раньше называлось Advanced Data Analysis. Сейчас кажется модель сама как-то определяет тип задачи и входит в такой режим. Если отказывается считать - как вариант дать пример файла с данными - 10-20 строчек, попросить модель написать код для вашей задачи, а запустить самостоятельно уже локально у себя, так будет больше уверенности в результате, если вы понимаете python. В Gemini кажется можно и без подписки файлы подгружать.
Попробовал сегодня Сodestral:22B с пормптом из поста, результат хуже чем у GPT4o и "Im-also-a-good-gpt2-chatbot". Код написала правдоподобный, но половину требований не выполнила, сортировку не сделала, данные не в те колонки внесла. Ну, т.е. на самом деле вполне неплохо для свободной модели, но есть лучше)
Это да, но кажется к живым разумным существам еще сложнее промпты, чем к GPT) Кстати, натыкался где-то на исследование, что у LLM можно выделить некоторый набором культурных ценностей, и этот набор не совпадает с традиционно человеческим
Согласен, у меня похожие ощущения что с последним поколением моделей "ты великий программист" это все уже не особо принципиально, а примеры и точные указания работают (собственно как и с людьми). Некоторые вещи становятся заметны при борьбе с галлюцинациями, т.е. если вам надо чтобы 100 раз из 100 запрос отработал корректно. Я тестирую и по мере получения ошибок добавляю всякие сначала логичные (типа не ошибайся так, вот еще один корректный пример с таким видом данных ), а потом уже и "шаманские" практики. Из шаманских - повторить запрос очень эффективна.
А Сommand-r-plus - вы используете как самую лучшую из бесплатных? На Lmsys - Llama-3-70b-Instruct по идее на пару позиций выше в лидерборде.
Там как-то немного странно написано в приложении в конце, что в среднем по больнице у GPT4 выигрывает перевод, но в некоторых языках директ-промптинг. Вот нагуглил большое исследование от апреля 24 https://arxiv.org/pdf/2311.07463 - насколько я понял в целом выводы такие, что нам нужны данные для тестирования, но английский все же похоже выигрывает
Поговорил с коллегами, похоже что это исследование имеет отношение только к PALM 2 - эти модели специально были обучены на мультиязычность т.е. они тренировалась на сбалансированном мультиязычном наборе данных и от этого и давали такие результаты. Все логично. Похоже даже к другим гугловским моделям типа Gemini это уже не применимо т.к. они тренировались гораздо больше на англоязычных данных, чем на других языках и перекос там значительно больше. Так что вероятно для многих моделей даже полностью автоматический перевод в среднем все еще может быть эффективнее, но лучше конечно корректно промпт перевести
Смотрите, в вашей статье речь идет про PALM2 это предшественник Gemini и сравнивается два подхода:
· Перевод через API Google Translate без последующей корректировки подается в LLM
· прямой ввод в LLM на языке оригинала
Потом еще обратный перевод где-то тестируется.
Google translate – хорош, но, конечно, не идеален, он может просто некорректно перевести некоторые вещи. Я кусочек вашей статьи им сейчас перевел, он слово «accounting» в контексте подсчета результатов перевел как «бухгалтерия». Так, конечно, можно запороть любой запрос.
Я согласен, что некорректно выразился. Правильнее сказать пользуйтесь Google Translate, но пишите на английском, в смысле переведите Google Translate и доведите до ума. Если пользователь может только Ctrl-C - Ctrl-V (не можете понять, что написано на английском), т.е. довести до корректного текста на английском нет возможности, то похоже стоит писать на родном языке. Но давайте обозначим, что это исследование не утверждает, что грамотный запрос на английском работает хуже или хотя бы так же как такой же запрос на родном языке. Тут мы упираемся в вопрос - как измерить такие вещи, это действительно нетривиально. Я погуглю, если найду подходящие исследования - напишу попозже
Попозже посмотр статью и поищу примеры с запросами и вам отвечу, то что я видел - логические задачи, (типа в комнате было три стола, пять человек и шесть яблок, три яблока забрали, сколько осталось человек ) Вот такие штуки на английском пока решает лучше. Токенизатор вы правы эффективнее, но в 1.7 раз относительно предыдущего меньше символов уходит на русский язык, но эозначает ли это что он ффективнее английского?
Иногда это означает, что человек действительно ценнее в другом месте, там знают как его применить чтобы он принес пользы на большую сумму, и тогда получается что текущая компания не может использовать его на 100%
8 плюсовых проектов из 25 запусков - это в три раза больше общепринятой мировой статистики. Либо вам пора в Y combinator, либо нет)
Без конетекста как-то смысл меняется, там по-моему не совсем об этом. Речь о том, что если у вас хорошо работает голова, то вы можете много зарабатывать и на Go, и на Java, и на JS. Конечно, компания, которой нужно делать бэк на Go отдадут предпочтение человеку с релевантным опытом, который прям завтра сядет и начнет приносить пользу. Но если на рынке нет таких специалистов, то действительно достаточно убедиться что вы нормально соображаете и потом ждать какое-то время, пока вы набьете руку в конкретном языке (что видимо раньше и было в Ozon) и только потом начнете создавать что-то полезное для бизнеса. Когда на рынке полно уже готовых специалистов, конечно компания скорее выберет готового, чем того, в которого надо еще инвестировать.
Другая сторона этого вопроса, например, разработчик пирносил пользу компании и проявляет себя как толковый специалист, но технологии устарели, не востребованы. Совершенно не обязательно его скидывать со скалы и искать свежего на замену. Вполне может оказаться взаимовыгодным решением переобучить.