Pull to refresh
71
0
Андрей Шагалов (Artezio) @AndyKy

IT

Send message

AI copilot программист приличного уровня теперь оффлайн — Qwen 2.5.1 Coder 7B

Reading time1 min
Views5.4K

Хорошая новость для тех, кто любит кодить на вершине горы Эверест, в Марианской впадине или из пасти дикого льва в африканской саванне (там, где качество доступа в интернет оставляет желать лучшего).  Qwen 2.5.1 Coder 7B!

На днях в сеть (похоже случайно) утекла новая версия модели для программирования от Alibaba, а сегодня ее уже выложили официально. Эта модель весом в 7 миллиардов параметров демонстрирует очень достойные результаты на бенчмарке редактирования кода Aider:  всего на несколько процентов отстает от  GPT-4-1106-preview (модель от 6 ноября 2023), но работает полностью оффлайн! Находка для тех, кто хочет иметь под рукой мощную языковую модель без необходимости постоянного подключения к сети. Официальная версия тут там же и полные новые модели ( Утекшая версия тут, но т.к. есть официальная, то уже и не особенно интересно).

Новости, лекции и обзоры об ИИ для разработчиков в нашем ТГ канале AI4Dev.

Читать далее

Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в OpenAI o1

Reading time1 min
Views50K

Сегодня вышла новая модель от OpenAI o1-preview. Попробовал хитрые (для LLM и не очень для людей) задачки из Linguistic Benchmark Questions вроде той что на картинке или «У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?». Новая OpenAI o1-preview решает. Буквально месяц назад на Habr выходила статья-перевод про такие задачи - Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей. Вывод был, что это большая проблема, ступор, кризис в отрасли, в комментариях писали, что LLM никогда не превзойдет... и кажется уже можно эту статью удалять. Т.е. есть некоторый шанс что новую модель просто обучили на этом самом Linguistic Benchmark Questions, а с уникальными новыми вопросами она справится хуже, но похоже она и действительно неплохо рассуждает (83% задач на отборочных экзаменах Международной математической олимпиады и 89 процентиль в Codeforces по заявлениям OpenAI ). Подождем более глубоких и широких сторонних исследований.

А мы с коллегами займемся нашими собственными сложными задачами на программирование и отчитаемся как OpenAI o1-preview с ними справляется в нашем ТГ канале AI4Dev, где мы пишем об использовании LLM в разработке софта.

Читать далее

Много примеров в контексте повышают качество ответов от LLM (Code Review и не только)

Reading time1 min
Views1.4K

В пятницу вышла статья от исследователей из Google Deep Mind в которой они утверждают (на основе проведенных испытаний), что если положить в контекст LLM большое количество примеров  подобных решаемой задаче, то результат будет лучше. Подход назвали Many-Shot In-Context Learning. В целом кажется логичным и не удивительно, что исследование провели разработчики LLM в которой есть контекстное окно в миллион токенов, в которое, собственно, можно положить это большое (сотни и даже тысячи) количество примеров.

Вот, например, как делали с проверкой адекватности кода: Взяли датасет  скриптов решающих задания из датасета GSM8K (набор математических задач), у Гугла такой был c решениями от Gemini 1.0.  Датасет представляет из себя набор программ (предположу, что на Python) с разметкой на корректные и некорректные решения. Так вот, если подложить в промпт 128 таких примеров, то точность в проверке кода от LLM (когда вы даете ей код и просите проверить корректность) повышается на 5%  относительно случая когда в таком запросе было только  4 примера.

Как использовать в быту? Например, собрать хороший тематический датасет с корректным кодом и багами  по проекту и добавить в контекст автоматического ревьюера кода.

Что интересно, также в исследовании отмечено, что датасет с примерами может быть синтетическим, или состоять только из похожих вопросов без ответов и это так же повышает эффективность решений от LLM. Ссылка на arixv.

Подписывайтесь на наш ТГ канал AI 4 Dev - где мы обсуждаем применение LLM в разработке программного обеспечения.

Читать далее

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity