Как стать автором
Обновить
114
0.4

Пользователь

Отправить сообщение

Вышла Llama 3.3 70B с качеством на уровне Llama 3.1 405B. Модель LLM для генерации текста

Время на прочтение1 мин
Количество просмотров17K

Представлена Llama 3.3 размером 70B, которая, по заявлениям создателей, показывает себя на том же уровне ответов как и 405B, но в 5 раз легче.

Читать далее

Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода небольшого размера конкурирующая с GPT-4o

Время на прочтение2 мин
Количество просмотров31K

После выхода Qwen2.5, которая подняла LLM небольших размеров на новый уровень, так как при размере всего 72B и, особенно, 32B - она показывала очень хорошие качество размышления и следования инструкциям, все начали с нетерпением ждать выхода Coder 32B модели, так как ожидали от неё уровня близкого к GPT-4o.

И вот, наконец-то, Qwen представила эту коллекцию моделей для кода размерами: 0.5B, 1.5B, 3B, 7B, 14B и 32B. Размер контекста 128k, лицензия Apache 2.0 (кроме модели 3B).

Читать далее

Nvidia представила LLM Llama-3.1-Nemotron-70B. Качественный файнтюн Llama 3.1 для рассуждений

Время на прочтение1 мин
Количество просмотров4.4K

Файнтюн выполнен по методу RLHF (в частности REINFORCE) и показывает хороший результат для задач рассуждений и логики. Новая модель занимает высокое место в метрике Arena Hard, включающая в себя 500 сложных запросов от пользователей, в основном это задачи логики, загадок, рассуждений и математики. В этих задачах эта модель показывает себя лучше чем Llama-3.1 размером 405B или версии gpt-4o от 13 мая.

Читать далее

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

Время на прочтение1 мин
Количество просмотров21K

После выхода LLaMA 3 70B многие ждали обещанную модель размером 400B. Эта модель должна была составить полноценную конкуренцию с GPT-4, при этом оставаться с открытыми весами. Правда некоторые слухи утверждали, что в открытый доступ 400B модель не попадет и будет доступна только через подписку. И тут неожиданно была слита даже не ожидаемая LLaMA 3, а улучшенная версия LLaMA 3.1.

Главное изменение, помимо улучшения качества, в версии 3.1 размер контекста увеличен до 128K вместо 8K. По некоторым бенчмаркам LLaMA 3.1 размером 8B превосходит LLaMA 3 70B. А модель на 405B конкурирует с GPT-4o.

Читать далее

Представлена открытая LLM модель для кода DeepSeek-Coder-V2 на 16B и 236B. Теоретический конкурент для Codestral 22B

Время на прочтение1 мин
Количество просмотров13K

DeepSeek, вслед за своей моделью DeepSeek-V2, представила модель специализирующуюся на коде DeepSeek-Coder-V2. Модель представлена в двух видах: DeepSeek-Coder-V2 размером 236B и DeepSeek-Coder-V2-Lite размером 16B. Старшая модель в большинстве представленных бенчмарков обходит платных конкурентов.

Читать далее

Nvidia представила открытую LLM модель Nemotron-4 340B

Время на прочтение1 мин
Количество просмотров17K

На данный момент самая крупная, после Groq-1, открытая LLM модель размером 340B. По тестам сравнения человеком как выигрывает у GPT-4-1106 (вышла в ноябре 2023), так и проигрывает, но чаще составляет паритет.

Обучалась на 50+ естественных языках и 40+ языков программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в виде: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward.

Читать далее

Информация

В рейтинге
2 273-й
Зарегистрирован
Активность