Новости / Профиль Shannon / Хабр

@Shannon

Пользователь

ПрофильСтатьи10ПостыНовости7Комментарии590

Shannon 29 апр в 02:58

Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1

2 мин

22K

Искусственный интеллект

Новое семейство Qwer3 представлено в виде Dense: 0.6B,1.7B, 4B, 8B, 14B, 32B, и в виде MoE: 30B-A3B, 235B-A22B. Каждая модель поддерживать гибридный режим работы: обычный и размышление. Поддерживает 119 языков и диалектов.

+30

Shannon 7 дек 2024 в 01:44

Вышла Llama 3.3 70B с качеством на уровне Llama 3.1 405B. Модель LLM для генерации текста

1 мин

18K

Искусственный интеллект

Представлена Llama 3.3 размером 70B, которая, по заявлениям создателей, показывает себя на том же уровне ответов как и 405B, но в 5 раз легче.

+21

Shannon 12 ноя 2024 в 08:54

Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода небольшого размера конкурирующая с GPT-4o

2 мин

32K

Искусственный интеллект

После выхода Qwen2.5, которая подняла LLM небольших размеров на новый уровень, так как при размере всего 72B и, особенно, 32B - она показывала очень хорошие качество размышления и следования инструкциям, все начали с нетерпением ждать выхода Coder 32B модели, так как ожидали от неё уровня близкого к GPT-4o.

И вот, наконец-то, Qwen представила эту коллекцию моделей для кода размерами: 0.5B, 1.5B, 3B, 7B, 14B и 32B. Размер контекста 128k, лицензия Apache 2.0 (кроме модели 3B).

+17

Shannon 22 окт 2024 в 06:10

Nvidia представила LLM Llama-3.1-Nemotron-70B. Качественный файнтюн Llama 3.1 для рассуждений

1 мин

4.5K

Искусственный интеллект

Файнтюн выполнен по методу RLHF (в частности REINFORCE) и показывает хороший результат для задач рассуждений и логики. Новая модель занимает высокое место в метрике Arena Hard, включающая в себя 500 сложных запросов от пользователей, в основном это задачи логики, загадок, рассуждений и математики. В этих задачах эта модель показывает себя лучше чем Llama-3.1 размером 405B или версии gpt-4o от 13 мая.

+10

Shannon 23 июл 2024 в 04:11

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

1 мин

21K

Искусственный интеллект

После выхода LLaMA 3 70B многие ждали обещанную модель размером 400B. Эта модель должна была составить полноценную конкуренцию с GPT-4, при этом оставаться с открытыми весами. Правда некоторые слухи утверждали, что в открытый доступ 400B модель не попадет и будет доступна только через подписку. И тут неожиданно была слита даже не ожидаемая LLaMA 3, а улучшенная версия LLaMA 3.1.

Главное изменение, помимо улучшения качества, в версии 3.1 размер контекста увеличен до 128K вместо 8K. По некоторым бенчмаркам LLaMA 3.1 размером 8B превосходит LLaMA 3 70B. А модель на 405B конкурирует с GPT-4o.

+18

Shannon 17 июн 2024 в 23:58

Представлена открытая LLM модель для кода DeepSeek-Coder-V2 на 16B и 236B. Теоретический конкурент для Codestral 22B

1 мин

13K

Искусственный интеллект

DeepSeek, вслед за своей моделью DeepSeek-V2, представила модель специализирующуюся на коде DeepSeek-Coder-V2. Модель представлена в двух видах: DeepSeek-Coder-V2 размером 236B и DeepSeek-Coder-V2-Lite размером 16B. Старшая модель в большинстве представленных бенчмарков обходит платных конкурентов.

+12

Shannon 16 июн 2024 в 21:10

Nvidia представила открытую LLM модель Nemotron-4 340B

1 мин

17K

Искусственный интеллект

На данный момент самая крупная, после Groq-1, открытая LLM модель размером 340B. По тестам сравнения человеком как выигрывает у GPT-4-1106 (вышла в ноябре 2023), так и проигрывает, но чаще составляет паритет.

Обучалась на 50+ естественных языках и 40+ языков программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в виде: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward.

+19