Pull to refresh
32K+
212
107,2
Rating
199
Subscribers
Send message

Вышла обновленная Qwen3-235B-A22B-Instruct-2507, без режима мышления, но с улучшенным качеством

Reading time1 min
Reach and readers16K

Представлено обновление для модели Qwen3-235B-A22B. Это MoE модель где 235B параметров из которых 22B активны. Упор сделан на убирание гибридного режима работы, оставив только не размышляющий режим, и увеличение размера контекста до 256к.

Читать далее

Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1

Reading time2 min
Reach and readers50K

Новое семейство Qwer3 представлено в виде Dense: 0.6B,1.7B, 4B, 8B, 14B, 32B, и в виде MoE: 30B-A3B, 235B-A22B. Каждая модель поддерживать гибридный режим работы: обычный и размышление. Поддерживает 119 языков и диалектов.

Читать далее

Вышла Llama 3.3 70B с качеством на уровне Llama 3.1 405B. Модель LLM для генерации текста

Reading time1 min
Reach and readers33K

Представлена Llama 3.3 размером 70B, которая, по заявлениям создателей, показывает себя на том же уровне ответов как и 405B, но в 5 раз легче.

Читать далее

Вышла Qwen2.5-Coder 32B. Открытая локальная модель для кода небольшого размера конкурирующая с GPT-4o

Reading time2 min
Reach and readers62K

После выхода Qwen2.5, которая подняла LLM небольших размеров на новый уровень, так как при размере всего 72B и, особенно, 32B - она показывала очень хорошие качество размышления и следования инструкциям, все начали с нетерпением ждать выхода Coder 32B модели, так как ожидали от неё уровня близкого к GPT-4o.

И вот, наконец-то, Qwen представила эту коллекцию моделей для кода размерами: 0.5B, 1.5B, 3B, 7B, 14B и 32B. Размер контекста 128k, лицензия Apache 2.0 (кроме модели 3B).

Читать далее

Nvidia представила LLM Llama-3.1-Nemotron-70B. Качественный файнтюн Llama 3.1 для рассуждений

Reading time1 min
Reach and readers7.8K

Файнтюн выполнен по методу RLHF (в частности REINFORCE) и показывает хороший результат для задач рассуждений и логики. Новая модель занимает высокое место в метрике Arena Hard, включающая в себя 500 сложных запросов от пользователей, в основном это задачи логики, загадок, рассуждений и математики. В этих задачах эта модель показывает себя лучше чем Llama-3.1 размером 405B или версии gpt-4o от 13 мая.

Читать далее

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

Reading time1 min
Reach and readers35K

После выхода LLaMA 3 70B многие ждали обещанную модель размером 400B. Эта модель должна была составить полноценную конкуренцию с GPT-4, при этом оставаться с открытыми весами. Правда некоторые слухи утверждали, что в открытый доступ 400B модель не попадет и будет доступна только через подписку. И тут неожиданно была слита даже не ожидаемая LLaMA 3, а улучшенная версия LLaMA 3.1.

Главное изменение, помимо улучшения качества, в версии 3.1 размер контекста увеличен до 128K вместо 8K. По некоторым бенчмаркам LLaMA 3.1 размером 8B превосходит LLaMA 3 70B. А модель на 405B конкурирует с GPT-4o.

Читать далее

Представлена открытая LLM модель для кода DeepSeek-Coder-V2 на 16B и 236B. Теоретический конкурент для Codestral 22B

Reading time1 min
Reach and readers30K

DeepSeek, вслед за своей моделью DeepSeek-V2, представила модель специализирующуюся на коде DeepSeek-Coder-V2. Модель представлена в двух видах: DeepSeek-Coder-V2 размером 236B и DeepSeek-Coder-V2-Lite размером 16B. Старшая модель в большинстве представленных бенчмарков обходит платных конкурентов.

Читать далее

Nvidia представила открытую LLM модель Nemotron-4 340B

Reading time1 min
Reach and readers31K

На данный момент самая крупная, после Groq-1, открытая LLM модель размером 340B. По тестам сравнения человеком как выигрывает у GPT-4-1106 (вышла в ноябре 2023), так и проигрывает, но чаще составляет паритет.

Обучалась на 50+ естественных языках и 40+ языков программирования. Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.

Модель представлена в виде: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward.

Читать далее

Information

Rating
69-th
Registered
Activity