Комментарии / Профиль weerf / Хабр

Пользователь

Финляндия полностью отключила сеть стационарной телефонной связи

Это ограничение снизу. А что сверху?

Nokia хвалились 25G и 50G PON. Из Китая схожие новости. Но такие новости только пару раз в год вспоминают. И так уже лет 5.

LongCat 2.0: модель на трлн параметров, обученная на 50 тысячах китайских чипов

weerf 1 июл в 18:15

Погенерировал через неё рассказы. По интересности DeepSeek уступает. До MiMo тоже далеко. Но технические ИИ превосходит. В общем не только нравоучения. Есть сюжет, без особых интриг.

https://longcat.chat/t

Claude Code за 5 минут вскрыл CAN-шину автомобиля — то, на что у инженера уходят часы

weerf 27 июн в 23:55

Есть подозрение, что единственная цель оригинальной статьи:

Продать can переходник с мониторчиком.

За 350-600 евро.

И в этом проблема. Заявляют о больших возможностях. А результатов - нет.

Правительство США закрыло доступ к Claude Fable 5 неамериканцам — модель в итоге отключили для всех

weerf 13 июн в 16:17

Подешевеет.

Это не первый скачек памяти.

Был с 1995 по 1996 года.

Нельзя долго удерживать цену.

Пусть сейчас скачек цен - липовый. А не настоящая нехватка памяти, как была в 90е.

В смысле сейчас мобилки 8ГБ/128ГБ в стартовом сегменте как стоили до 15 т.р., так и стоят.

MiniMax M3: открытая модель с миллионом токенов контекста обошла GPT-5.5 на SWE-Bench Pro

weerf 1 июн в 20:49

Ждал эту модель.

Не знаю. Можно ли сравнить с переходом от полнотекстового поиска к появлению поисковиков вроде Google. Но то, что технология индексации дошла до реализации - уже хорошо.

ИИ. ЦПУ против ГПУ — Данные и Выводы

weerf 23 мая в 12:50

Обозначу пометки по статье. Которые мне показались важными. На истину не претендую.

1) Так как обозначен vllm, предположу: сборка на видеокартах уровня одинарных или сдвоенных v100 с авито/wb/... Или что было модно и доступно годами ранее. Влияет на выбор модели. Возможно nvfp4 надо заменить на иное. Даже 5 бит иногда на малых моделях заметно лучше 4 бит. Хотя если есть набор rtx 5090 - то не актуально.

2) Раз сравнение cpu и gpu хотелось бы видеть упоминание гибридного запуска. Когда MOE модель тяжелая, но требования к видеопамяти 3-5 ГБ.

3) По записи

>>role: "You are a professional information provider specialized in technical troubleshooting and clear explanations."

Такого быть не должно. Срочно изучить промт инжиниринг. Желательно по полноценным книгам или курсам с живыми преподавателями и сокурсниками. А не газетным и новостным вырезкам с wow эффектами. Считаю самым важным пунктом.

4) модель gemma 4 - сложная. После замены на аналог вроде qwen возможно не потребуется так сильно ужимать вывод по temperature и top_k

Из экспоненты в полином за два часа: что GPT-5.5 Pro сделала с задачей по теории чисел

weerf 10 мая в 15:31

Открытый вопрос понятен.

Думаю скоро изобретут github для математиков.

Где вместо фиатной валюты поддержки проекта. Вместо звезд и форков будет что-то понятное математикам.

OpenAI запустила подписку Pro за $100 — и урезала Codex у Plus

weerf 9 мая в 12:43

Внимательно относитесь к инференсу.

Kimi проводит проверку инференса своих моделей. И компания Nebius показала не лучшие результаты.

В чем причина: не хватило компетенций или развернули квант - не в курсе.

Но исходя из того, что предоставляют не самые последние модели - скорее первое.

А так, если не смотреть на последние достижения. А скорее на базовые модели - то вполне есть.

И есть исключения. Например: Qwen 397B у многих получается развернуть.

DeepSeek-V4: Тихий гигант

weerf 24 апр в 21:31

Думаю зависть. А вообще поздравляю.

Сорвала первую статью о лучшей нейронке за год.

На ресурсе, почти полностью посвященном ИИ.

Почему я так придираюсь к вёрстке (и вам советую)

weerf 23 апр в 08:23

Если зайти в приложение Альфа-Банк. И оно не просит обновиться - значит что-то пошло не так.

+185% за 13 часов: как Kimi K2.6 переписала 8-летний движок

weerf 20 апр в 17:49

Я вчера подписку взял. Хотя с осени не оплачивал. Потребовался deep research. И первое что вспомнил.

Kimi выпустили открытую модель K2.6 для долгих задач по программированию

weerf 20 апр в 17:37

ИИ в 1.1T параметров. Помогают запустить qwen 800M. Нейросети с буквой B в этой статье отсутствуют

Минус 17% за день: новый сервис Anthropic обвалил облачных гигантов

weerf 12 апр в 14:32

Не удивлюсь, что это правда. Без всякого сарказма.

Вот сидят думающие через ИИ. А ИИ обучен на жёлтой прессе с шок контентом.

ИИ что делать? Юля уронила сосиску!
Взрывать интернет!

GigaChat-3.1: Большое обновление больших моделей

weerf 4 апр в 22:21

С видеокартой не сложилось. Но переход на ik_llama дал преимущество на препроцессинге на cpu. На генерации тоже больше стало.

llama-bench -m sage/GigaChat3.1-10B-A1.8B-bf16.gguf

| pp512 | 493.81 ± 44.65 |

| tg128 | 21.38 ± 0.09 |

ik_llama-bench -m sage/GigaChat3.1-10B-A1.8B-bf16.gguf

| pp512 | 994.44 ± 112.04 |

| tg128 | 27.61 ± 0.29 |

Новый 3-битный алгоритм Google заставил рынок переоценить ИИ-индустрию

weerf 26 мар в 18:22

Ещё вариант: Уолл Стрит была не на статью Google

GigaChat-3.1: Большое обновление больших моделей

weerf 24 мар в 13:22

Тут упоминается sglang. Я постоянно использовал llama.cpp. И столкнулся с низкой скоростью инференса на CPU. Раньше (1-2 года назад) скорость llama.cpp была 2/3 от пропускной способности RAM в пересчете на веса модели. Например скорость 460 ГБ/сек, веса модели 7B, BF16, 14ГБ, dense. Получалась скорость около 20 токенов в секунду. И при квантах скорость росла.

А сейчас, например с qwen 3.5, максимум 1/3. И кванты даже не повышают скорость по сравнению с BF16, а понижают.

Вот если взять модель GigaChat-3.1-Lightning. где её лучше запускать для CPU? Llama.cpp или sglang? 32к контекста более чем устраивает. Главное, чтобы этот диапазон рабочий был. А не как на старых Sonnet, где после 17к - тыква.

Или как скомпилировать софт лучше для 3.1-lightning или преобразовать веса.

Что можно понять, только написав своего агента для кодинга

weerf 18 мар в 11:31

Qwen 3.5 хорошо оптимизирован под Aider. Все MoE модели. По качеству 6й квант 35B-A3B примерно соответствует 4му кванту 122B-A10B. По Dense моделям провал.

И указать крупный presence_penalty=1.5 при запуске модели. У Qwen 3.5 требуется.

Владимир Иванов (exYandex) заработал свой миллиард

weerf 15 мар в 12:26

Сам себя поймал на мысли, что классовая борьба чешется.

Но потом появилась мысль, что не знаю никаких новых ценных продуктов, появившихся за последние пару лет. Даже в области ИИ. Что я в начале 2024 использовал - тем и сейчас пользуюсь. Только модели поменялись. А нет развития - так за что платить?

MiniMax нарастил выручку на 159% — но убытки растут еще быстрее

weerf 3 мар в 10:43

Молодцы, что через рынок акций пошли. А не продаться кому-то крупному.

Qwen 3.5 Medium — серия средних моделей, которые бьют прошлый флагман

weerf 26 фев в 14:26

Звучит как очень простая задача. Может веса переквантованные были.

2 3 4