Comments / Profile of weerf / Habr

@weerf

User

ProfileArticlesPostsNewsComments24

GPT-5-Pro необычным способом «закрыла» нерешенную математическую задачу

weerf yesterday at 16:54

GPT5 Pro каждый ответ начинает с:

Короткий вывод. Краткий ответ. Или вариации этой фразы.

Очень легко определить модель.

Look

Alibaba представила Qwen3-Next-80B: мощнее, быстрее и дешевле

weerf yesterday at 16:31

А что делает unsloth?

Look

Прошел OpenAI DevDay 2025. Что нужно знать?

weerf Oct 7 at 10:37

Попробовал GPT 5 Pro.

Говорит очень сжато. Вообще максимально сжимает разговор. По сравнению с O3 Pro - не уверен, что лучше. Пока новых идей не увидел. Максимально некрасивый технический русский язык стал еще более мудреным. Нейросеть не думает о красоте речи. Как технарь, просидевший 5 лет в подвале. Но мышление предложениями сохранилось, как и у O3 Pro.

В качестве примера недавно интересовался, когда вычислительные возможности чипов дорастут до массого распространения 10GBase-T и 25GBase-T. И может ли быть связано с российскими разработками в области InGaAs (Читал старые статьи о микроэлектронике). В принципе 5 pro выдал, что и связка Sonnet 4.5, Gemini Pro, GLM 4.6, Grok4 fast вместе взятая. Вот тут 2 вопроса и один ответ ИИ, правда только нумерованный список сбился при копировании ответа в telegraph: https://telegra.ph/25GBase-T-10-07

Look

Microsoft Research разработала новый способ включения знаний в LLM

weerf Sep 20 at 17:34

Ну так перспективы у них есть?

Или там на больших вводных будет что-то нерешаемое?

Look

PDF ожил: Stanford превратил научные статьи в говорящих AI-ассистентов

weerf Sep 20 at 13:52

Будь тема рабочая - выложили бы десяток тысяч mcp серверов.

Look

DeepSeek обошёл OpenAI и Google: компания влила в R1 294 тысячи долларов

weerf Sep 20 at 13:35

294 тысячи долларов - тут уже бюджеты российских ИИ близко. Про бюджет в 2-3М - не в курсе.

Look

Фрилансеры и компании начали предлагать услуги по «ремонту» вайб-кода

weerf Sep 13 at 21:42

Считаю, вайб дебаггинг очень плохо поддаётся работе на удаленке.

Требуется постоянное общение. Чтобы выяснить почему так получилось. А сама работа, очень похожа на описанное в книге "Эффективная работа с унаследованным кодом". Только сейчас, прологировать все методы одного класса - просто. Даже мощная gpt не требуется. FIM справится. Для документации и покрытия тестами - что-то помощнее.

Look

Активист объявил голодовку у офиса Anthropic, он требует остановить гонку ИИ

weerf Sep 6 at 09:34

Ну вот. Отдел PR будет ему пирожки выносить.

Look

Anthropic ограничивает доступ китайских компаний к услугам ИИ

weerf Sep 6 at 09:26

В общем американские и китайские компании заблокируют.

Останется только РФ. Где акцент на state machine. И конкурировать с антропиком нет ни средств, ни желания, ни понимания: зачем это нужно. А для фанатов непонятно чего всегда есть тиньков, вихрь и любая из реинкарнаций квен 3/30/3.

Look

Kimi k2.1 — новая модель от Moonshot и снова лидер

weerf Sep 6 at 06:51

Попросил оценить гипотезы - разнесла в хлам. Без поддакиваний.

Попросил написать несколько историй - написала чернуху. Никаких слащаво-мотивационных рассказов по умолчанию.

Не то, что полюбил эту ии. Но стал чаще с ней советоваться.

Look

Anthropic теперь стоит $183 млрд. Оценка компании утроилась за полгода

weerf Sep 3 at 06:58

Похоже антропик всё. Смотрю, как его забуксовали по статистике на openrouter.

К концу месяца, думаю, соннет 4 до 3 места упадет.

Look

Карьера вайб-кодера — это тупик

weerf Jul 31 at 21:04

Это называется дистиляция ИИ

Look

Карьера вайб-кодера — это тупик

weerf Jul 31 at 21:00

Автор освоил одну технику: дать ИИ при промте возможность отказаться от решения.

Но в целом: явно книги не читал. А до одной техники дошел своим умом.

Look

Kimi-K2 — следующий этап развития искусственного интеллекта в Китае после Deepseek

weerf Jul 19 at 09:39

Читаем книги по промт инженирингу. Можно зарубежные, вычищенные от амазинга и банальных повествований. Делаем запрос с минимальной вложенностью, максимально плоский. Убираем псевдографику. Плюс "+" не должен означать переход псевдографики и значение в таблице. Всю классику: инструкции, few shot - включаем в обязательном порядке. Обозначение блоков BLOCK..END OF BLOCK, в силе языков программирования Fortran, Cobol, из времен без подсветки синтаксиса - по желанию.

По запросу не ясно различие "нет ip" и "не работает ip". Если убрать такой акцент. То пример, подготовленный с помощью o3-pro из набора мыслей:

SYSTEM:
Ты – неизменяемое справочное API. Отвечай только на основе таблицы. 
Формат ответа:  
① если просят «список» – JSON-массив,  
② если просят «есть ли такая пара» – "YES"/"NO".

DATA (CSV):
URL,IP
habr.com,146.120.117.5
habr.com,146.120.118.23
people.habr.com,146.120.117.8
sandbox.habr.com,146.120.119.31
example1.ru,203.0.113.10
example1.ru,203.0.113.11
newsportal.ru,192.0.2.20
newsportal.ru,192.0.2.21
techtalk.ru,198.51.100.30
techtalk.ru,198.51.100.31
learncoding.ru,198.51.100.45
END OF DATA

EXAMPLES:
Q: Какие IP у habr.com?
A: ["146.120.117.5","146.120.118.23"]

Q: Есть ли IP 192.0.2.20 у techtalk.ru?
A: NO
END OF EXAMPLES

USER:
<запрос>

SYSTEM в openrouter включаем в настройку чата System Promt. Запросы USER - в самом чате. Пробовал с kimi k2. Temperature=0.6, TopP=0.92, TopK=13, MinP=0.08.

Look

В два раза лучше ChatGPT o3. Представлен Grok 4

weerf Jul 10 at 10:36

Протестировал на написание технических заданий. В целом пишет проще. Подкидывает шутки.

Сразу возник вопрос серьезности. И задал несколько тяжелых вопросов по строительству.

ГОСТы, СНиПы знает.

Как понимаю, Grok 4 надо сравнивать надо с O3, a Heavy c O3-pro. Но на OpenRouter пока только обычная модель Grok 4. Ну в целом неплохо.

По программированию: тут подожду пару недель. Вдруг мощность модели срежут?

Look

OpenAI o3-pro может оказаться слишком умным для светской беседы

weerf Jun 13 at 06:44

Вчера смотрел. O3 pro от O1 отличается кардинально. O3 модель-формалистка.

Главное правила описания, следования. А что по главной теме общения - согласится и подстроится под одну из первых идей.

Прошка про формализацию забывает. Про красоту текста топикстартер уже написал. Отсутствует. По O3 pro вчера спрашивал, как оптимизировать парогазовые электростанции.

Предложила сверх CO2 цикл. И никак не хотела снижать нижнюю температуру CO2 ниже 35 градусов. Отвечала отказом, либо, если вопрос без вариаций, уходила в итальянскую забастовку. С ответом уровня модели 3B. Менять CO2 на другой теплоноситель, кроме воды, тоже отказывалась. За много попыток предложила смесь CO2 с с 20% или 40% азота.

Закончилось всё тем, что openrouter упал. И я пошел спать. Из интересного: o3 pro хорошо пишет технические задания. И цена не $2-3 за запрос, как у O1 pro. А $0.18-0.38 за штуку.

Look

Ведущий стартап в области искусственного интеллекта в ЕС Mistral представляет Medium 3 и Le Chat Enterprise

weerf May 8 at 21:25

А qwen не тестировал?

Помню на реддите модель qwen 2.5 попрекали, что на внимание много памяти расходует. Возможно должна лучше запоминать.

Да и qwen 3 32b Dense смотрю. В конфигурационном файле указано attention_heads: 64, key_value_heads: 8. Возможно тоже должна отличаться вниманием.

Или сравнивал с чем-то из другой весовой категории. Уровня claude 3 opus / o1 pro?

Look

Microsoft бросает вызов OpenAI с новыми моделями AI Phi-4 с открытым исходным кодом

weerf May 5 at 12:49

Что-то мне вывод старых 4b моделей больше нравится.

Phi 4 не под мои запросы сделана.

Look

Llama 4 плоха во всём

weerf Apr 17 at 18:15

Одна из лучших моделей, которые я пробовал.

Пробовал сам, не ориентируясь на чужое мнение. Вопросы задавал по русски. Мне плевать на тесты контекста 120к. Так как знаю, как ошибается Sonnet 3.7 в программировании уже на контексте 15к. И GPT 4.5, на схожем объеме текста. Я задавал задачи уровня "вопрос-ответ".

А владельцы, оформившие ипотеку на Nvidia, пусть дальше сыпят жестью уровня: "похожие на DeepSeek v3 и r1 (предположительно, из-за копирования". Небольшие познания в ИИ разрушают такие доводы.

Llama 4 первая крупная модель, подходящая для CPU. Жду возможной российской адаптации. Перестроения словаря. И, возможного ещё большего роста по качеству для русского языка.

Look

Трамп освободил от повышенных пошлин смартфоны, ноутбуки, чипы, планшеты, умные часы, фитнес-браслеты и ТВ из Китая

weerf Apr 13 at 13:54

Трамп постоянно метод "качели" использует

Look