Search
Write a publication
Pull to refresh

Comments 25

Что за кликбейт? Бывшие сотрудники.

Пока они друг с другом дерутся их обходят китайцы.

Вжух!
Вжух!

Оценивать ллм по арене в 2025?)

Предложи альтернативный рейтинг

SWE-bench-verified, aider-polyglot, BFCL-v3, какие-нибудь блогеры типо gosucoder, самому ручками сравнивать. Вариантов очень много. Последний варик очень рекомендую, тот же sonnet 4 очень высоко в рейтингах, а если поюзать самому и поспрашивать людей, то выясняется, что у него будто СДВГ - он пихает ненужные фичи везде, может заигнорить часть запроса, делает тонну ненужных правок, и это всё на метриках не сильно видно (и в арене тоже, там большинство сравнивает результат).

Просто арена это "понравься юзеру и угадай что ему нужно"-бенч, она плохо оценивает модели. Она не оценивает уже стандартный workflow, где ассистент пихает вместе с вопросом юзера актуальную базу кода из репо и даёт модели возможность искать релевантные куски кода для ответа на вопрос или для новой фичи, в арене тонна запросов в стиле "а сделай мне html страничку с js где будет пятиугольник вращаться и шарики прыгать". 4o на том же месте где kimi k2 и sonnet 4 как бы намекают, насколько можно доверять арене. Свежий qwen 3 coder 480b где-то на 11 строчке, хотя это первая модель которая уже вплотную приблизилась к Сlaude.

Заметь, я не говорил и не говорю, что китайцы плохи. Новый qwen coder, qwen 235b новый, k2, GLM 4.5 / 4.5-air - это всё очень хорошие модели, GLM air поднимал и тестил сам, очень понравился. Но не надо судить модели, которые делаются под agentic usage, через призму оценок в веб чатике.

Зато на арене я могу сам покрутить без регистрации и СМС ©

И да, агентами я не пользуюсь

Я задаю вопросы по архитектуре

Ну, кстати, если пользовать claude как чат или просто агент, это реально тревожный СДВГшник, котрый делает не останавливаясь, половину забывает, потом пытается что-т поправить, косячит ещё больше, пока не становится колом и не пишет, что всё сломал.

Недавно была история про пуш в БД, я прям по стилю опознал его.

Но в мультиагентном режиме, где много мелких, коротких подзадач, он начинает смотреться очень неплохо. Просто у него реально логика строится через дробление на мелкие подзадачи.

Квен на данный момент ощутимо хуже

Когда deepseek нехило хайпанул, то он и qwen3 были значительно хуже чем клод и грок. Сейчас ситуация изменилась?

Даже если сравнивать дипсик с бесплатным вариантом чатаГПТ или Клода, у китайцев намного меньше общей памяти чата, а общей памяти у разных чатов нет вообще. Дипсик вообще не умеет работать с изображениями - ни воспринимать, ни тем более создавать. Как болталка или минимальный инструктор сойдет. Но для, допустим, более-менее разветвленных программистских проектов на несколько файлов и десятки функций - уже не канает. Забывает все, что было загружено несколько постов назад, исчезает контекст обсуждения. А бесплатный Клод - канает. Насчет Грока не скажу, не пробовал с ним работать более-менее серьезно.

Дипсик вообще не умеет работать с изображениями - ни воспринимать, ни тем более создавать.

Меня он клятвенно заверил, что умеет в ASCII-art. Опытным путем выяснилось, что его стиль ASCII-арта - эклектическое смешение абстракционизма и хоррора, когда привычные объекты предстают в глубоко искаженных, пугающих формах.

Как по мне, сейчас Клод хорош, грок отстой

У дипсека есть интересная проблема, которую редко замечают. Они иногда выставляют одну версию, игогда другкю, но визуально это незаметно, разве что запросить у самтго дипсееа.

Новая модель часто адекватнее делает программы чем qween и chatgpt и относительно последнего фантазирует меньше. Если говорить о бесплатных версия то контекст chatgpt убивается малым временем работы. Более того, я искуственно лишаю их контекста, просто усложняю промпт - результат становится более стабильным и предсказуемым.

Китайцы постоянно кого-то там обходят в каких-то попугаях.

Уже напоминает Antutu и замеры железа смартфонов в десятых, где все друг друга обходили, а по факту движения небыло.

Только заходишь на опенроутер и там в ТОП висит Claude и Gemini, а из Китайцев что-то показывают только бесплатные модели и те не впечатляют по объёмам. Притом по объёмам токенов дипсик и квн вместе едва обходят антропик по объёмам

Horizon Alpha по сути за 3 дня догнола Китайцев, а ведь уже вышла Horizon Beta

Наверное люди дураки, что не пользуют великолепные модели от Китайцев, а несут бабло (притом много) за уступающие модели.

По использованию тоже самое - циферки может и красивые, но начинаешь пользоваться и Китайцы выглядят очень хорошо. Очень хорошо, если бы сейчас был август 2024 года, когда только появлялись модели типа Claude 3 и o1.

Но вот на фоне актуальных моделей Китайцы выглядят блекло. Они медленнее, менее точные, больше галлюцинируют.

Не, ну если денег нет, а что-то надо, то это круто, без иронии. Это норм нейросетки, которые всё ещё выглядят как магия. Но они примерно никак не тягаются с лидерами рынка и очень сильно отстают в темпах от бурно развивающегося рынка.

Справедливости ради, надо отметить что Loss (другие метрики тоже опираются на стандартные методы минимизации ошибки) не всегда точно отражает качество.

Выше пример. Начало обучения, как видно во втором случае Loss для обучения и на тесте выше, но качество связей гораздо лучшем, чем в первом примере. Причина в том, что Loss и другие метрики не отражают структурные показатели. Например в примере выше, первая модель за счет того, что уловила частые символы и использует их имеет более низкий Loss. Вторая же, уже начала улавливать структуру и там цена ошибки выше (случайный токен "в", "и" приведет к меньшей ошибке, чем токены случайного слова "в Европе"). Так как Loss не может оценить связи, грамматику, семантику и другие верхне-уровневые ошибки.

Поэтому данные бенчмарки, особенно при маленьких отличиях от других моделей, не могут быть корректным показателем. Хотя других у пока тоже не знаю. Это не значит, что они бесполезны, просто надо держать в голове, что они могут не полностью отражать глобальную оценку.

кол-во эпох тут не показатель, так как верхняя часть училась на статьях википедии, а нижняя сначала на специальных данных (которые все поместятся по кол-ву токенов в 2-5 статей википедия) и лишь в конце 100 статей вики. Поэтому во втором случае пример может быть условно "ляля" 91-2 токена), а в первом случае это статья из википедии (много много токенов).
кол-во эпох тут не показатель, так как верхняя часть училась на статьях википедии, а нижняя сначала на специальных данных (которые все поместятся по кол-ву токенов в 2-5 статей википедия) и лишь в конце 100 статей вики. Поэтому во втором случае пример может быть условно "ляля" 91-2 токена), а в первом случае это статья из википедии (много много токенов).

На самом деле важно структурное обучение. Как его оценить? я пока вижу только один критерий, оценивать каждый блок архитектуры и сравнивать их ошибки между собой. Но тут проблема в том, что размеры архитектур у всех разные, сколько внутри блоков. И ни кто не будет раскрывать свои особенности архитектуры.

Тут можно проверить и убедиться, в описанном выше https://t.me/greenruff/2457 и там есть исходники и данные для проверки выше сказанного.

Смысл был в том, что необходимо при обучении постепенно изменять энтропию данных и сложность архитектуры, чтобы она не улавливала шум и мы впустую не тратили время на обучение, того что модель уловить еще не может из-за отсутствия связей на более низких уровнях признаков.

Сейчас как раз пробую автоматизировать этот процесс, чтобы сначала собранные данные были ранжированы правильно для обучения от простых к сложным (по уровню их энтропии) и затем постепенно уже обучаем от простых к сложным. Что-то вроде как учатся дети, когда сначала усваивают простые признаки (буквы, слоги), затем связывают эти признаки в новые слова и так далее. Энтропия, если адаптировать это понятие под речь, связана с расходом энергии на артикуляцию разных звуков и их сочетаний и дальше уже слов, синтагм, предложений и так далее.

Так они использовали для программирования или для исследования механизма конкурентов?

Скорее всего по тестам программирования гоняли

Никогда бы не подумал, что люди обходят ограничения и плюют на пользовательское соглашение

когда уже ИИ начнут банить друг друга?)

похоже, и правда стоящая вещь. при общении по железной теме больше чата и дипа неадекватных советов, типа запакуй ексе в зип, тогда на других компах (8-10-11) смарт скрин не будет ругаться :D

но с кодом (как минимум) очень удобно!
двухоконность. делает (помнит) про tab отступы, еще и сохранение в файл есть)

помню, раз зашел, и бросил. теперь буду изучать

(upd) нет, про табы тоже забывает

Чуваков нанимают за миллионы, чтобы они писали новые структуры, а они пользуются методичками нейронок конкурентов (того же уровня). Я правильно понимаю, что это дичь?

Если смотреть про рефакторинг соблюдение принципов solid, kiss, dry и т.п., то Claude на первом месте. Если сложная логика например обработка текста pullenti, смотреть изображения и изучать их, то Gemini pro. Простые тексты причесать (творчество) OpenAI. Да и с Клауд нужно аккуратно, может все по своему написать и как говорили забить на контекст. Gemini иногда тупит, толи сервера работают по разному, толи загрузка на них большая не понимаю. Бывает так что на элементарные вещи отвечает глупо (проверил одним запросом в течение недели), разница ощутимая. Инструкции писать OpenAI)). Все это использую в GitHub copilot за 100 баксов в год.

Sign up to leave a comment.

Other news