Обновить
-1
Виталий Кузнецов@Vitrion

Пользователь

Отправить сообщение

Мне больше нравится, как бенчмарков становится всё больше и больше. Нашли какую-то особенность, которая у всех плохая, сделали бенчмарк, прокачали раза в 2 (с 30% до 60%), а потом показывают, вот мы в 2 раза круче чем были)

Главное изменение — серьёзный апгрейд работы с кодом.

Насколько могу судить, ещё и по финансам прокачали https://claude.com/blog/opus-4-6-finance

Что выделил Gemini 3 PRO: В Anthropic заявляют о серьезном скачке качества по сравнению с предыдущими лидерами:

  • +23% прироста в тесте Real-World Finance (реальные задачи инвестбанкинга и корпфина) по сравнению с Claude Sonnet 4.5.

  • 60.7% на бенчмарке Finance Agent (анализ документов SEC) — новый SOTA (State of the Art).

  • 76.0% на тесте TaxEval (налоговое законодательство).

  • Значительные улучшения в бенчмарках на глубокий поиск информации (DeepSearchQA).

Китайские новогодние праздники начнутся 15 февраля, так что ещё должны выйти мощные ИИ релизы. Этот довольно интересный, но вот новая версия у меня не отобразилась, видать в коммерцию уходят.

Думаю, было бы неплохо показать различные кейсы, результаты работы на GigaIDE, GigaStudio. И бенчмарки, все любят бенчмарки. И халяву.

Сегодня проблема не наблюдается. Даже файлы создавать умеет. Каждый ИИ всегда прошу создать скрипт падающих снежинок для сайта. Все делают по разному. Koda Pro тоже интересный вариант сделал.

В VSC после перезапуска с обновлением, не грузит. А так я давно нашёл этот агент и скачал, но чаще пользовался blackbox`ом и cline, пока лимиты не исчерпал. И есть ли где бенчмарки, на каком уровне ИИ.

Ну сделали и сделали, бывает.

В общем я понял, как тут дела обстоят на форуме. Крутить устаревшие LLM - круто, почёт и лайки, а развивать современные LLM - пузырь, критика, дизлайки. Пепе шнейне видимо всё решает. Однако в данной новости есть интересная отсылка на то, что через пару лет и современные LLM будут в тысячи раз дешевле, пока идёт развитие отрасли.

Даже если нет никакой пользы, то человек собрал конструктор, тот что-то делает, куда-то пишет, радует глаз. Как в компьютерной стратегии добыча руды, постройка зданий, юнитов. Только добычей руды (подписки на ИИ) занимается сам автор.

Карпати запустил лидерборд, где участники соревнуются, кто быстрее всех обучит модель до уровня GPT-2 на восьми H100.

Тратить деньги на допотопный LLM, это ж ещё надо заинтересовать народ конкурсом. Может там на сайте продаются устаревшие H100? Возьми 10 штук по цене 8.

Ну кто же видео создаёт по текстовому промпту, только кредиты терять. Намного лучше оживлять уже продуманную генерацию. Взял с вашего поста и прогнал через Grok-imagine

Стоп. Одно дело - игровой движок, другое дело - симуляция. Если бы ИИ создавал полноценный мир по промту на Unreal Engine 6, вот где суета началась бы, а так Genie - ничто иное, как создание прототипа игры до её разработки (интерактивный мультик, где есть только кадры). И в итоге, это нужно вовсе не для игр, а для пространственного мышления ИИ (думается так).

Кажется до китайского нового года мы ещё не увидели обновление DeepSeek, Minimax, GLM

"В веб-версии модель бесплатна, но длительность генерации ограничена 6 секундами.". Так с этого и надо было начинать, а то API, дешевле конкурентов, 4 бакса за минуту...

IDE для текста. Это как отдельная ниша, интересно. Надо будет глянуть, когда-нибудь

Она суперхороша во всём, кроме тех вещей, для которых она вам нужна.

Астрологи объявили неделю китайских релизов ИИ

Тут полфорума таких философов. А если серьёзно, то любой человек до того, как в жизни появилась работа за зарплату полон оптимизма, так что вообще не вижу проблем.

"В офисе программистов напряжёнка, начальник купил корпоративную подписку на ИИ". Вот программист пишет код, ищет баги, вносит правки. Потом говорит джуну - вот во всех файлах теперь обнови и замени это на это. Сейчас тот же программист может отправить эту задачу в IDE с агентом (Cursor, Warp, Visual Studio Code или что-то ещё) и тот всё поправит как быстрый рукастый джун (например, с такими простыми задачами справляется даже бесплатный grok-fast-code). И не путайте с чатом, где ИИ каждый раз переписывает полотно и галлюцинирует, в IDE агент точечно ходит по коду и правит, оставляя полный лог изменений до-после. Получается, что программистов не трогают, но работу джунов может забрать на себя ИИ-агент.

Сначала сделать 100 версий обрезанных ИИ, хвастаясь на соревнованиях и в бенчмарках "закрытыми" недоступными или сверхдорогими версиями, потом заявлять, что планируют содрать с Вас налог на прибыль, если Вы разбогатеете. Кто у них там такие решения принимает? Лучше пусть платят денег за то, что ИИ не помог разбогатеть, как страховка от потерянного времени, тогда и за прибыль можно что-то говорить.

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность