olegchir 25 мар в 21:10

Gemini 2.5 Pro. Большой контекст зарелизился

Простой

3 мин

7.8K

Блог компании AnarchicМашинное обучение*Программирование*Искусственный интеллект

Комментарии 46

FurySeer 25 мар в 21:31

И на этом 1кк токенов никаких галлюцинаций, разумеется.

Бенчи, бенчи, бенчи - дайте цифры роста рядовых бизнесов от употребления моделей.

olegchir 25 мар в 21:35

Есть некий большой гэп между технологиями "переднего края", и обычным рядовым бизнесом. Есть места на Земле, где бизнесы не умеют еще в кассовые терминалы. Но это не потому, что банковские карточки - ненужная фигня, а просто должно пройти какое-то время адаптации.

Хорошая новость: те, кто адаптировался быстрее, имеют огромное конкурентное преимущество.

FurySeer 25 мар в 23:28

Этот куплет можно повторять бесконечно - передний край, адаптация, преимущество. Год назад, полгода назад, через год - передний край, преимущество, адаптация.

К середине 25 года продолжаем смотреть на бенчи вместо "смотрите, компания N в основном продукте сократила 50% разработки, потому_что_вместо_них работает ИИ - продукт растет, инвесторы инвестируют, на подходе компании X и Y"

Politura 26 мар в 01:15

К середине 25 года мы видим, что в Кремниевой Долине сокращения уже настолько обыденность, что больше про них в новостях не пишут, а еще видим, что на одну вакансию в каком-нибудь занюханом стартапе - тысячи желающих.

Примерно вот-так оно выглядит

Скрытый текст

panzerfaust 26 мар в 05:15

Вот бы еще хоть один пруф, что это связано с AI. Фанбоям бы неплохо кроме новостей про ПРОРЫВ В БЕНЧМАРКАХ читать обычные человеческие новости про экономику.

Politura 27 мар в 02:16

Не знаю что там в новостях про мировую экономику, а в техсекторе США все шоколадно, его закидывают деньгами, nasdaq за 2024 год вырос с 15 тыс до почти 20 тыс и при всем при этом, 2024 год был годом массовых увольнений именно программистов и именно в техсекторе США.

FurySeer 27 мар в 08:30

Вас просят о пруфе, что причина во внедрении ИИ - вы юлите, пытаясь отделаться общими фразами

Antra 27 мар в 13:36

Тех сектор США растет весьма недурно несмотря на значительное сокращение программистов.

Это явно показывает "продукт растет, инвесторы инвестируют, и при этом нам не нужно больше так много программистов".

Как мог бы выглядеть пруф "нам не нужно больше так много программистов именно благодаря ИИ", который вас утроил бы?

Ну не количество же строк кода типа "раньше один программист выдавал на гора ХХ строк кода в месяц, а после внедрения ИИ на четверть больше"?

olegchir 26 мар в 06:07

Есть такая советская песня: "Я вам не скажу за всю Одессу, вся Одесса очень велика".

Могу рассказать про себя: я продакт и архитектор на ряде айтишных проектов, есть мой маленький пет-стартап. Использую нейронки с утра до вечера, у меня под них отдельный монитор выделен. К жизни без нейронок возвращаться не очень хочется. Очень быстро привыкаешь к ощущению всезнания и всемогущества.

Приведу пример: один раз в декабре я продолбался и мне не хватило людей, чтобы реализовать одну фичу. Фича была оценена в две недели работы двух человек. Так быстро нанять и онбордить в легаси двух узких специалистов - за вменяемые деньги нереально. Вместо этого я засел за нейронки (не самые мощные, потому что там есть ограничение по использованию сервисов из интернета) и за два дня сделал всю эту задачу один. Задача прошла тестирование с первого раза без замечаний.

Явно проговорю, что "обычный" человек с улицы так сделать не может. Даже программист. "Войти в нейронки" - крайне просто, войти в ML в целом - сложнее, выдавать с ними хороший результат - сложно и дорого. Нужно жить этим - точно так же, как и любым другим видом программирования. Это настоящий ответ, почему все эти технологии не использует весь мир. Большой порог входа в профессиональное использование.

Скорей всего, всё это случится со всем миром, как раньше случилось с веб-программированием. Но не сразу. Понадобится, по крайней мере, несколько лет.

FurySeer 26 мар в 09:51

Прошу доказательства тренда в экономике - в ответ очередное "а я вот сделал такую задачу быстрее, и еще у меня пет-проект".

olegchir 26 мар в 10:34

Сорян, я не силен в социологических опросах.

Вот эти ребята смогут помочь за скромную сумму: https://www.mckinsey.com/industries/public-sector/how-we-help-clients/digital-and-analytics

FurySeer 26 мар в 10:44

И при чем тут социологические опросы...

Началось все с очередной революции, закончилось "у меня пет-проект и отстань"

Idakopas 3 апр в 04:56

[DEL]

Dynasaur 25 мар в 21:34

Это опенсорс? Её можно форкнуть?

olegchir 25 мар в 21:48

Нет, это проприетарная штука. Это флагманская модель Гугла, они ее точно никому не отдадут. Можно использовать через Google AI Studio или Gemini App. Модель доступна только для пользователей с подпиской на Gemini Advanced, которая является частью Google One AI Premium. Нужно географически подключаться через одну из разрешенных стран.

Если смотреть опенсорс от Гугла, то это GEMMA-3, доступна для загрузки на Hugging Face. Технологии похожи на Gemini, но сетка явно слабее.

entze 26 мар в 03:48

Слабее, но вполне себе работает на low-end железе.

fire64 26 мар в 05:37

т.е. бесплатно заюзать по API как Gemini 2 Flash не получится.

olegchir 26 мар в 05:39

не получится. У пользователей без advanced подписки этой модели просто нет в AI Studio.

smarkelov 26 мар в 07:44

Да вот есть на бесплатном аккаунте. Про API пишут что нужно указать "gemini-2.5-pro-exp-03-25".

olegchir 26 мар в 10:17

Ура! Буквально недавно там была только 2.0-experimental вместо неё. Круто, чё. Кажется, опять не нужно платить им :)))

Antra 27 мар в 14:04

Похоже, что можно подключить откуда угодно. Хоть из Roo Code

Только потом ругательства типа

[GoogleGenerativeAI Error]: Error fetching from https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-pro-exp-03-25:streamGenerateContent?alt=sse: [503 Service Unavailable] The model is overloaded. Please try again later.

или

"Invalid JSON payload received. Unknown name "frequency_penalty": Cannot find field."

Возможно из-за временного ажиотажа.

Интересно, можно ли чуток доплатить (скажем, на уровне Дипсика) для получения приоритета?

smarkelov 27 мар в 14:10

Ажиотаж пройдет и норм будет я думаю. Может на платных планах лучше с доступностью.

xmpi 26 мар в 05:05

Клод 3.7 лучше [для своих 200к токенов] с ризонингом?

olegchir 26 мар в 05:45

у меня нет четких метрик, но есть какие-то свои внутренние ощущения. Например, по вопросам медицины Клод сильно лучше вообще всех (а на втором месте Грок). Медицину мы проверяем относительно реальных экспертов в области. То же самое про программистские вопросы про архитектуру приложения и разработку чего-то нового. Всё, что связано с культурой и жизнью людей в целом. У Клода больше кругозор и он просто горячее. Зато если есть четко поставленная кодерская задача, не требующая кругозора, есть нормальное ТЗ - OpenAI сильно круче всех (включая "большой" нормальный DeepSeek R1). Gemini - где-то посередине между ними. Но да, наиболее круто она сияет именно на большом контексте и стоимости токенов.

тем не менее, у всех свои ощущения и свои задачи. Не у всех задача - это медицина. На каком-то другом виде кодирования у тебя результат может быть совершенно другой. Можешь составить такой топ самостоятельно и рассказать нам )

Pilotv 26 мар в 20:25

Claude еще стихи лучше всех пишет

milkyway044 14 апр в 13:38

Нет «лучшей» LLM, есть подходящая для твоей задачи. Лучшая метрика — практика. Попробуй сам. Возьми реальную задачу и реши её с разными моделями. Главное — понимать, что ты делаешь.

Arxitektor 26 мар в 07:16

По Gemini интересно спасибо. По ценам я правильно понимаю что нужен план за 1790 рублей в месяц?. Ну и переключить аккаунт на разрешенною страну и подключаться по VPN из разрешенной страны? Как я понимаю использовать текущий аккаунт google не вариант и без карточки нужной страны сменить регион не вариант ?

Если AI ассистент использовать как помощника в работе то с годовой подпиской выходит не дорого. ). А возможности за ту же цену растут ).

Последнее утверждение про "один промт" я хз как проверить. Способ, которым я пишу код, сильно отличается от "обычного" отсутствием иллюзий. У меня промт - это несколько страниц текста на английском языке, и он всегда выдает работающие приложения.

А можно поподробнее есть статьи курсы как кодить с AI ? А конечно использую DeepSeek периодически для простейших скриптов. Но думаю что делаю это не Эффективно. Интересует как правильно писать теже промты.

olegchir 26 мар в 10:30

> А можно поподробнее есть статьи курсы как кодить с AI ?

Тут есть два пути. Во-первых, можно просто читать много разного по теме, и через некоторое время сам всё поймешь.

Второй вариант - дождаться, пока я выложу бесплатный курс. У меня есть некая методика, которой мало кто придерживается в интернете. Методика заключается в написании четких, подробных ТЗ и использовании AI/LLM как продвинутого компилятора.

Так редко кто делает, потому что мир одержим идеей "создать приложение с помощью 1 промта". Имхо, это чистой воды популизм, а кто верит в агента Манус/Анус, который сам за тебя все сделает - бредят.

Но там еще непаханое поле, так что я доделаю только к лету. Это если делать не говно, конечно, а нечто на уровне OpenAI.

Можно подписаться на мою телегу, там будет вся инфа:
Канал: https://t.me/tg_1red2black
Чат: https://t.me/chat_1red2black

milkyway044 14 апр в 14:22

У меня есть некая методика, которой мало кто придерживается в интернете. Методика заключается в написании четких, подробных ТЗ и использовании AI/LLM как продвинутого компилятора.

Похоже на метод @Iqber, ему удается за один подробный промпт получить 500-1000 строк насыщенной логики по контексту в 15-20k токенов с первой попытки.

olegchir 26 мар в 10:31

>По ценам я правильно понимаю что нужен план за 1790 рублей в месяц?

Чтобы попробовать - уже не нужно платной учетки. Как тут самым первым заметил @smarkelov, они вечером выкатили пробную 2.5-experimental на всех.

Если нужна релизная версия для прода - нужно покупать. Экспериментальные бесплатные сетки не дают никаких гарантий. В любой момент у тебя может поменяться все что угодно, начиная с максимальной длины ответа и заканчивая перегрузкой сервера.

А еще, они могут учить нейронку на твоих вопросах и ответах. Все, что ты пишешь, через некоторое время будет доступно всему миру.

использовать текущий аккаунт google не вариант и без карточки нужной страны сменить регион не вариант ?

Оно не работает в регионе Россия, и оплатить можно только через Visa/Mastercard/etc. Да, придется мутить с карточками.

Еще можно положиться на вот таких продавцов. Но они хотят пароль от твоей учетки, так что ни в коем случае нельзя им давать основную свою учетку.

Pilotv 26 мар в 20:23

Наиболее рациональный путь на self hosted сервере поставить open web UI и подключить его через API к openrouter.ai Получаете с одного интерфейса доступ ко всем LLM , в том числе и бесплатным там их штук 300 во всех вариация. Играться можно до посинения. Счет пополняется через крипту , у меня Белкарта проходит

Rastishka 27 мар в 12:32

Зачем селфхостед? Можно просто клиента использовать например https://msty.app/

Pilotv 28 мар в 08:10

Зависит от модели использования, в моем случае несколько пользователей (я жена дети) + трафик на нейросетки пробрасывается сразу через VPN + через nginx настроен доступ по доменному имени - так что я имею доступ к нейросетям с любого устройства

BEFAR_nvkz 26 мар в 21:41

А можно поподробнее есть статьи курсы как кодить с AI ?

Качаешь cursor.ai -> переводишь режим в агента -> ты программист.

olegchir 26 мар в 21:42

Сожалею, так не работает. Народу продали эту мысль большие компании, и теперь будут стричь бабки на прогреве фраеров.

Pilotv 26 мар в 21:56

Шаг 1 - учишься кодить без AI

Шаг 2 - учишься кодить с АI

Шаг 3 - профит

assdestr0yer 27 мар в 19:38

Эту модель можно скачать и запустить локально?

smarkelov 28 мар в 07:39

Конечно же нет

Kergan88 8 апр в 07:24

Но как он собирается конкурировать со способностью Gemini загрузить целиком весь репозиторий кода без всякого RAG?

А никак, пока эти токены чисто "виртуальные". На данный момент реальное ограничение в кодинге для контекста - порядка пары-тройки десятков тысяч токенов, дальше сетка резко тупеет вплоть до невозможности дальнейшего использования. Как обойти это ограничение - ни кто пока не знает.

milkyway044 14 апр в 14:10

Вы правы, с увеличением контекста многие модели «тупеют». Но мой опыт, конкретно с Claude 3.7 (с окном 200k), говорит о другом. Оставляя ~25–50k токенов на ответ, мы можем эффективно использовать ~150–175k токенов (~10–15 тыс. строк кода, грубо) под контекст. И по моим наблюдениям, Claude действительно очень внимателен к деталям внутри этого окна. Он не теряет нить и не начинает галлюцинировать сильнее, чем при меньшем контексте. Этого объема уже хватает для многих практических задач: понять и доработать большой модуль, провести рефакторинг с учетом окружения, сгенерировать новую фичу, которая корректно интегрируется.

olegchir 2 мая в 16:09

Заметил, что 1М контекста в Gemini Pro - не настоящие. Начиная с какого-то момента она начинает забывать начало диалога в том порядке, в котором следовали промты. Плюс в том, что из буфера оно никуда не девалось, и если явным образом попросить ее вспомнить - она вспомнит. Но таким образом, мы начинаем заниматься управлением контекстом внутри контекста, что звучит достаточно безумно :)

milkyway044 2 мая в 16:46

управление контекстом внутри контекста

Звучит безумно, но именно так и есть! Новая реальность работы с огромными окнами.

Kergan88 3 мая в 03:25

Размеры контекста везде "не настоящие". На данный момент реальный контекст - порядка десятков тысяч токенов. Даже за сотню тысяч стабильно ни одна сетка контекст не держит. т.е. она может вспомнить что там есть, но уже задолго до достижения 100к происходит резкая деградация качества работы сети.
Фактически, тут можно говорить о двух режимах работы - один режим с контекстом в условно скажем 50к токенов - где сеть грамотно все держит и нормально ризонит, и биг контекст (все что больше 50к токенов) - где сетка еще может делать всякое суммирование и т.п., но за пределами таких вот примитивных задач уже перестает адекватно работать.

milkyway044 3 мая в 03:47

Вы точно Claude 3.7 (200k) пробовали? Он держит и ризонит вполне адекватно в пределах 150k+.

Antra 3 мая в 08:23

Мне казалось, что /compact даже в пределах 100К ощутимо помогает не только экономить, но и получать более приятный код.

Kergan88 5 мая в 00:58

Вы про 3.5, наверное? В 3.7 как раз сильно контекст порезали, раза в два по ощущениям. Если 3.5 нормально держит 1-1.5клок, то 3.7 уже на 0.5клок зачастую начинает шизеть.

Кстати, интересно, что "эффективный" контекст с времен гпт3 так практически и не вырос - надо полагать, это связано с фундаментальными технологическими ограничениями.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий