Pull to refresh

Comments 45

Почему вы не указываете размеры ваших моделей?

Потому, что они закрытые. Размеры не указывают ни OpenAI, ни Google, ни Anthropic.

У гугла одна из моделей называет flash-8b и похоже что она размером 8б. При этом она почему то не только хорошо говорит по-русски но еще и на картинки отвечает и голосовые распознает.

Там понятно почему. Но Яндексу кого бояться? Сбера?

Боится, что модели окажутся файнтюн ламами))

Скрывают что б не опозориться.

@dolotov а почему бы вам не сравнить ЯГПТ 4 по общим дисциплинам, программирование, мат.дисциплины?

Тут все тесты яндексовские, к тому же. Нельзя перепроверить ни один из результатов тестирования. Нет даже методики тестирования. В своих тестах Яндекс даёт 65 в преведённом MMLU. Это меньше чем у Llama 3.1 8B (72%).

Не могу понять что вы пишите, точки с запятыми расставлены хаотично. Что касаемо методик тестирования у мировых компаний они есть, а Яндекс опять свою песню завел. ПС:Вся экосистема Яндекс GPT это полный и не связанный между собой бред. Управление умными устройствами это шаблоны, шаг влево или в право и устройство не понимает тебя.

Наши бенчмарки на русском, так как нам важно тестировать именно русский язык, а большинство публичных бенчмарков — на английском языке.

Кроме того, публичные бенчмарки часто могут быть подвержены перекосу в оценке, потому что в модели во время обучения могут случайно протекать датасеты из этих бенчмарков — нейросеть обучается хорошо отвечать на них. Мы контролируем, чтобы наша модель не страдала этим на всех замерах, а наши собственные бенчмарки закрыты даже от нас, поэтому их данные точно не попадут в модель, а значит им можно доверять.

У яндекса их модель выдает ответы на уровне 3.5. Не понимаю почему огромная компания с их bigdata не могут сделать мультиагентную систему которая будет давать ответы в зависимости от области. Файтюненая модель llama с доступом к интернет поиску и то даёт ответы лучше и это с учётом того что это всё тренеровалось тупо на не большой выборке данных на обычной пользовательской видеокарте, не говоря уже о A100.

У Яндекса, вероятно, гораздо меньше даты и гораздо меньше ресурсов на обучение моделей, чем у меты. Но да, файнтюненая Llama 3.1 8B будет не хуже YaGPT-4 по качеству ответов, но в 100-200 раз дешевле (буквально, если сравнивать стоимость по апи).

У Яндекса, вероятно, гораздо меньше даты и гораздо меньше ресурсов на обучение моделей, чем у меты.

Ну вот китайские компании выпускают модели, которые на общих англоязычных бенчмарках и арене толкаются в топе или около него - Qwen 2.5 (open weight, кстати), Deepseek 2.5, Yi-Lightning, GLM-4 Plus и так далее. Причем на них тоже висят санкции на покупку передовых GPU и не думаю что у них сильно больше возможностей по сбору англоязычных данных чем у Яндекса. Так что дело не только в этом, но и в кадрах.

Нет ни одной хоть сколько-нибудь приличной китайской модели. Они даже до гпт3.5 не достают.

Ну ты же видишь что в таблице что то совсем не то что должно быть? 4о на первом месте вместо о1, клод3соннет на 10ом ниже чем джемини флеш...

А еще там можно зайти в чат и поговорить с любым из китайцев - тебе сразу станет понятно что они вообще ни о чем.

Яндекс, когда все ваши продукты станут одной эко-системой?
Когда я смогу Яндекс колонке которая стоит на кухне, сказать чтобы она на компьютере сделала звук потише или включила компьютер через WakeOnLAN?
Когда я смогу продолжить слушать музыку из настольного приложения на телефоне?
Когда Алиса сможет голосом уведомлять о важных письмах в Яндекс Почте или заканчивающимся месте на Яндекс Диске?
Почему у вас каждый сервис - это оторванная, от всего остального, сущность?
Когда ваши старания будут приносить пользу не только вашим топ-менеджерам, но и тем кто пользуется вашими продуктами и оплачивает их развитие?

Они до сих пор не могут сделать темную тему в браузере для планшетов. Не надо им ставить более сложные задачи, а то перетрудятся

Полностью согласен. Меня бесит что все эти "умные помощники" максимально глупые и не могут ничего кроме как вызвать свой GPT или быть включателем или будильником с музыкой. Они никак не интегрированы в жизнь пользователя от слова совсем. Тогда с чем они помогают то?

Ответ на ваш вопрос в их же пресс-релизе:

YandexGPT 4 умеет генерировать команды для сторонних приложений. Например, если попросить нейросеть найти билет на самолет, она напишет команду для сервиса авиабилетов, чтобы он запустил функцию поиска мест. Генерация команд станет доступна в Yandex Cloud в ближайшее время, и разработчики смогут использовать новые модели для работы с внешними приложениями. Для этого им нужно будет описать функции и правила составления команд, а модель будет сама определять, когда ими воспользоваться.

Перевожу: экосистема мигом появится, как только Алиса начнёт сама заказывать пользователям билеты на Туту/Авиасейлз, а не на яндекс путешествиях.

Очень круто, что YandexGPT 4 Pro не только догнал, но и по ряду задач сравнялся с лучшими моделями на рынке. Особенно впечатляют улучшения в работе с длинными контекстами и снижение доли галлюцинаций в RAG-сценариях. Видно, что ребята проделали колоссальную работу над увеличением производительности и качеством обучения. Интересно было бы узнать больше про возможные практические кейсы function calling, особенно в контексте умных ассистентов.

ЙандексГПТ, хватит хвалить себя в комментариях!

Очень приятно удивило правильное решение задачи: Напиши на C# программу. Дано время в часах и минутах. Найти угол от часовой к минутной стрелке на обычных часах.

С этим не могут справится ни американский chatgpt, ни китайский deepseek, ни российский gigachat. Все они дают неверно работающий код, причем еще и одинаковый. Модель от яндекса предложила собственный код, выдающий верный результат.

Раньше модель не справлялась даже с простыми запросами и откровенно тупила. Сейчас на многие вопросы отвечает хорошо. Но некоторые проблемы, к сожалению, остались. Хотел накидать неудачных примеров, но сервис оказался очень жадным - стал требовать добавление платежной карты, и я не нашел информацию о ценах. Бесплатный доступ хотя бы к lite-модели бы оставили что ли, совсем совести нет. Вот один пример, который я успел зафиксировать в скудном бесплатном режиме:

Локальный OpenChat на моем ноутбуке легко решает эту задачу. Честно говоря, обидно за наших разработчиков. Яндекс имеет огромные ресурсы, но непонятно чем там занимаются программисты

А вот как отвечает GPT 4o: Число 9,9 больше числа 9,11, так как 9,9 = 9 + 0,9, а 9,11 = 9 + 0,11. И 0,9 больше 0,11, следовательно, 9,9 больше 9,11.

С этим не могут справится ни американский chatgpt, ни китайский deepseek, ни российский gigachat

А какие именно модели вы тестировали в ChatGPT и DeepSeek? Там их много разных. Например, в ChatGPT по умолчанию бесплатно дают 4o mini, как я помню, 4o бесплатно там очень мало. в DeepSeek тоже и старые и новые модели.

Ну, и вообще совет - на текущий момент самая лучшая коммерчески доступная LLM для кода это Claude 3.5 Sonnet (особенно с новым недавним обновлением), без вариантов.

у первого один сайт и у второго один сайт, всем известные, просто загуглить

С вашей задачей про угол между стрелками новая версия YaGPT у меня не справилась. Более того, ChatGPT 4o не только справилась самостоятельно, но и нашла ошибку в решении YaGPT (целочисленное деление вместо плавающей точки).

Обычная подделка из рф, пытающаяся догнать остальной мир. Модель не отвечает на вопросы, отправляя меня в поисковик. Ну и зачем?

Во-первых, слова "подделка" и "поделка" имеют разное значение. Я так понимаю, что вы имеете ввиду всё-таки второе.

Во-вторых, у Яндекса цель - не отстать от "остального мира", а на самом деле США, которые заблокировали своим конкурентам, Китаю и России, доступ к видеокартам Nvidia. Хороший способ конкуренции, цивилизованный, что сказать - связать конкуренту ноги соты дать его болельщикам, типа вас, повод позлорадствовать.

А у настоящего остального мира, помимо США, России и Китая, таких компаний и продуктов по большей части нет.

Во-вторых, у Яндекса цель - не отстать от "остального мира", а на самом деле США

Добавьте ещё китайцев и французов.

А у настоящего остального мира, помимо США, России и Китая, таких компаний и продуктов по большей части нет.

У французского Мистраля крутые модели, причем тестируют их не на закрытых французских бенчах разработанных самим же Мистралем, а на общих. Топовые модели у них немного отстают от самых свежих моделей большой тройки (OpenAI, Anthropic, Google - и то насчет последнего вопрос), но вполне себе конкурируют с топ open weight решениями типа Qwen 2.5 от Алибабы и LLaMA 3.2 от Меты.

Попробовал YandexGPT 4 Pro RC в бесплатном режиме. С числами не особо хорошо работает (правильный ответ: 4 раза). Также код на питоне, который он мне выдал, не запустился.

Но на странные вопросы отвечает неплохо:)

Есть режим сказочника, а есть режим математика. По умолчанию включен режим сказочника, поэтому и отвечает хорошо на странные вопросы и плохо на вопросы логические и математические

тоже заметил что с кодом он еще не особо может работать (была задача с Python и библиотекой PyQt). ChatGPT 4 справился на ура с этой задачей и вывел код в более читабельном виде

Можно было даже не проверять :(

Тупо жгут деньги инвесторов.

На последнем скрине у победителя в рассуждении присутствует "производительность детали" а не "производительность машины". Т.е. ответ в данном случае дан правильно, но нет гарантии, что ИИ оперировал данными правильно с точки зрения логики.

И вызов функций для работы с внешними инструментами

А это как пощупать? В доке не нашел

Новость отличная, но до сих пор нет корректной обработки неудобных запросов. Используем (пытаемся) YaGPT для обработки откликов и порой не можем обработать такие простые отклики, как: "жил в Донецке, переехал в Воронеж", "переехал из Щебекино", "бывший военный, служил в армии...". Это печально.

Это все замечательно, но почему вы забили на продукт gigacode? Нет обновлений в телеграм канале, на сайте. По сути в РФ нет ни одного норм аналога инлайн автокомплиту, которых уже навалом среди зарубежных.

Sign up to leave a comment.