Как стать автором
Обновить

DeepSeek — новый ChatGPT, Qwen — новый DeepSeek? Проверяем модели в разработке, иллюстрациях и готовке

Время на прочтение11 мин
Количество просмотров22K
Всего голосов 45: ↑42 и ↓3+53
Комментарии33

Комментарии 33

Да отстаньте вы от этих свинных крыльев. Люди сами создали кучу всего с этими крыльями: https://www.google.com/search?q=свиные+крылья а виновата нейросеть что ли?

А на английском это вообще легальный термин, насколько могу судить: https://www.google.com/search?q=pig+wings

Почему-то забыли Sonnet 3.5, который для программирования, как по мне, используется куда чаще.

В моем личном сравнении на реальных задачах DeepSeek кстати его обогнал.

А от крылышек и правда надо отстать. Вообще не понимаю смысла подсовывать заведомо тупые условия. Вы задали вопрос - получили рецепт как раз тот, который просили. Задача выполнена в общем-то.

На волне хайпа как раз погонял тут квен. Простую программу на питоне на уровне скомпоновать три ответа из SO и переназвать переменные оно выдало на ура. Но после уточнения требований начала сыпаться вплоть до полной непригодности получаемого результата. Напоминает иностранного студента - выучил билет, но плохо понимает чего от него хотят да и сам предмет, но без тройки уйти не может, поэтому будет пытаться бесконечно (пока не кончится тепрение экзаменующего).
Для генерации ПО им нужна более четкая обратная связь, типа самостоятельного запуска и прогона тестов.

К сожалению даже с обратной связью в виде вывода результата работы программы, и описания, что сделано не так, и что нужно сделать, нейросети допускают те же ошибки при повторной генерации с учетом моих подсказок. И получается простенький код они могут писать сами, а начиная со средней сложности, нужно подсказывать, и то не всегда можно получить желаемый результат

Я тоже заметил, что подсказки правильного ответа не помогают изменить логику рассуждений нейросетей и привести к правильному ответу

В моем случае, когда нужно выбирать данные из плохих сканов pdf, многие из которых в свою очередь, преобразованы из сканов djvu , Deepseek вообще вне конкуренции.

А Qwen вообще не может OCR, ему только текст подавай...

Так происходит из-за трудностей перевода, т.к. нейросеть переводит русский язык в английский, генерирует ответ и переводит его на русский.

Это так не работает, сеть либо знает язык, либо нет.

Нейросеть с первого раза заметила подвох и упомянула, что на самом деле крылья — реальная часть свиньи. Тест на логику пройден,

Щито?

Вырванное из контекста звучит смешно. Там же написано что может подразумеваться под свиными крыльями. Реальная часть, конечно, не крылья, но её можно назвать крыльями о чем написала нейронка.

НЛО прилетело и опубликовало эту надпись здесь
Сегодняшний запрос
Сегодняшний запрос

Сделал сегодня запрос, альтабнулся, прихожу и вижу картину -- 242 секунды. Почитал ее DeepThinking, рассуждает о выборе оптимального алгоритма, выводит примеры функций.

даже что-то проверяет сам. Но нагрузка на сервера повысилась, отчего такое время "раздумий"

Никому не смущает, что и чатжопити и квэн выдали обе абсолютно одинаковых слоненка и пигвиненка, в одинаковых позах? По мне так тут "торчат уши" дикого "переобучения" - эффекта, когда сеть в реальности не тренируется обобщать, а тупо запоминает показанные примеры... Даже если поверить опенИИ, что китайцы "стырили" базу для обучения, то даже в этом случае картинки должны были быть полностью разными (да блин, они разными должны быть просто от запроса к запросу, даже если запросы одинаковые... ) На этом примере хорошо видно, что развитие ИИ зашло в очередной тупик...

У меня вопрос ко всем - собственно как работать с "информацией" даваемой этими прогами? Вот пример - меня заинтересовало что на некоторых иконах текст перевёрнут вверх ногами. Qwen -на вопрос почему - назвал книгу Сергея Четверикова "Православная иконопись: Теория и практика", где есть подробный рассказ как и почему это делается + цитаты из текста. На вопрос к Qwen - есть ли у него доступ к тесту книги? Отвеил - НЕТ! Далее, а как же он цитирует эту книгу - ответ
"Я не цитирую реальный текст книги Сергея Четверикова "Православная иконопись: Теория и практика", так как у меня нет доступа к её具体内容. В предыдущем ответе я предоставил гипотетическую цитату , которая была составлена мной на основе общих принципов православной иконописи, теологии и символики перевёрнутых текстов на иконах. Это означает, что цитата является вымышленной, но она отражает возможные мысли и идеи, которые автор мог бы высказать в своём труде".
Более того похоже такой книги вообще не существует!

Тогда - вопрос какой смысл использование этих прог для реального понимания?

А мне предложил книгу, которая в реальности называется «История античной эстетики» .

нейросети обучаются на английском, меньше на китайском языках -- по языкам их создателей. Можно спросить наши нейронки, но что-то мне подсказывает, что про иконы они не ответят. В любом случае, нейросети не на все вопросы смогут ответить корректно, к сожалению.

На вопрос годы жизни Георгия Щедровицкого Qwen правильно ответил, но отчество вместо Петрович дал Гурьевич и далее уже понеслось! Организаторов Методического кружка и год создания полная фантастика. Но включение опции "Web Search" резко улучшает ситуацию!
Получается, что за точными фактами мы должны обращаться к обычному поиску (Web Search), а ИИ нужен для генерации чего то общего!

известная проблема. Нейронка ответит, даже если не знает ответ, то придумает. Поэтому gpt и подобные не годятся для "факт чекинга", вы сами должны проверять ответ. Если это код, проверяете работу кода. Если цитата - цитату.

На вопрос "как работать с информацией", чисто мое мнение, использовать для поиска идей и структурированя информации. Дальше прокачивать умение давать правильные промты.

Еще в ноябре 22г, когда первый раз попробовал chat-gpt (тогда ее открыли для всеобщего доступа), пришла в голову такая аналогия, что общение с gpt основано на навыке делегирования. Когда вы ставите задачу сотруднику, вы сначала помещаете его в правильный контекст, учитывая понимание его навыков и способностей. От этого сильно зависит результат его работы. Раньше это было как правильно составленный запрос в поисковике.

Запомните эту дату - ноябрь 2022г. После этого интернет перестал быть прежним. Лавинообразно произошло то, что 90% контента после этой даты делается нейронками....

Спасибо - нечто неожиданное, но для старожил известное, что AI подвержен галлюцинациям! На вопрос к Qwen - а как помочь с результатами? Ответ можно оценивать, м.б в новой версии учтут.

Похоже вы правы - "использовать для поиска идей и структурирования информации ", ну и очевидное - улучшение стиля статьи, или вообще дать тезисы и далее пусть пишет, а потом откорректировать.

Следующий прорыв в нейросетях сделает тот, кто научит свою модель честно отвечать : "а хрен его знает", если данных для ответа у нее нет, а не выдумывать "как бы это могло быть".

Или хотя бы предупреждать, что "я точно не знаю, но предполагаю, что возможно..."

На вопрос по 1С она (не помню, кто именно) предлагала нажать такие кнопки в меню конфигуратора, каких там отродясь не было, но выглядело для незнающего правдоподобно.

Но 1С, видимо, нечастый кейс, и в данных для обучения был представлен мало.

А вот со скриптами на bash/python/powershell под текущие задачи сисадмина она справляется вполне годно.

Следующие прорывы, это:

-прохождение всех тестов ARC-AGI

-нейросеть уточняет у пользователя непонятные для неё моменты

-если чего-то не знает, то просит дать время поискать и разобраться

Что за ерундовые тесты вы проводите. Это как спрашивать у калькулятора 2+2. Если есть данные и она хорошо натренирована то все это у нее есть в базе. Спрашивать у таких моделей нужно то чего она не знает. Например стих или рассказ. Посложнее придумать новую архитектуру нейронки. И вот тут все они запинаются. Рассказ получается пресный и заключает в себе куски из уже созданных(например сюжет новой серии рика и морти они просто пытаются склеить много событий из прошлых серий в одну). Она не придумывает что то уникальное. Сюжет игры из разряда игр на nes. А новую архитектуру придумывают и расписывают но глючат в середине кода и выдают одни ошибки. Это просто сжатый поисковик который глючит местами. Отчего такой ажиотаж хз. Как поисковик даже хреновый так как нету в основном доступа к новым данным. Вышел новый движок и модель уже незнает что говорить. Путает 4 анрил с 5 типо знает что в новом(привет gpt) Пока нейронки более менее пишет квен. Думает дипсик типо а чатгопота гамно.

И почти очевидное - попросил Qwen дать список литературы по теме. Проверка авторов и книг указанных Qwen-ом дал почти очевидный результат - эти книги и авторы придуманы Qwen и их на самом деле нет!
Каждый раз попытка уточнить, где такая книга есть приводит к отсылке к ресурсам, где ничего подобного нет! Большинство авторов из списка Qwen - или выдуманы или произвольно взятые авторы из интернета!

у Chat GPT та же проблема, просил выдать список литературы по работе -- все книги (20 штук) не существуют. к сожалению нейросети пока что не совершенны.

Наверное мы их не по назначению используем!
Надо нам самим обучаться о чём можно спрашивать, а что не имеет смысла вопрошать!
Со списком литературы у DeepSeek получше - первая книга, хоть и называлась чуть по другому, но навела меня нужного автора!

На аналогичный запрос DeepSeek нашёл несколько реальных книг и пару раз промахнулся!
То есть Дип Сик даёт более реальный ответ на достаточно сложные искусствоведческие запросы!

Я в течение двух лет наблюдаю способность нейросетей решать реальные задачи по С++, которые обычно задаются на собеседованиях для оценивания уровня кандидатов (джун, мидл, синьор)

На сегодняшний день такие результаты (27 задачек - максимально 27 баллов, если решено наполовину, то 0.5 балла):
deepseek - 22
claude sonnet - 21,5
chatgpt - 20.5
mistral - 18,5

qwen и gemini - заметно слабее

Надо отметить, что достаточно быстро идет улучшение, за 2024 год в среднем +5
Пока плохо решаются задачи, связанные с неявным кастованием типов, и проблем, вызванных этим

Спасибо за комментарий! Полезная информация.
Я заметил, что нейронки дают "вредные советы" в модификации сложных скриптов.
при работе с api возникают проблемы, и они не всегда решаемы с помощью подсказок и переделок кода.

Подождите полгода. Следующая нейронка обучится уже на этой статье, т.к. статья набрала плюсов, и правильно удовлетворит запрос про рецепт блюда из крыльев свиньи)

Попробовал Giga Chat от Сбера - похоже он самый "вменяемый"! Возможно это первые впечатления. Посмотрим, что далее

Зарегистрируйтесь на Хабре, чтобы оставить комментарий