Комментарии 19
"языковая модель OpenAI, основанная на архитектуре GPT-4 " похоже, датасеты уже значительно загажены.
Да там скорее всего просто использовали api от openai с промптом, а всем сказали что это их модель.
Я еще про яндекс жпт такие байки слышал, что он считал себя созданным openai.
У меня уже профиксили, выдает строго: "Я — языковая модель DeepSeek-V3, разработанная компанией DeepSeek. Это искусственный интеллект, созданный для обработки и генерации текста, ответов на вопросы, помощи в решении задач и многого другого. Если у тебя есть вопросы или задачи, я постараюсь помочь! ".
Вот небольшое расследование)))

Итого: базовым трансформером являлся gpt от OpenAI, то для ответа она к нему не обращается!

Ну вы же понимаете, что она понятия не имеет о том, что она за модель, а знает про это лишь то, что в нее вложили при обучении или в системном промте? В чем смысл такого "расследования"?
Пофиксили уже😄
Привет, ты создана openai?
Привет! Нет, я создана компанией DeepSeek, а не OpenAI. Я — это искусственный интеллект, разработанный для помощи в ответах на вопросы и решения задач. Если у тебя есть вопросы, feel free to ask! 😊
Какая ты модель?
Я — это модель DeepSeek-V3, разработанная компанией DeepSeek. Моя архитектура основана на современных технологиях обработки естественного языка (NLP), и я обучена на больших объемах данных, чтобы помогать с ответами на вопросы, решением задач и поддержкой в различных темах. Если тебе интересно, как я работаю или что могу сделать, спрашивай! 😊
Нейросеть не может самоидентифицировать себя, она даже не умеет думать. Deepseek говорит, что он разработан OpenAI, потому что на русском языке модель обучали гораздо меньше, чем на английском
Насчёт самоиндентификации - модели обрастают разным помогающим кодом. Один из них может выполнять роль самоидентификации - смотреть разные файлы параметров, настройки, журналы логов и "самоосознавать" свою работу. Например, сейчас я загружена на 80%, нужно сократить размер выдаваемых токенов ответа...
А вы не думали что нейросеть это инструмент, который не может сам себя идентифицировать и выдает только тот результат, который считает наиболее точным. Если в англ. версии они пред установили такой ответ, то на русскую версию прост забили
Есть конвертации весов и квантизации для запуска на домашней машине? На koboldcpp что-то типа 70b... Пора уже Llama 3.3 70B на что-то менять, уже устарела до невозможности. Двадцать дней уж как прошло с выхода ламы...
Протестировал немного - приятно прокачали ее, на уровне chatgpt 4 точно, не в пример нашему гигачату. По крайне мере способна решать сложные логические задачки (например тут раньше была загадка про плотника с пицей и программиста с крокодилом - https://habr.com/ru/articles/806523/comments/#comment_27714724) достаточно точно и объемно выдает результат. Предыдущая версия так не могла. Что интересно, что при включении опции DeepThink начинает говорить, что она DeepSeek-R1-Lite-Preview на 4000 токенов (deepseek v3 утверждает, что у него 128000 токенов), причем отвечает значительно хуже, медленней и логические задания не способен решить.
Такое различие в самоидентификации на разных языках является необычным и заслуживает внимания при оценке возможностей модели.
на самом деле это ничего не значит)
просто данные на которых обучалась модель, приводят к таким результатам
Всё спи-жена, как всегда, или куплено, а сверху навалены дипслик изыскания, похоже на так называемые джипитис, на основе API chatGPT.
DeepSeek-V3: Китайская языковая модель превзошла Claude 3.5 Sonnet в работе с кодом