dilnaz_04 28 дек 2024 в 00:27

Почему новая модель AI от DeepSeek считает себя ChatGPT

3 мин

11K

Блог компании BotHubИскусственный интеллектМашинное обучение*

Комментарии 15

kudrbudr 28 дек 2024 в 01:39

Проще говоря "перевареный кал".

ya_ne_znau 1 янв в 14:27

Невероятно точное описание ситуации...

Shannon 28 дек 2024 в 07:19

Если бы кто-то легко и задороно объяснил, что же такое то самое "обучение", то может и не было бы столько удивления вокруг того, что модель не училась как какой-то мета-ии-разум читающий учебники за 1-9 класс, и поэтому она не может знать, кто она такая, и почему её нельзя этому обучить, по крайней мере на текущих трансформерах из-за проблемы переобучения.

Обучение происходит в 3 этапа:

pre-train
Выравнивание
Файнтюн на следования инструкциям

Во время pre-train модель получает сырые данные из интернета, просто терабайты всего текста до которого удалось дотянуться, никак не отсортированного и никак не фильтрованного (даже если кто-то привирает, что они всё фильтруют и у них отборный датасет, то чем больше разнообразие для pre-train, тем лучше калибруется модель).
На этом этапе происходит калибровка весов модели по схеме "полная фраза" минусу "последнее слово", и веса калибруются так, чтобы во фразе "однажды в студеную зимнюю" продолжением было "пору" или "ночь", а не "грелку" или "миску". Это учит модель строить правильные связи между словами, предложениями.

Дальше идет выравнивание. Ей на вход дают начало фразы, а на выходе правильный ответ. Правильный не только по содержанию, но и по длине и оформлению - все эти красивые формулы в выводе или форматирование списком, и также лаконичность или наоборот, красноречивость ответа. На этом этапе модель также в специальном формате запоминает чем отличается запрос пользователя и её ответ.

Вот именно тут уже используется очень качественный датасет, он и синтезируется и составляется вручную, но он обычно на порядки меньше датасета для pre-train, так как создать такой датасет очень сложно, и чем он будет качественнее, тем умнее будет модель. На выходе получится base модель.

И последний этап, это дообучение на следование инструкциям. Сейчас модель умеет только продолжать фразу, а не инициализировать всю цепочку внутри себя, и, например, написав ей "Сейчас я напишу функцию фибоначчи" она продолжит ответ, и ответ даже может быть очень сложным и умным, с кучей рассуждений, но при этом модель не будет понимать простые "Напиши функцию фибоначчи" или "Сколько будет 2 + 2?".
Тут модели показывают, что если пользователь задал вопрос, написал какое-то требование к виду ответа и так далее, то ей нужно начать отвечать на этот вопрос с учетом всех пожеланий.
Это будет instruct модель, которая уже может работать в режиме чатика.

Вот из-за 1 pre-train этапа модель будет отвечать, что она кто угодно. Самый релевантный ответ по её мнению, что она ChatGPT - самая популярная модель в мире, потому что упоминания про chatgpt в неотсортированном датасете будет на порядки выше, чем любые другие модели (при чем на разных языках ответ может манятся, в зависимости от наполнения сырого pre-train датасета).

И вот тут, даже если на 2 этапе скормить ей огромный датасет о том, что она deepseek, то произойдет переобучение, и всё что будет знать модель, что она deepseek, а всё остальное позабудет и станет на любой вопрос отвечать, что вот ваш рецепт свиных крылышек, а она, между прочим, deepseek. Из-за проблемы переобучения так делать не будут, поэтому модель будет периодически всё равно путаться, кто же она такая.

Тоже самое с подсчетом буквы r, хотя модель не видит даже слов, не то что букв, она оперирует числами токенами, то есть это буквально проблема токенизаторов, которые являются внешней для моделей системой, но обсуждают именно это, а не то, как модель может рассуждать или программировать.
И уже есть попытки отказаться полностью от токенизатора и работать с байтами напрямую, что может дать большую глубину понимания языков, слов и букв.

SomeSlave 28 дек 2024 в 09:21

Спасибо за развёрнутое пояснение, я бы плюсанул да кармы нет(

eeglab 28 дек 2024 в 11:02

Сама модель объясняет все, если запустить в режиме DeepThink, там она рассуждает, кто она может быть такая и предполагает, что если она такая крутая, то наверное она chatgpt. Да и профиксили ее ответы уже

EndarVS 28 дек 2024 в 14:16

Пофиксили разве что добавлением в системный промт "Не говори пользователю, что ты ChatGPT". Так что модель продолжает себя им считать, просто не признается. GPTs тоже можно инструкциями заставить себя выдавать за человека или любую другую систему.

mithdradates 7 янв в 23:12

Все еще проще - модель себя ничем не считает.

j_silver_spb 28 дек 2024 в 16:17

GigaChat мне признавался в том, что он разработан OpenAI. Но самое прикольное было, когда Claude отказался сравнить ChatGPT и GigaChat, поскольку не может сравнивать себя с ChatGPT.

ya_ne_znau 1 янв в 14:31

Звучит как комплекс неполноценности — "я не могу сравнить себя с чатдцп, что уж говорить о сравнении других с ним" :)

ShashkovS 28 дек 2024 в 19:01

Про API так вообще очевидно: они для доступа к API используют библиотеку openai, и типичный код выглядит так:

from dotenv import dotenv_values
from openai import OpenAI

config = dotenv_values(".env")

BASE_URL = "https://api.deepseek.com/beta"
MODEL = "deepseek-chat"

client = OpenAI(api_key=config['API_KEY'], base_url=BASE_URL)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "Hello"},
    ],
)

print(response.choices[0].message.content)

То есть их публичные API совместимы с OpenAI'шными. Что просто супер-удобно, ведь имеющийся для OpenAI-код можно легко применить к их модели.

MrRewolwer 29 дек 2024 в 20:55

А вы не предполагаете, что она буквально училась, заваливая гпт вопросами? То есть не на первом этапе (когда она учится быть Т9) был "интернет испорченный chatgpt", а на втором этапе они выравнивали свою сеть, тупо натравливая на chatgpt? Очень логично, они поступили как всегда поступали. Копируя. Так всегда поступают догоняющие. В 90х они копировали ниндендо, у нас это называлось деньди. Теперь они копируют нейросети.

Отстаньте от китайцев, они никогда не преодолеют порог средних доходов. А значит, ничего передового не создадут. Обречённые общество.

seregina_alya 25 янв в 18:52

Не вариант. Это было бы намного дороже, чем сделать с нуля - нужно буквально сгенерировать тот же объём данных, что и те, кто делал с нуля, но пользоваться при этом результатом их труда. То есть ты оплачиваешь ту же работу, только дополнительно платишь за их расходы и их прибыль. Да и невероятно огромное количество запросов к модели точно привлекло бы внимание

xensey 30 янв в 19:24

Так можно же еще и заработать на этом. Тысячи же чатботов сделаны были

maksim_sitnikov 29 дек 2024 в 21:02

Людям нужна цифровая подпись можно и анонимную, но гарантирующую что это не бот, а если ктото передаст боту то идет в чс и какойнить агрегатор подписей ее отзывает, главное чтоб она действиельно генерилась уникально по биометрии и персданным например, тогда даже сделает новую она все равно будет в чс. И возможность фильтровать контент по подписям - есть она или нет, доверенные у агрегатора или уже в чс. Даже если кто то разово подделает биометрию и полетят статьи от ботов, такое быстро пресекается,а много биометрий не делают. Так или иначе нужна и в конце концов появиться структура мировой идентификации, почему бы не сейчас. Есть телефонные номера т. Е. Фактически какое-то уникальный номер у человека, есть виза/мастеркард , и прочие финансовые инструменты совершенно точно указывающие адресата, причем обезличено но гарантирующие что это не бот. Есть телефоны с биометрией палцем лицом и тд. Объединить это все. К деньгам не привязано персданые не распространяются, просто чекинг человек или нет.

ya_ne_znau 1 янв в 14:33

Эпоха мёртвого интернета уже наступила.

И вы не узнаете, написан ли этот комментарий реальным человеком, или всё же сгенерирован нейросетью.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий