dmitrifriend 5 июн в 19:27

Дистилляция по-китайски: как DeepSeek R1 оказался под прицелом из-за Google Gemini

3 мин

9.8K

Блог компании BotHubИскусственный интеллектМашинное обучение*IT-компании

Комментарии 12

Плохое тоталитарное воровство чужого контента из интернета, это вам не то что свободное толерантное обучение на открытых данных

Thomas_Hanniball 5 июн в 20:55

свободное толерантное обучение на открытых данных

вы хотели сказать "свободное демократическое обучение своих AI моделей на спираченных книгах, ворованных научных статьях и других данных из торрентов", за которые не платили деньги ни OpenAI, ни Meta, ни Google.

Dhwtj 5 июн в 20:23

Дипсик прилично прибавил неделю назад. Но в рейтинги этот результат не вошёл.

kryvichh 5 июн в 21:16

Google недавно стал «суммировать» следы, генерируемые моделями

Поясните кто-нибудь?

Dhwtj 5 июн в 21:26

Видимо, при попытке массовых запросов с одного компьютера его блокирует

acc0unt 5 июн в 22:05

LLM с поддержкой размышления генерируют сначала "reasoning trace", в котором ИИ "размышляет", а потом на его основе ответ для пользователя.

Если у нас есть доступ и к размышлениям, и к ответу, то можно затюнить свой ИИ на размышлениях, чтобы он тоже думал примерно так же. Поэтому ИИ-компании начинают прятать размышления - чтобы у них не копировали наработки. Вместо полного лога они выдают очень сокращённую версию. Сокращением занимается тоже ИИ.

Narel_Wenress 8 июн в 21:36

Google начал суммировать следы, т.е. агрегировать и обобщать данные о том, как используются ИИ-модели: что спрашивают, что генерируется, как долго, какие темы и ошибки встречаются. Это нужно для улучшения качества, аналитики и обучения моделей.

StreetMagic14 5 июн в 21:48

Воруют у воров, никогда такого не было и вот опять. Вроде дипсик даже идентифицировал себя как Yandex gpt в некоторых моментах.

acc0unt 5 июн в 23:38

У ИИ спрашивать "кто ты" - занятие поганое. ИИ этого банально не знает, если ему специально об этом не сообщили. Но ответить хочет - поэтому будет угадывать.

То, что один ИИ идентифицирует себя как другой ИИ - это может быть как индикатором файнтюна на данных другой модели, так и просто протечкой через публично доступную информацию из датасета.

ssj100 6 июн в 01:12

так это ии нагалюционировать может что угодно хоть папой римским

НЛО прилетело и опубликовало эту надпись здесь

Narel_Wenress 8 июн в 17:42

DeepSeek основан на том же OpenAI, что все прочие чаты жопт и слауде. Самая лучшая модель на рынке - Грок 3.5, а не чат жопт. Я работал со всеми, самый адекватный и быстрый и лёгкий - Игрок. Дипсик на втором месте, но больше из-за бесплатности и большей склонности "не болтать, а творчески критиковать".

Обучают дипсик вообще на всем подряд. Если не ошибаюсь, там что-то делили на 2 куска, один критикует второго, второй выдает ответы и корректирует согласно критике первого.

Китайцы могли задействовать любую модель из доступных на рынке в качестве исходного черновика. И что? Они больше 25 лет так делают! И где они теперь? На вершине практически по всем технологиям. Американцы хотят сохранить свое преимущество по информационным технологиям и интернет ресурсам (по железу и инженерам они уже проигрывают), но китайцы как раз помогают и американцам и нам, подстегивая конкуренцию.

Рассчитывать на российские (форки) ИИ я не рассчитываю, никакой гарантии, никакой защиты, никакого закона, один беспредел. Не удивлюсь, если завтра сажать/штрафовать прямо по гос услугам начнут за мемы с радугой сгенерированные в любом виде начнут. И кредиты на 6666 миллионов брать на твоё же имя. Весь интернет по гос услугам (для тебя) и никаких обязательств (для правительства).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий