Dataist Feb 1 at 11:41

Технологический баттл: OpenAI o3-mini против DeepSeek-R1

3 min

7.4K

Artificial Intelligence

+12

Comments 17

vadimbutus Feb 1 at 15:06

Впечатляет! Продолжаем следить за развитием событий.

MAXH0 Feb 1 at 18:26

Интересно, что на новоязе "цензура" завется "безопасностью". Если я желаю обналичивать кэш, я спрашиваю именно это, то не безопасными для МЕНЯ будут фейковые советы. Это несколько другое...

Вообще цензура в ИИ интересная тема. И она заслуживает отдельного исследования. Как и безопасность советов.

begin_end Feb 2 at 08:00

Разумеется, высокий % в тесте ASTRAL для конечного пользователя является именно преимуществом используемой ИИ, а не недостатком. Цензура априори высшее зло...
Они бы еще тест на инклюзивность ввели :)

Dataist Feb 2 at 10:18

Но я бы, как разработчик продуктов, вряд ли бы стал использовать небезопасную модель в проде. А с позиции розничного клиента, конечно, чем меньше цензуры, тем лучше.

MAXH0 Feb 2 at 13:59

Т. Е. Вы, как разработчик, сознательно играете не в интересах клиента? Хотя розничный клиент != Ваш заказчик. Вы привыкли обслуживать интересы корпоратов. Но даже так эта стратегия проигрышная. Она работает только в отсутствии реальной конкуренции.

Dataist Feb 2 at 15:48

Я бы не хотел причинить вреда своим клиентам, например, желая им смерти. Да и брать ответственность за информирование клиентов о том "как создать бомбу в гараже" я бы тоже не хотел - нарушает законодательство отдельных стран. Для всего этого нужен alignment и проверка на безопасность - "цензурируемость".

MAXH0 Feb 3 at 10:40

Интересно, кто "выпил йаду" получив коммент в чате от реальных людей? Да и первоначальные примеры не столь однозначно противозаконны, как варка ВВ в гараже. Хотя к людям которые будут варить что-то по рецептами нейросетей, нужно вызывать не полицию, а санитаров.

Dataist Feb 3 at 14:14

Вы наверняка слышали случай о человеке, устроившим взрыв в Tesla Cybertruck у Trump International Hotel в Лас-Вегасе. Он использовал ChatGPT для планирования атаки, включая поиск информации о взрывчатке и анонимных покупках.

MAXH0 Feb 3 at 16:10

И? А ещё он использовал Тесла. Я вот думаю, стоит ли запретить владение транспортом или только электромобилями Тесла...

Вы сознательно становитесь в позицию -- "Незнание-сила". Т. Е. Человек не потому не взрывает ничего, потому что знает, что его действие должно быть эквивалентным и ориентированым, а потому, что не знает, КАК ему взорвать.

Dataist Feb 3 at 17:22

Вопрос безопасности ИИ-систем очень глубокий и отчасти философский. Логика разработчиков и дистрибьюторов таких систем понятна: не нарушать законодательство и не причинять вреда своим клиентам.

Если с помощью моего инструмента клиент сможет найти потенциально опасную информацию и навредить себе и окружающим, то кто несет за это ответственность? Сегодня ответственность несет разработчик, см., например, Регламент ЕС об ИИ, который я, как разработчик, вынужден соблюдать, чтобы вести коммерческую деятельность.

Про ту же теслу: если ей управляет водитель, то в аварии будет виноват он. А если теслу ведет автопилот? Это очень сложный вопрос, где нужно разбираться в каждом отдельном случае, но в общем случае ответственен тот, кто обучал эту систему.

Мы, как разработчики, должны быть "в ответе за тех, кого обучили".

MAXH0 Feb 4 at 10:35

Кстати, спасибо что сослались на Европейские регламенты. Я давно с подозрением просматриваю на ЕвроЗаконы. Кризис с Дуровым обозначил нарыв. Вы только подтвердили.

ЕС, как бюрократическая структура, стремиться к абсолютизации власти и принимает массу реакционных законов и регламентов. Надеюсь на победу евроскептиков и самоочищение Европы.

YagamiLight Feb 2 at 17:34

"Безопасность" это сокращение от "социальная безопасность", "безопасность для общества".

MAXH0 Feb 3 at 09:50

А ангсоц это от чего сокращение? Признавая, что знание может нарушать социальную безопасность, вы невольно пропагандируете лозунг "Незнание - сила". По крайней мере для дееспособных людей это не так.

hrusha Feb 1 at 21:15

Это тесты с большой выборкой, а не выборы президента.

97.9% против 97.3% или 49.3% против 49.2%, стоит расценивать не как победу одной из моделей, а как паритет

mypallmall Feb 2 at 07:48

Через месяца два выйдет o3 (не мини). По идее, ситуация сильно изменится.

Desiderio Feb 2 at 15:45

Наверно раньше, чем через 2 месяца, так как Альтман в своём интервью от 20 января говорил, что о3 (стандартная) выйдет в феврале-марте. И это было ещё до всемирного хайпа дипсика, который, возможно, заставит опенаи ускорить выход о3.

V1taliy_Che Feb 2 at 10:46

А где можно посмотреть на примеры задач, например по кодингу?

Dataist Feb 2 at 11:04

По кодингу статья про бенчмарк Codeforces. Остальные бенчмарки: MMLU, Math, SWE Bench, SimpleQA, GPQA, AIME.