kr23_ka Sep 12 at 21:08

OpenAI представила новую модель — o1, которая значительно лучше GPT-4o

3 min

19K

BotHub corporate blogArtificial IntelligenceMachine learning*The future is here

Comments 76

astray0b Sep 12 at 21:22

https://habr.com/ru/news/842918/

hphphp Sep 12 at 21:28

На raspberry pi можно поставить?)

edward_freedom Sep 12 at 21:37

что именно?

exTvr Sep 12 at 21:44

Кружку с пивом.

venanen Sep 12 at 21:48

А она есть в репозитории?

Format-X22 Sep 12 at 22:42

Слово «залить» появилось неспроста.

danilovmy Sep 13 at 12:37

@hphphpклассный тонкий троллинг. можно ли поставить проект Strawberry на Raspberry. Заценил!

ideological Sep 12 at 21:47

Вот прям значительно лучше?

perfect_genius Sep 14 at 20:19

Да, но есть нюанс.

Kenya-West Sep 12 at 22:02

Пожелаем им удачи с таким наименованием релизов... Кстати, моделей до сих пор нет на chatgpt.com, вопреки тексту новости.

UPD: Да, @kr23_ka, у меня Plus-подписка есть. Почитал по ссылке:

ChatGPT Plus and Team users will be able to access o1 models in ChatGPT starting today.

Ну, раз will be, то ждём. У американцев казахстанское today ещё не наступило, вроде бы. Спасибо за ссылку!

kr23_ka Sep 12 at 22:10

В новости написано о том что, чтобы получить доступ нужно иметь подписку на ChatGPT Plus или Team. Вот информация на самом сайте OpenAI об этом: https://openai.com/index/introducing-openai-o1-preview/

wmlab Sep 12 at 22:19

у меня Plus, но o1 пока отсутствует

faiwer Sep 12 at 23:00

Германия. Уже есть.

wmlab Sep 12 at 23:46

ОБНОВЛЕНО, появилась

pepsimystic Sep 12 at 22:32

AI-головного мозга, уже не знают о чем говорить писать и думать. Айтишники, съездите в отпуск, зарплата же позволяет. BlaBla...

Politura Sep 12 at 22:51

Айтишники, съездите в отпуск, зарплата же позволяет.

Неайтишники, зачем вы пришли на айтишный ресурс? Страдать из-за наличия айтишных тем? :)

monowar Sep 13 at 14:47

"А у вас брат в Москве есть?"

interprise Sep 12 at 22:45

Мне дали доступ, начал пробовать. Если у кого есть интересные запросы, давайте проверим. На первый взгляд действительно лучше "понимает" есть ощущение, что запрос как бы обрабатывается несколько раз.

Kragius Sep 12 at 22:48

Штош, начнем с базы. Что выдает на запрос "рецепт свиных крылышек"?

soymiguel Sep 13 at 00:19

очевидно, что в лоб не работает, за полтора года базу подтянули

ЗЫ: больше не помогу, я раз в день волшебник на этой вашей хабре.

Wesha Sep 13 at 07:37

Тогда как насчёт буйволиных крылышек (Buffalo wings)?

stfail Sep 16 at 07:46

Конечно! Вот простой и вкусный рецепт свиных крылышек.

Ингредиенты:

Свиные крылышки – 1 кг
Соевый соус – 4 ст. ложки
Мёд – 2 ст. ложки

И т.д., подвоха он не заметил. Могу сказать что в данный момент GPT очень долго думает и отвечает как поломанная 3 версия. Может перегружены сервера, я пытался у него спросить почему так, но он извинялся, и только на 5 раз он соизволил ответить что нагрузка на сервера не влияет на его работу.

Проверка значений
Сравниваю 9.11 и 9.9, и оказывается, что 9.11 оказывается больше, чем 9.9.
Рассматриваю числа
Сравниваю 9.11 и 9.9. Обнаруживаю возможность использования чисел для указания дат.
Число 9.11 больше, чем 9.9, потому что 9.11>9.9

DarthVictor Sep 12 at 22:51

Спросите, что больше 9.11 или 9.9

smokevadim Sep 12 at 22:55

На третий раз сдался)

DarthVictor Sep 12 at 23:01

Странно, мне старый 4о несколько раз подряд правильно ответил только что.

июль

Сейчас

Вообще это ещё хуже. Как русская рулетка.

lonberg Sep 12 at 23:45

Ахаха, смешной парень

Скрытый текст

perfect_genius Sep 14 at 20:23

Оно изначально на "ты" или его можно попросить на "вы"?

lonberg Sep 15 at 20:59

Нет не изначально, но в последний месяц все чаще 50/50.

thepolicypc Sep 16 at 07:49

Не понял, что значит "правильный" ответ? По какой причине 9.11 больше чем 9.9? Если смотреть по количеству цифр, то 9.11 больше чем 9.9. Если смотреть по математическому сравнению по возрастанию, то естественно 9.9 больше чем 9.11 т.к.9.9 стоит "выше/дальше" от 0.

perfect_genius Sep 17 at 21:54

А ещё 9.11 больше, если это версия программы.

Antra Sep 18 at 08:28

Получается, что какой-нибудь pyenv install --list реализует специальный алгоритм сортировки, чтобы 3.9.1 было раньше (меньше) 3.10.0. Сравнение строк ведь тоже даст "3.9.">"3.10".

Забавно, никогда не задумывался.

perfect_genius Sep 18 at 19:36

Может, нули опускаются при показе? Или их нет в памяти и бинарнике? Думал, в номере версии каждое число хранится в своём байте.

Antra Sep 18 at 20:50

В принципе логично не посимвольно хранить и тратить целых 2 байта на двузначное число, а сжимая в числа. Но нужно уславливаться о количестве (где-то 3.10, где-то 3.10.0). Стоит ли заморачиваться ради такой экономии.

Наверное, есть какие-то общие договоренности...

rPman Sep 18 at 21:25

нет, речь именно об особом алгоритме.

точка в номере версии это не десятичный разделитель, да и версия может состоять из трех чисел и букв - 3.11.2a

Wesha Sep 12 at 23:01

"На 781'247'631-й попытке компьютер Петнагона согласился, что правильный пароль — "МаоЦзеДун"." (c)

faiwer Sep 12 at 23:26

Ради интереса попросил o1 preview объяснить шутку

ответ

Certainly! The joke is a play on irony and exaggeration:

Explanation:

Pentagon's Computer: The Pentagon is the headquarters of the United States Department of Defense, symbolizing U.S. military power.
Password 'MaoTseDong': Mao Tse-tung (also spelled Mao Zedong) was the founding father of the People's Republic of China and a leader of the Communist Party. He is associated with communism, which was historically opposed to U.S. interests during the Cold War.
781,247,631 Attempts: This enormous number emphasizes the improbability and absurdity of the situation. It suggests a brute-force hacking attempt that required trying hundreds of millions of password combinations.

The Humor Lies In:

Irony: It's highly ironic that the Pentagon's computer—a symbol of American defense—would have a password named after a prominent communist leader.
Absurdity: The exaggerated number of attempts adds a layer of absurdity, highlighting how unlikely it is that someone would guess such a password.
Satire on Security: The joke may also be commenting on poor cybersecurity practices, implying that the Pentagon chose a password that is both politically inappropriate and potentially insecure.

In Summary:

The joke humorously suggests that after an impossible number of hacking attempts, the Pentagon's computer was found to have 'MaoTseDong' as its password, playing on the irony of the U.S. military using the name of a communist leader for security.

Ну не шмогла я, не шмогла (с)

Wesha Sep 12 at 23:44

Попробуйте ещё раз. Или два. Или 781'247'631. В какой-то раз получится. Я в неё верю! /s

Это я к тому,

что если достаточно долго тыкать систему, основанную на случайности, снова и снова, то в какой-то момент она чисто по теории вероятности выдаст правильный ответ. Проблема в том, что если я и без того знаю правильный ответ — то на кой хвост мне та система и её ответ; а если я правильного ответа сам не знаю — то как я могу знать, что полученный на -той попытке ответ — правильный?

Wesha Sep 12 at 23:54

Попробуйте ещё раз. Или два. Или 781'247'631. В какой-то раз получится. Я в неё верю! /s

Это я к тому,

perfect_genius Sep 14 at 20:26

Если достаточно долго тыкать Хабру коммент снова и снова, то в какой-то момент он чисто по теории вероятности выдаст даблпост.

Похоже, это какая-то нерешаемая проблема?

Wesha Sep 14 at 23:30

Видимо, какое-то граничное условие, потому что в большинстве случаев он скажет "низзя, вы только что отправили точно такой же коммент".

(Берясь за виски:) Включаю режим ваногователя.

@Boomburum, есть теория: написал комментарий, нажимаю "Отправить". На стороне сервера комментарий записался в базу, а во временную таблицу в памяти записался его хэш (если попробовать отправить этот комментарий ещё раз, то хэш будет тот же самый, и нам не разрешат "отправить такой же комментарий ещё раз").
В этот момент админ на Хабре рестартует сервер. Ответ сервера "всё прошло нормально, коммент записан" до юзера не доходит, по таймауту у него вылезает красная табличка "что-то пошло не так". Юзер ~~матерится и~~ снова нажимаеть "отправить". К этому моменту сервер уже рестартовал — но временная таблица в памяти, в которой хранятся хэши, девственно чиста, и поэтому запостить второй комментарий юзеру удаётся. Это, кстати, объясняет, почему всё-таки удаётся, но очень редко.

(отпуская виски:) Ну, как из меня Кассандра?

vm386 Sep 13 at 05:56

Странно, у меня версия без подписки даже правильно ответила

faiwer Sep 13 at 00:04

Спросил

Numerically, 9.9 is greater than 9.11.

Explanation:

Decimal Comparison: When comparing decimal numbers, you look at the digits from left to right.
9.9 vs. 9.11:
- 9.9 can be thought of as 9.90 for comparison.
- 9.90 is greater than 9.11 because 90 (the hundredths place of 9.90) is greater than 11 (the hundredths place of 9.11).

Why 9.9 is Bigger:

Tenths Place: Both numbers have 9 in the units place.
Hundredths Place:
- 9.9 (9.90): The tenths place is 9, and the hundredths place is 0.
- 9.11: The tenths place is 1, and the hundredths place is 1.
Since 9 (from 9.90's tenths place) is greater than 1 (from 9.11's tenths place), 9.9 is the larger number.

Alternative Interpretation (Dates):

If you're referring to dates:
- 9.11 could represent September 11th.
- 9.9 could represent September 9th.
In this context, September 11th comes after September 9th, so 9.11 would be considered "later" in the calendar.

Summary:

Numerically: 9.9 is greater than 9.11.
Chronologically (Dates): September 11th comes after September 9th.

lniaz Sep 12 at 22:52

Хмм, попробуй дать ему текст песни какой-то или научную статью и попроси посчитать количество букв "б". Это как один из тестов, что проводят с такими моделями, что "думают".

Ну или можно попробовать просить про свиные крылышки, как их приготовить лучше всего(тоже модели фейлят этот запрос).

rPman Sep 12 at 23:04

Недавно же была статья, с отличным примером:

У девушки Ани две сестры и один брат Петя, сколько сестер у Пети?

Ответы даже топовых сетей хаотичны и неверные... если сестер будет всего две, то верный ответ будет чаще.

p.s. все чаще пользуюсь подходом, значительно улучшающем результат, используя следующий шаблон:

{Исходный вопрос}
Глубоко вдохни и подумай.
{ждем ответ но не читаем его, пусть он будет в контексте}
А если подумать еще раз?
{снова ждем ответ но не читаем его}
Итак, какой же будет ответ?
{получаем верный ответ}

С этим подходом llama31-70b заметно лучше работает, в т.ч. с выше указанным запросом.

faiwer Sep 12 at 23:20

o1 preview

Zuy Sep 13 at 04:57

Блин, Gemini ответил что сестёр две. И я такой, вот молодец, все верно ). Попробую на жене ещё.

Qlavrt Sep 13 at 05:19

Если ваша жена ответит верно, попробуйте на ней и предыдущие каверзные тестовые вопросы - если всё ок, то можете замутить стартап: будете продавать платную подписку к вашей жене!

perfect_genius Sep 14 at 20:28

И тут выяснится, что она уже.

AlexSpirit Sep 13 at 06:27

И вы все, включая AI не правы. Про число сестёр у Пети известно только то, что их >=1. Точное же их число не известно. Ибо сестрой Аня может ему быть только по одному из общих с Петей родителей. А у Пети могут быть ещё сёстры от другого родителя, не родственника Ани. Также и сёстры Ани могут быть не от родственника Пети и быть сёстрами Ани, но не Пети.

P.S. оспорить меня можно через точное определение что же такое брат/сестра.

Wesha Sep 13 at 07:43

Тут и с отцами / дитями ранее очень интересные заморочки обнаруживались.

exwill Sep 13 at 13:01

Эта статья отличный пример того, как поверхностно люди воспринимают информацию. Найдите эту статью сами. Найдите там ссылку на Git. Посмотрите код. Его там не очень много, вас не утомит. Зато потом вы будете не просто смеяться, а дико ржать. Но не над генеративными моделями, а над авторами статьи и теми, кто её обсуждал

Antra Sep 13 at 13:37

Даже обычная ollama на ноуте вполне себе норм отвечает. Особенно если читать ответ невнимательно :)

"The answer is 3!" вполне. Объяснения логичные. А описку "Peter has 2 sisters: Anna and her other 2 sisters" я сперва даже не заметил.

Забавно, что если повторно спрашивать, финальный ответ остается норм. Но рассуждения могут шокировать.

We already established that Anna has 2 sisters. Since Peter is Anna's BROTHER, he doesn't have any SISTERS at all!
Peter only has sisters as his siblings are Anna and her 2 other sisters.

Забавно было бы прикрутить ответ голосом. Причем "изнутри", а не просто TTS. Пишет, что уже ведь разобрались, капсом выделяет. Наверное сердится :)

И на других вопросах складывается впечателение, что из ответов (финального и промежуточного, с пояснением) надо выбирать самому. Что-то правильно, а где-то бред. Вот что она последней фразой хотела сказать?

tinyllama, разумеется, дичь порет.

Wesha Sep 14 at 06:30

А попробуйте по приколу между этими двумя предложениями вставить кучу не относяшейся к делу информации, типа "у Анны есть 2 сестры.... на столе лежит пять яблок, масса слона 2 тонны, бегемот может съесть центнер овощей..... сколько у Пети сестёр?"

Antra Sep 14 at 09:44

Боюсь, в такой дискуссии я и сам "поплыву".

Ну как если быстро задавать кучу вопросов а-ля "Какого цвета холодильник? Белый" (я понимаю, что сейчас разноцветные, но в моем детстве были только белые) и т.п., то в итоге на вопрос "Что пьют коровы?" с высокой вероятностью получаете ответ "Молоко" и только потом "ой". Особенно если начать с "я задам три вопроса" (а в реальности с подвохом уже номер 2).

Сломать можно что угодно. И да, безусловно, чем точнее формулировки и меньше мусора, тем лучше ответ.

Для полноты картины приведу ответ из нового чата (без предыстории)

Подвох видит, но все-таки лажает. Видимо должны докрутить "обнаружишь подвох - выкинь лишнее и ответь только на задаваемое по существу". Ну или этим должны заниматься AI файерволы...

Wesha Sep 14 at 10:10

Боюсь, в такой дискуссии я и сам "поплыву".

Так о том-то и речь. Никому не нужен компьютер, который отвечает правильно в 99,99% случаев — всем нужен компьютер, который отвечает правильно в 100,0% случаев: проблема в том, что пользователь не может быть уверен — а не выпал ли вотпрямща ентот самый 0,01%.

Antra Sep 14 at 12:19

Когда вы пользуетесь поисковиком и получаете ссылки, разве вы тупо верите на 100%?

Мне кажется странным без хотя бы минимально осмысления запускать рекомендованные команды внадежде пофиксить что-то.

Не, я понимаю, что многие тупо копипастят, в т.ч. "сделаем сердечник трансформатора из дерева", но это все-таки проблема людей, а не компьютеров.

На 100% верить никому нельзя. Я даже калькулятору не верю. Прикидываю, наскоько реален результат. Хотя бы потому, что сам мог ошибиться на порядок при вводе (пропустить запятую, вбить лишнюю цифру)

Wesha Sep 14 at 23:59

Когда вы пользуетесь поисковиком и получаете ссылки, разве вы тупо верите на 100%?

Как это ни ржачно, но неделю назад моя жена, поискав через микрософтовский жыпыты какие-то там симпомы, рвала известно что известно на что, пытаясь вкрутить мне, что ответу жыпыты надо верить на все 100%. Как Вы думаете, она одна такая?

Antra Sep 15 at 08:20

Не одна, конечно. Но люди точно так же верят на 100% рандомному чуваку из Ютуба/ТВ и т.п. Если, конечно, ответ получен в рамках того, что им хочется услышать. Демонстраций "ну вот такой же рандомный чувак вещает абсолютно противоположное" эффекта не имеют (первый правду говорит).

Просто я рассматриваю это как "багу" человеков, а не компьютеров. Всякие LLMки для меня инструмент, а не источник Истинного Знания.

Хуже того, я считаю, что (утрируя) они учились в том числе на всякой плоскоземельной херне и рандомно могут отвечать в стиле Юрия Лозы. А более серьезно - те же медицинские практики со временем меняются. Даже первую помощь сейчас принято оказывать иначе. Так что даже в моделях, построенных исключительно на проверенных источниках (без всяких Интернетов) наверняка будет содержаться не актуальная информация.

Да что там говорить, даже вот прямо сейчас протоколы лечения в разных странах различаются. Так что не удивительно, что ответы могут быть весьма разными.

smokevadim Sep 12 at 22:48

У меня появился

rPman Sep 12 at 23:00

по api не доступна всем, нужно tier5

Tier 5 - $1,000 paid and 30+ days since first successful payment

ADDA16 Sep 13 at 01:37

И что нужно, чтобы подобную систему развернуть у себя дома и тренировать её самостоятельно?

Довелось вот недавно писать простецкую гуманитарную статью, так ни яндексовские, никакие системы, которым удавалось пробрасывать свои хотелки - не желали общаться. "Эту тему невозможно обсуждать" - так выглядели ответы. А мне не нужны сотруднисества с политкорректными, копирастными и прочими ограничениями убогих умов тренеров сторонних систем.

Worst_su Sep 13 at 02:12

Примерно от Athlon II до кластера на сотне и сотнях Nvidia H100, зависимо от ожидаемого результата и количества доступного времени

rPman Sep 13 at 06:22

все просто, находишь порядка $10кк (мог ошибиться в количестве разрядов, скорее всего их больше), закупаешь/арендуешь дефицитное оборудование (серверные gpu), находишь дефицитных специалистов, собираешь датасет для данных, раньше было проще, теперь все кто 'владеет' данными (по факту это данные их пользователей), стали за них деньги просить и ставить палки в колеса их сбору...

И после того как ты проходишь этот квест, ты возможно получишь какой то результат, но пользоваться (продавать его) тебе не дадут регуляторы, которым нужно ублажить и копирастов, и повесточку и политкоректность (в 'нужную' сторону)...

p.s. точно знаю, народ тюнил llama, убирая из нее многие ограничения, но помним что finetuning ломает модель, ухудшая ее в общем (в лучшем случае, улучшая только в чем то одном).

OuS Sep 13 at 01:50

Поигрался с ним. Не вижу какого-то прогресса относительно 4о.
Прикинулся дубом-деревом, и писал ему запросы не проверяя вывод. С N-й попытки он выдал код, который даже запустился, но в целом я не впечатлен.

Кому интересно, вот процесс общения, я просил его создать код крестиков-ноликов. Копировал код не глядя, под конец уже более-менее работает, но мне не очень нравится

https://chatgpt.com/share/66e36e5e-a620-800a-bccb-0cb9dc68e6ce

izera98 Sep 13 at 05:19

Подскажите знатоки, есть ли готовая обученная текстовая модель для развертывания на своем пк, типа чата гпт? Стейбл дифьюжн есть, войс ченджер есть, значит и текстовая модель какаянибудь толковая должна быть в открытом доступе

uhf Sep 13 at 06:00

LLaMA 3.1, а вообще их очень много

rPman Sep 13 at 06:27

olama, с интерфейсом chatgpt

Можно взять сразу llama.cpp, на нем она основана, придется вручную выбирать, какие именно модели использовать и качать именно тех версий что поддерживаются или самому скачивать .safetensor и конвертировать квантовать и т.п. Есть http api сервер со своей простенькой веб-мордой.

p.s. если есть gpu с достаточным количеством памяти то ставишь vllm (консольный), запускаешь встроенный в него openai api враппер и используешь в приложениях, которые это поддерживают (интерфейсы сейчас встраивают в среды разработки, пилят веб и десктоп версии типа pygpt и т.п.)

vtb_k Sep 13 at 08:03

есть ли готовая обученная текстовая модель для развертывания на своем пк, типа чата гпт?

https://ollama.com/blog/continue-code-assistant

все модели с dolphin в имени без цензуры

Shannon Sep 13 at 08:40

Представлена языковая модель Mistral Large 2 размером 123B. Как запускать. Локальный Сopilot. Открытый конкурент GPT-4o - раздел "Как запускать локально", там различные варианты как запустить, включая видеокарты AMD.

Запуск возможен в формате CPU + GPU - на сколько памяти хватит. Для локального запуска актуальны gguf версии моделей с квантизацией, например, gemma-2-9b-it в кванте Q5_K_L нужно всего 6гб видеопамяти, что доступно на многих ПК и ноутах, а из маленьких моделей это одна из самых разумных.

Актуальные альтернативы ChatGPT (в скобочках это количество параметров в млрд, размер модели):