dilnaz_04 21 дек 2024 в 09:59

OpenAI анонсировала передовые модели o3 и o3-mini

2 мин

11K

Блог компании BotHubИскусственный интеллектМашинное обучение*

+15

Комментарии 7

mypallmall 21 дек 2024 в 16:02

Очень сомневаюсь, что мы увидим o4 в 2025. OpenAI говорит, что скорость выпуска новых поколений «моделей рассуждений серии o» будет в разы выше, чем релиз моделей GPT. Но на Reddit AMA два месяца назад они сами сказали, что pre-training играет не меньшую роль, чем test-time compute.

То есть всё равно есть необходимость строить громадные суперкомпьютеры для pre-training. А постройка подобных кластеров занимает очень много времени.

Dron007 22 дек 2024 в 01:41

У Маска 122 дня заняло. Тут больше в деньгах вопрос, чем во времени.

BlackMokona 22 дек 2024 в 08:57

Это Маск, он такой один.

https://3dnews.ru/1112457/ilon-mask-ustanovil-100-000-videokart-nvidia-h200-za-19-dney-obichno-eto-zanimaet-4-goda

Для понимания масштаба события, генеральный директор Nvidia Дженсен Хуанг (Jensen Huang) объяснил, что типичному дата-центру на выполнение подобной задачи требуется около четырёх лет. При этом три года уходят на планирование, а последний год — на доставку и установку оборудования. Хуанг выразил восхищение скоростью и масштабом проекта, назвав усилия Маска и его команды «сверхчеловеческими». «Илон Маск — это сверхчеловек. То, на что у других ушёл бы минимум год, он сделал за 19 дней», — отметил Хуанг. Процесс включал, в том числе, запуск первого тренировочного прогона искусственного интеллекта xAI на недавно построенном суперкластере

Поэтому всем остальным строить намного дольше, даже при наличии денег

Dayder 25 дек 2024 в 17:52

Они уже слили информацию The Information, что они делали много раз до этого. О том, что o4 будет, и скорее всего будет основана на gpt модели Orion, которая считается либо за также недавно слитый (включили ненадолго в описание Pro подписки за 200$) GPT-4.5, либо 5.0. Смотря как они её возможности сами оценивают, так и назовут, чтобы грамотно отыграть с ожиданиями публики. И готовится к выходу она в ~1-2 квартале 2025.

(O1 и o3 основаны на GPT-4 или 4o)

Там уже идёт замкнутый круг самообучения. О1 и подобные модели улучшают, делают более связанными, подробными и категоризированными тренировочные данные из интернета, на чем тренируется следующая GPT-модель. Затем она служит основой для также автоматизированного натаскивания в решении сложных задач, формирующего следующую "рассуждающую" модель.

Также с новой основной моделью добавляют новые архитектурные изменения, над которыми работали и которые достаточно отполировали.

Со временем (скоро) этот подход сольется воедино, и будет 1 модель с постоянным дообучением. Но для этого нужны некоторые архитектурные улучшения. И если после этого что-то сильно новое появится, в плане архитектуры, что не сомювместимо с имеющимися моделями, то придётся перетренировывать. Благо, улучшенные и глубокие тренировочные данные у них уже есть, как и модели, что помогут с обучением новых версий.

У них многое уже +- распланировано на "AGI" в 2025, исходя из того, что я видел/читал. И постоянные увходы частей их команды безопасности, основателей, и крутых учёных, что были с компанией с самого начала, а также "бунт" Ильи Суцкевера и увольнение Сэма Альмана в прошлом году, все это от эмоционального перегруза от того, что они видят, осознают, и с чем экспериментируют. И разногласий на то, что делать в будущем.

Знают, что по сути участвуют в создании чего-то гораздо значительнее ядерной бомбы, и это уже близко.