Lithium_vn 4 апр 2024 в 16:25

Google наносит ответный удар по совместному проекту Microsoft и OpenAI

2 мин

21K

Блог компании BotHubМашинное обучение*Искусственный интеллект

+31

Комментарии 48

xkb45bkc4 4 апр 2024 в 16:38

Создается впечатление, что Гугл понимает свое отставание и инвестировать в свои дата центры не хочет. Вот только кто им по всему миру мощности предоставлять будет не понятно. Возможно есть вариант брать отдельные мощности в аренду и это выгодней чем строить свое, но цены на специфические железки кусается и не понятно потом что сними делать, если их арендовать перестанут. Кажись не чего у них не выйдет.

Quiensabe 4 апр 2024 в 16:47

Возможно речь об использовании ресурсов конечных пользователей. У Гугла как раз есть доступ к немаленькой аудитории.

Если бы вместо 20$ за GPT я мог поставить в Хроме галочку и тратить 5% ресурсов компьютера в простое на ИИ, взамен получая более умные/быстрые ответы - это был бы очень интересный вариант...

SUNsung 4 апр 2024 в 16:52

Майнер на пользовательском устройсве?

И так чем дальше тем хуже продукты - тот же андроид.

Не верю что шардирование расчетов по устройсвам будет быстрее сервера (так как там очень важна оперативка и единое пространство памяти).

Так же не верю что это решение будет работать как ожидалось и "забирать" всего 5%, учитывая все продукты гугла

Vsevo10d 4 апр 2024 в 18:01

Майнинг шмайнинг... выросло поколение, не знавшее распределенных вычислений.

SUNsung 4 апр 2024 в 18:03

Выросло поколение не владеюшее базовыми понятиями..

Учитывая что подразумеыались две разные ситуации, при тождественной исходной

xkb45bkc4 4 апр 2024 в 17:05

Возможно речь об использовании ресурсов конечных пользователей.

Уверен что это вообще не возможно и экономически не оправдано и по скорости обучения на порядки ниже чем на спец железе в дата центре.

Призываются специалисты по нейросетям, что бы объяснили специфику обучения нейросетей. На кой там нужны большие объемы видеопамяти и почему нельзя использовать оперативную память при нехватке первой например.

geher 4 апр 2024 в 18:11

На кой там нужны большие объемы видеопамяти и почему нельзя использовать оперативную память при нехватке первой например.

Для обучения обычно используются процессоры видеокарты, более приспособленные к специфической математике нейросетей (перемножение матриц, например). Обычную оперативку в принципе использовсть можно, но тогда придется гонять промежуточные данные по внешней шине карты, что неэффективно. Это как нехватка обычного ОЗУ с подкачкой на диске. В качестве экстренной меры может и прокатить, но лучше так не делать.

Ilusha 4 апр 2024 в 20:15

100млн компьютеров, которые оставили на ночь молотить кусочек одной задачи возьмут банальным количеством.

Нужно придумать только причину «зачем это нужно простым пользователям».

Format-X22 4 апр 2024 в 21:38

…и убедится что решением задачи не является эксплоит.

vaslobas 5 апр 2024 в 05:26

В чем профит этим 100 миллионам пользователей оставлять свои компьютеры на ночь?

Когда я вступал в проекты BOINC типа SETI Home, то я знал что это фо фан такая штука не коммерческая.
Когда я майнил, то знал, что падает какая-то копейка, а вначале было вообще прикольно.

А тут какой профит мне жечь электричество ради блага одной из самой богатой корпорации нашей планеты?

То что они типа опенсорс делают сетку я в это не верю.

UncleSam27 5 апр 2024 в 08:15

Вам будет интересней оставлять компьютер на ночь, если вознаграждением будет последующий "бесплатный" доступ к результатам работы обучаемой нейросети? Думаю будет ставка на что то подобное.

indrej 5 апр 2024 в 12:02

Торренты оставляли на ночь от безысходности. Кто сейчас будет это делать? Ради мифической выгоды в виде "более качественного результата нейросети", который завтра с релизом конкурирующего продукта превратится в тыкву?

RahimovMEP 9 апр 2024 в 05:23

Вы недооцениваете раздающих, которые на ночь оставляют компьютеры ради "благой цели" или циферок в топах по раздающим (статистика отданного в профиле).

До сих пор так делают. Я, например, чтобы не жечь много электричества поставил NAS и торрент клиент на роутер.

Выше правильно подметили про BOINC: когда-то мы не только игрались, а и из благой цели учавствовали в Folding и SETI.

Конечно, не абсолютное большинство, но энтузиастов немало

Medeyko 4 апр 2024 в 22:25

По логике вещей, разреженные нейросетевые модели может получиться тренировать с использованием распределённых вычислений...

Murtagy 5 апр 2024 в 06:42

Например для BigQuery у гугла множество локальных субподрядчиков. Как-то справляются с ворочанием данных по всему миру

mynameco 4 апр 2024 в 16:49

А мне кажется. Что ai обучение не масшабируется. Нельзя разделить задачу. При поиске внеземной жизни, там просто куски неба и сигналов разпределяли.

А тут граф графа и графом погоняет. Неразбиваетя на кусочки. Ибо в основном обмен данными, между нейронами.

mixsture 4 апр 2024 в 18:43

Можно делить исходный массив примеров на небольшие куски и каждый обсчитывать на отдельном компьютере. А потом от каждого такого компьютера брать смещение весов относительно начала операции, передавать их на сервер и объединять с основной моделью. Мне кажется, это теоретически возможно.

Deosis 5 апр 2024 в 03:52

GPT-4 содержит более триллиона параметров,
Для обучения на клиентском устройстве понадобится выделять отдельный диск и отдельный канал связи.

AlexEx70 5 апр 2024 в 06:39

Откуда инфа про триллион?

Deosis 5 апр 2024 в 08:02

Первая страница поиска

AlexEx70 9 апр 2024 в 07:51

Там только какие-то догадки и слухи, официальной информации нет.

wavan2012 5 апр 2024 в 04:29

Это абсолютно точно возможно но вырастает требование к общим вычислительным мощностям, как и с примером спаренных видеокарт 1x+1x не будет равен 2x, а меньше

Arlekcangp 5 апр 2024 в 04:59

Можно, но проблема в другом. Нужны данные. Причём в том виде в котором оно есть, это скорее генерализованный поиск, а не искусственный интеллект. Почему так? А потому что обработка им данных больше похожа на индексацию, чем на обучение. Смысл обучения - построить алгоритм, умеющий находить закономерности в данных и обобщать их. Если со вторым LLM справляется на 3- то с первым оно никак не справляется. И сколько данных ему не скорми, ситуация не улучшается. Оно как не умело в простейшие рассуждения, так и не умеет. Даже наоборот, обобщающая способность падает и это очень похоже на то как ведут себя поисковые движки. И теперь два дня назад я уже видел заявление, что для gpt-5 не знают где взять данные для обучающего корпуса, т к интернет (по крайней мере его вменяемую часть) они уже выгребли при обучении gpt-4... Правда с этой же проблемой столкнётся и "супер-ИИ" от мелкомягких. Но у них хоть вычислительный кластер останется от этого проекта. Потом военным сдадут в аренду, как обычно. Или распилят на мелкие части под облачные вычисления ?

rapidstream 5 апр 2024 в 06:36

Если уж нести чушь, то полную, да?

Wakeonlan 4 апр 2024 в 17:24

Так вот куда хром жрёт память

Dimmirslr 4 апр 2024 в 17:39

Эта битва будет легендарной

sneg2015 4 апр 2024 в 19:11

Торрент для обучения нейросетки. Интересная идея.

Yaschik 4 апр 2024 в 23:01

И более того - уже долгое время работающая в OSS:

https://github.com/bigscience-workshop/petals

kos_s 4 апр 2024 в 19:29

Может ли корпорация ставшая злом, нести добро, в попытке обойти своих конкурентов?

tenzink 5 апр 2024 в 04:59

Вы считаете, что google этим проектом несёт добро? Мне кажется, что он это делает исключительно для себя

ludwic 5 апр 2024 в 09:16

Звучит как тема для экзамена по философии или экономике

YernarShambayev 4 апр 2024 в 19:35

Распределенные вычисления, кстати - прекрасная мысль!

wmlab 4 апр 2024 в 19:40

Крайне сомнительная затея, учитывая что на нодах требуются мощные видеокарты. Если у кого-то такие мощности есть, вряд ли они простаивают. А на CPU серьезно сети не погоняешь, даже если этих CPU много. Да и в комментах уже упоминали плохой параллелизм обучения.

plFlok 4 апр 2024 в 20:02

Если для обучения нейросеток нужны карты типа nvidia titan (по 400-500к рублей каждая), которые заточены под корпоративный сектор и слишком большие модели, то на что рассчитывает гугл, если у большинства юзеров места в видеокарте и оперативке не хватит даже для хранения такой модели, не то что обучающих выборок? Что все эти данные будут постоянно читаться и записываться с hdd/ssd/флешки телефона? так там замедление будет в сотни раз по сравнению с обычным обучением + будет убиваться ресурс храниища.
А потом мой единичный результат надо будет синхронизировать с результатами других людей. И что если наши модели при обучении будут находить разные "локальные минимумы" ошибок? Как эта задача вообще параллелится?

Как-то пока объяснение концепции выглядит оооочень непонятно.

Quiensabe 4 апр 2024 в 21:14

Не все так однозначно. Дообучение сетки можно производить не загружая ее целиком.

Так делают например энтузиасты развивающие Stable Diffusion - они тренируют небольшую подсеть на конкретном узком классе изображений, а потом миксуют веса с основной моделью. Такой процесс требует в тысячи раз меньше ресурсов чем обучение полной модели. Фактически такое дообучение можно делать даже на слабых видеокартах, хотя времени может уйти много.

Если гугл смогут пойти дальше и создать такую распределенную систему. Это может стать интересной альтернативой.

На ПК, кстати, варианты не заканчиваются. Индустрия дружно занялась роботами для дома, где должны быть очень хорошие вычислители, а ночью им что делать? Вот и пусть отрабатывают...

Yaschik 4 апр 2024 в 23:03

А ещё некоторые не вмешивают веса на основную модель, а ограничиваются префиксным тюнингом. И могут менять части модели на лету оркестрируя "адаптеры".

A__D 4 апр 2024 в 21:10

Оффтоп: сразу вспоминается сериал Кремниевая долина

functyon 4 апр 2024 в 21:28

похоже на проекты а-ля folding@home, SETI@home. по смыслу - тоже самое

НЛО прилетело и опубликовало эту надпись здесь

pzhivulin 4 апр 2024 в 23:08

То есть решили ~~национализировать~~ глобализировать затраты и приватизировать результаты? Молодцы, чего уж там!

Alcpp 5 апр 2024 в 02:14

С этого начинался поиск Гугла, когда они вместо мощных и дорогих серверов использовали много обычных ПК.

oleg_rico 5 апр 2024 в 03:38

Распределённая сеть на смартфонах -вот эта сила:)

UncleSam27 5 апр 2024 в 08:20

Смартфон мобильное устройство, обсчитывать на нем что то тяжелое бесперспективно, вы сами, в первый же день, снесете приложение которое будет вм за пару часов высаживать акуммулятор.

Chamie 5 апр 2024 в 13:58

Так можно же определять, когда он уже полностью заряженный лежит (ночью) на зарядке.

ShicoRUS 5 апр 2024 в 04:30

Что-то мне это напомнило финал сериала "Кремниевая долина"... Любопытненько! ;-)

Valaut 5 апр 2024 в 04:30

Специализированное решение всегда будет более продвинутое в отличии от общественного.

MashkovIlya 5 апр 2024 в 07:43

Я за конкуренцию, но осадок от того, что слова вроде "распределённый" и "сообщество" достают как из штанов по нужде, остаётся. Ну и ответа на вопрос в чём, собственно, бенефиты для этого самого сообщества, я не увидел.

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий