technokratiya Jan 6 at 09:02

Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали?

5 min

4.8K

Artificial IntelligenceMachine learning *

Comments 10

cupraer Jan 6 at 09:06

пробабилистической системе

Используемой в акватории Баб-эль-Мандебского пролива?

Ссылка для саморазвития: https://ru.wikipedia.org/wiki/Вероятностное_пространство

Пока существуют люди, будут существовать данные, включая качественные данные.

Это утверждение сродни такому: пока существуют камины — будет существовать уголь. Достаточно ли его будет для чего-нибудь, кроме набросков апологетов Веласкеса? — Нет, конечно. И об этом вам неглупый ученый и говорит.

Nansch Jan 6 at 14:42

- Вы кто? - Мы баптисты. - Что, правда, баб тискаете?

Jirabus Jan 6 at 10:45

Да, топливо закончилось очень быстро, судя по тому что Apple открыли ящик Пандоры

Apple начала сканировать с помощью ИИ локальные пользовательские фотографии на предмет достопримечательностей / Хабр

и начали кормить ИИ персональными данными пользователей под видом улучшения сервиса поиска. А еще есть гипотеза черной королевы ИИ: чтобы не тупеть, ИИ должен есть все быстрее. LLM имеют склонность к деградации, которую старательно избегают обсуждать разработчики.

https://community.openai.com/t/reasoning-degradation-in-llms-with-long-context-windows-new-benchmarks/906891

"GPT-4 имеет контекстное окно в 128 000 токенов, в то время как Gemini может похвастаться ошеломляющими 2 миллионами. Хотя эти цифры захватывающие, реальность несколько иная. Вы, как и я, могли заметить, что качество рассуждений LLM имеет тенденцию к снижению при длинных входных данных — явление, которое текущие оценки не в состоянии адекватно охватить "

appet1te Jan 6 at 19:55

Таким образом, реальная проблема ИИ, связанная с данными, заключается не в их исчерпании, а в дефиците полезных качественных данных для конкретных задач.

Вторая, возможно, еще более серьезная, — это делать невидимым то, что создает условия для существования данных, необходимых для обучения ИИ: люди.

Если это применить к gpt то получается, что круг зациклился, тк. чем дальше тем больше будет синтетических данных и текстов нагенеренных с помощью ИИ. И LLM застопорятся или замедлятся на пути своего развития

ngromyko Jan 6 at 20:01

Дальше дело за агентами

flancer Jan 6 at 20:32

Всё просто. В перспективе, чем выше интеллект отдельного человека, тем меньше ему будет стоить общение с ИИ. Чем ниже - тем дороже, ибо нефиг тратить электроэнергию на фигню. Докторам наук супер-платные учётки за $200 уже сейчас бесплатно отдают, а вскоре будут даже приплачивать. Т.к. эти люди и есть источник "ископаемого топлива для ИИ".

Так-то каждый разговор с ИИ в чате - источник данных. Только не все из этих источников одинаково полезные.

GrandTourism Jan 6 at 21:16

Ничего они не исчерпали. Или не дают, или нет уж они и умны. По действительно сложным диагностическим вопросам эти ии всё ещё профаны, не прочитавшие спрингер пубмед и прочие прочие прочие

commanderkid Jan 7 at 11:54

Не знаю, у меня мнение такое, что, допустим, ИИ хватит и одного учебника по математике, чтобы научиться решать соответствующие задачи, за за данный класс школы, например. Если для того, чтобы в слове strawberry не смочь посчитать буквы r, не хватает данных части интернета, где таких учебников, допустим, сотни, то наверное это не совсем тот путь, который ведёт к General Ai. Там и архива знаний протосов из sc2 не хватит.

pavelsha Jan 7 at 16:13

Думаю, что будет как с нефтью в месторождениях на Северном Кавказе.

Старые месторождения характеризуются высокой степенью выработки, но когда им дали отдохнуть, а также разработали новые методы добычи, то нефть снова пошла.

avshkol Jan 7 at 18:35

Когда скормили LLM на каждый нормальный учебник по энергетике сотню статей с обсуждением околоэнергетических тем, которые LLM также захватывает в область "энергетика", то у нее на выходе будет мешанина. Выход из этого - не увеличивать количество данных (ибо мы снижаем долю нормальных материалов в потоке мусора), а размечать данные - вот эти имеют максимальную ценность 0,7-0,9 для понимания вот этих и этих вопросов, а эти - просто отражают спектр мнений непрофессионалов и ценность их 0,01. Думаю, качественные данные не только не кончились, они по-настоящему еще не начинались! Их нужно откопать (ибо многие книги платные), отсортировать, и качественно на них учить!