Comments 10
пробабилистической системе
Используемой в акватории Баб-эль-Мандебского пролива?
Ссылка для саморазвития: https://ru.wikipedia.org/wiki/Вероятностное_пространство
Пока существуют люди, будут существовать данные, включая качественные данные.
Это утверждение сродни такому: пока существуют камины — будет существовать уголь. Достаточно ли его будет для чего-нибудь, кроме набросков апологетов Веласкеса? — Нет, конечно. И об этом вам неглупый ученый и говорит.
Да, топливо закончилось очень быстро, судя по тому что Apple открыли ящик Пандоры
и начали кормить ИИ персональными данными пользователей под видом улучшения сервиса поиска. А еще есть гипотеза черной королевы ИИ: чтобы не тупеть, ИИ должен есть все быстрее. LLM имеют склонность к деградации, которую старательно избегают обсуждать разработчики.
"GPT-4 имеет контекстное окно в 128 000 токенов, в то время как Gemini может похвастаться ошеломляющими 2 миллионами. Хотя эти цифры захватывающие, реальность несколько иная. Вы, как и я, могли заметить, что качество рассуждений LLM имеет тенденцию к снижению при длинных входных данных — явление, которое текущие оценки не в состоянии адекватно охватить "
Таким образом, реальная проблема ИИ, связанная с данными, заключается не в их исчерпании, а в дефиците полезных качественных данных для конкретных задач.
Вторая, возможно, еще более серьезная, — это делать невидимым то, что создает условия для существования данных, необходимых для обучения ИИ: люди.
Если это применить к gpt то получается, что круг зациклился, тк. чем дальше тем больше будет синтетических данных и текстов нагенеренных с помощью ИИ. И LLM застопорятся или замедлятся на пути своего развития
Дальше дело за агентами
Всё просто. В перспективе, чем выше интеллект отдельного человека, тем меньше ему будет стоить общение с ИИ. Чем ниже - тем дороже, ибо нефиг тратить электроэнергию на фигню. Докторам наук супер-платные учётки за $200 уже сейчас бесплатно отдают, а вскоре будут даже приплачивать. Т.к. эти люди и есть источник "ископаемого топлива для ИИ".
Так-то каждый разговор с ИИ в чате - источник данных. Только не все из этих источников одинаково полезные.
Ничего они не исчерпали. Или не дают, или нет уж они и умны. По действительно сложным диагностическим вопросам эти ии всё ещё профаны, не прочитавшие спрингер пубмед и прочие прочие прочие
Не знаю, у меня мнение такое, что, допустим, ИИ хватит и одного учебника по математике, чтобы научиться решать соответствующие задачи, за за данный класс школы, например. Если для того, чтобы в слове strawberry не смочь посчитать буквы r, не хватает данных части интернета, где таких учебников, допустим, сотни, то наверное это не совсем тот путь, который ведёт к General Ai. Там и архива знаний протосов из sc2 не хватит.
Думаю, что будет как с нефтью в месторождениях на Северном Кавказе.
Старые месторождения характеризуются высокой степенью выработки, но когда им дали отдохнуть, а также разработали новые методы добычи, то нефть снова пошла.
Когда скормили LLM на каждый нормальный учебник по энергетике сотню статей с обсуждением околоэнергетических тем, которые LLM также захватывает в область "энергетика", то у нее на выходе будет мешанина. Выход из этого - не увеличивать количество данных (ибо мы снижаем долю нормальных материалов в потоке мусора), а размечать данные - вот эти имеют максимальную ценность 0,7-0,9 для понимания вот этих и этих вопросов, а эти - просто отражают спектр мнений непрофессионалов и ценность их 0,01. Думаю, качественные данные не только не кончились, они по-настоящему еще не начинались! Их нужно откопать (ибо многие книги платные), отсортировать, и качественно на них учить!
Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали?