Pull to refresh
1
0
Send message

Избиение модели на функции

🥲

На Земле сейчас живет 6 миллиардов человек.

(⊙_⊙) А откуда такая информация?

Я, конечно, не личность, которая может спорить с астрономом из SETI и инженером из NASA, но…

«Это позволило бы внеземным цивилизациям косвенно общаться с нами и
узнавать о нас, не сталкиваясь с препятствиями в виде огромных
расстояний и задержек связи», – утверждают ученые.

LLM открыли способ передавать информацию быстрее скорости света? Или они имеют ввиду передачу полных весов модели? Если да, то как инопланетяне должны расшифровать её генерации… То же Послание Арисибо гораздо легче расшифровать и оно на порядки меньше.

«LLM сможет не только генерировать текст, но и создавать изображения и звуки», – пишут авторы.

LLM (Large LANGUAGE Model).

Нет, это однозначно кривой (или не кривой) prompt engineering.

Допустим в Apple знают, что разработчики ИИ активно занимаются проблемой
галлюцинирования (а они занимаются), и в ближайшее время эта директива
будет срабатывать.

Проблемы галлюцинаций если и будут решены (как их решить, если LLM делают ровно то, что от них требуется? Уменьшить количество неправильных ответов — можно. Исключить все ошибки вовсе — маловероятно), то такие инструкции будут абсолютно лишними.

Ученные пока только разводят руками и лишь предполагают теорию о том,
что дескать если вот так соберется куча нейронов и начнет
взаимодействовать с друг другом, внезапно из-за неимоверной сложности
возникнет сознание. А вместе с этим надежда, если такую сложность
воспроизвести в компьютерах - получится то же самое.

Не внезапно, перед этим прошло почти 4 миллиарда лет «борьбы» за выживание.

Что тут вода, что в статье человека сверху. Может сначала реализовать это хоть как-нибудь и продемонстрировать результаты, а не философствовать?

Почему только в воображении и фантастике? Это сложно, но не невозможно.

Это известно уже давно, что они этим исследованием доказали (руководствуюсь исключительно текстом новости)?

Исследователи надеются, что их труд поможет … создавать реалистичное окружение с более высокой скоростью и
меньшими затратами ресурсов.

Нейросети много где используют для упрощения рассчётов там, где не нужна максимальная точность.

Может они что-то придумали с механизмом внимания? Просто это слишком прожорливо: уменьшение контекстного окна и больше токенов на вход.

А это нормально, что шесть комментариев сверху в этой ветке объясняют одно и тоже?

Нет, я о том, как вообще связан вечный двигатель и замена роботами людей?

Главный аргумент в пользу того, что полная замена человека на
производстве невозможна – отсутствие вечного двигателя. Механизмы
ломаются, останавливаются и приходят в негодность. Вот тут и нужен
человек. Чтобы вовремя отреагировать, заменить, переключить и исправить
ошибку.

Интересно, если я просто процитирую этот абзац, то Вы сможете найти в нём ошибку?

Спасибо за ответ, похоже вопрос был задан немного неправильно и выглядит как вопрос про токенизацию в целом. Однако, я хотел узнать про то как модели делят токены на другие токены в виде единичных символов (буквы, цифры), например условный " computer" (с пробелом вначале) токенайзер может представить в виде 1-го токена, ну например [73529, ]. Но затем модель идеально разбивает одно слово (в данном случае один токен) на [" c", " o", " m", " p", " u", " t", " e", " r"] (большое кол-во токенов кодирующих букву из алфавита и пробел для разделения). Работает это не только на таких словах, но и на большом рандомном наборе букв. Неужели модели специально обучают навыку разбиения всех токенов из словаря на буквы?

Следующий вопрос, в целом, не к Вам, но хочу узнать на него ответ от людей, которые увидят этот комментарий и разбираются в работе токенайзеров, архитектуре GPT, LLM и прочего. Как языковая модель разделяет слова на буквы или числа на цифры? Во всех токенайзерах что я видел, токены для чисел/цифр разделеляются на группы либо длиной в 1 символ, либо рандомно, либо в 3 символа (например 72628930). Если разделение на цифры ещё можно обосновать тем, что модель запомнила разбиения вплоть до тысячи, то как это работает со словами?

Это предположение было сделано на основе того, что модели очень сильно могут сжимать текст внутри своих весов из-за того что они обучались на огромном количестве текстов и, в теории, при подаче части текста из обучающей выборки они смогут повторить результаты своего обучения. Хотя сейчас я больше склоняюсь к невозможности полного цитирования текста с небольшими ошибками.

Information

Rating
4,855-th
Registered
Activity