Comments 16
Всегда интересовало как рождаются названия. Вот Strawberry ну никак не ассоциируется у меня с глубокими математическими исследованиями.
Просто прототип вылез в интернет в первый раз и начал обучение на клубничке. Разработчикам стало понятно, как назвать проект.
Когда появились ранние большие языковые модели стали проводить разные тесты на их способность рассуждать. И очень быстро обнаружилось что они не умеют распознавать буквы, потому что при их обучении текст разбивается не на буквы, а на токены, они просто не видят букв. Популярной к этому иллюстрацией был вопрос “Сколько букв r в слове strawberry?”, модели во многих случаях сразу отвечали неправильно. Потом придумали заставлять модель думать по шагам “Подумай, как можно узнать сколько букв в слове и скажи сколько букв r в слове strawberry?”. На что модель отвечала что-то в духе “Чтобы узнать сколько букв r в слове strawberry нужно разбить слово на буквы и посчитать их. Давай посчитаем s t r a w b e r r y. В слове strawberry три буквы r”. Очевидно, что теперь OpenAI пытается научить модель самостоятельно применять промежуточные шаги, но при этом исследовать не один путь, а целое дерево возможных решений, примерно, как они делали с AlphaZero.
М-да... с буквами в словах толком не разбирает..., вот это и есть уровень "глубоких исследований" ))
Где-то слышал, что это проблема всех таких моделей, они же токнизируют текст по словам, есть модели которые токинизируют по буквам, но если бы чат работал так то ебы обучали бы в десятки раз дольше. В случае с такими моделями как gpt это можно преодолеть только генерируя большие искуственные дата сеты где куча слов переставленных задом на перёд
По моему опыту, проблема не только с буквами, а просто во всем (использую ChatGPT 4o). Даешь данные, говоришь построй диаграмму. В одном случае строит, в других выдает текст, таблицу, код, но только не диаграмму. Или может выдать "ссылку на диаграмму", которая никуда не ведет. При этом модель всегда уверена, что это и есть диаграмма, так и пишет - "Вот диаграмма:". Повторные запросы в 90% случаев ни к чему не ведут.
Со здравым смыслом огромные проблемы просто. Вот такие штуки выдает постоянно:
Примеры позитивных отзывов:
• Отзыв 6: "Гибкий рабочий режим, можно работать из дома. Приятный офис."
• Отзыв 10: "Вакансия на hh.ru. Не указали размер предлагаемого оклада."
• Отзыв 14: "Застойная компания. Даже простые проекты реализуются годами."
Из массива текста в сто килабайт берет для анализа только первые 10%. Это еще заметить надо. Если пишешь "используй весь массив данных с такого-то по такой-то" - может выполнить, а может и нет.
В общем, пока нет ни здравого смысла, ни стабильной работы. Посмотрим на ChatGPT 5 - может получше будет.
Из массива текста в сто килабайт берет для анализа только первые 10%.
Это через АПИ или чат? Чат сильно контекст режет. А вообще для перекапывания груд текста лучше использовать сlaude
О, так это вы отзывами через ChatGPT занимаетесь?) Смешно читать, когда в карточке товара такие отзывы, сразу понятно, какой товар покупать НЕ следует))
Ниже очень упрощенные рассуждения для трансформеров обыкновенных.
Для начала упомянем, что «голова» модели содержит N нейронов, которые соответствуют длине словаря токенов.
Сама модель работает только с токенами (векторами), а их для нее готовят токенайзеры.
При этом, чем более длинный участок данных представлен токеном, тем длиннее контекст, с которым работает модель.
То есть нам надо решить задачу оптимизации: найти достаточно большое N, чтобы хорошо покрыть имеющийся корпус текстовых данных, но достаточно маленькое, чтобы модель могла успешно обучаться и иметь достаточно данных для каждого токена, чтобы связать его с остальными.
Если память не изменяет, то эмбеддинги (то есть словарь токенов) для GPT-3.5 и ранней GPT-4 (`text-embedding-ada-002`) имели чуть больше 50 тысяч токенов (это для всех языков мира).
Потом потыкав в модельки и собрав типичные их огрехи, правила формирования токенов немного улучшили: например, появились специальные токены отступов для Python, что сильно улучшило генерацию кода.
да, у меня тоже такая первая мысль была. Причем, как мне кажется, такие названия в итоге и запоминаются лучше, чем если бы оно было каким-то обычным/подходящим под тему
OpenAI работает над продвинутой технологией ИИ под названием Strawberry