maybe_elf Jul 14 2024 at 08:57

OpenAI работает над продвинутой технологией ИИ под названием Strawberry

2 min

11K

Machine learning * Artificial IntelligenceThe future is here

+16

Comments 16

list021 Jul 14 2024 at 09:37

Всегда интересовало как рождаются названия. Вот Strawberry ну никак не ассоциируется у меня с глубокими математическими исследованиями.

denis-19 Jul 14 2024 at 09:45

Просто прототип вылез в интернет в первый раз и начал обучение на клубничке. Разработчикам стало понятно, как назвать проект.

UFO landed and left these words here

FenixFVE Jul 14 2024 at 13:56

Когда появились ранние большие языковые модели стали проводить разные тесты на их способность рассуждать. И очень быстро обнаружилось что они не умеют распознавать буквы, потому что при их обучении текст разбивается не на буквы, а на токены, они просто не видят букв. Популярной к этому иллюстрацией был вопрос “Сколько букв r в слове strawberry?”, модели во многих случаях сразу отвечали неправильно. Потом придумали заставлять модель думать по шагам “Подумай, как можно узнать сколько букв в слове и скажи сколько букв r в слове strawberry?”. На что модель отвечала что-то в духе “Чтобы узнать сколько букв r в слове strawberry нужно разбить слово на буквы и посчитать их. Давай посчитаем s t r a w b e r r y. В слове strawberry три буквы r”. Очевидно, что теперь OpenAI пытается научить модель самостоятельно применять промежуточные шаги, но при этом исследовать не один путь, а целое дерево возможных решений, примерно, как они делали с AlphaZero.

Advisers Jul 14 2024 at 15:39

М-да... с буквами в словах толком не разбирает..., вот это и есть уровень "глубоких исследований" ))

Bentonit Jul 16 2024 at 13:04

Где-то слышал, что это проблема всех таких моделей, они же токнизируют текст по словам, есть модели которые токинизируют по буквам, но если бы чат работал так то ебы обучали бы в десятки раз дольше. В случае с такими моделями как gpt это можно преодолеть только генерируя большие искуственные дата сеты где куча слов переставленных задом на перёд

Anton888 Jul 14 2024 at 17:34

По моему опыту, проблема не только с буквами, а просто во всем (использую ChatGPT 4o). Даешь данные, говоришь построй диаграмму. В одном случае строит, в других выдает текст, таблицу, код, но только не диаграмму. Или может выдать "ссылку на диаграмму", которая никуда не ведет. При этом модель всегда уверена, что это и есть диаграмма, так и пишет - "Вот диаграмма:". Повторные запросы в 90% случаев ни к чему не ведут.

Со здравым смыслом огромные проблемы просто. Вот такие штуки выдает постоянно:

Примеры позитивных отзывов:
• Отзыв 6: "Гибкий рабочий режим, можно работать из дома. Приятный офис."
• Отзыв 10: "Вакансия на hh.ru. Не указали размер предлагаемого оклада."
• Отзыв 14: "Застойная компания. Даже простые проекты реализуются годами."

Из массива текста в сто килабайт берет для анализа только первые 10%. Это еще заметить надо. Если пишешь "используй весь массив данных с такого-то по такой-то" - может выполнить, а может и нет.

В общем, пока нет ни здравого смысла, ни стабильной работы. Посмотрим на ChatGPT 5 - может получше будет.

darthmaul Jul 14 2024 at 21:19

Из массива текста в сто килабайт берет для анализа только первые 10%.

Это через АПИ или чат? Чат сильно контекст режет. А вообще для перекапывания груд текста лучше использовать сlaude

Anton888 Jul 15 2024 at 06:36

Общение через чат, текстовый массив - в загружаемом текстовом файле.

Le0Wolf Jul 15 2024 at 06:37

О, так это вы отзывами через ChatGPT занимаетесь?) Смешно читать, когда в карточке товара такие отзывы, сразу понятно, какой товар покупать НЕ следует))

Anton888 Jul 15 2024 at 09:28

:-))) Отзывы не пишем)

UFO landed and left these words here

turboslon Jul 15 2024 at 01:34

Ниже очень упрощенные рассуждения для трансформеров обыкновенных.

Для начала упомянем, что «голова» модели содержит N нейронов, которые соответствуют длине словаря токенов.

Сама модель работает только с токенами (векторами), а их для нее готовят токенайзеры.

При этом, чем более длинный участок данных представлен токеном, тем длиннее контекст, с которым работает модель.

То есть нам надо решить задачу оптимизации: найти достаточно большое N, чтобы хорошо покрыть имеющийся корпус текстовых данных, но достаточно маленькое, чтобы модель могла успешно обучаться и иметь достаточно данных для каждого токена, чтобы связать его с остальными.

Если память не изменяет, то эмбеддинги (то есть словарь токенов) для GPT-3.5 и ранней GPT-4 (`text-embedding-ada-002`) имели чуть больше 50 тысяч токенов (это для всех языков мира).

Потом потыкав в модельки и собрав типичные их огрехи, правила формирования токенов немного улучшили: например, появились специальные токены отступов для Python, что сильно улучшило генерацию кода.

UFO landed and left these words here

lomovoy_player Jul 16 2024 at 04:24

скорее всего в таких больших объёмах данный такие задачи просто попадались и вот он их может выполнять

krasilnik_k Jul 14 2024 at 17:52

да, у меня тоже такая первая мысль была. Причем, как мне кажется, такие названия в итоге и запоминаются лучше, чем если бы оно было каким-то обычным/подходящим под тему