atomlib Jan 29 at 15:21

OpenAI добавила забытую ссылку на научную работу, на которой построен продукт компании

3 min

8.1K

Open source*Machine learning*Popular scienceArtificial IntelligenceNatural Language Processing*

25 января 2023 года OpenAI опубликовала пост в блоге компании. 28 января текст обновили: добавили 3 буквы MRL и гиперссылку. За этим с виду мелким изменением скрывается ещё один виток спора о природе организации OpenAI.

Компания OpenAI опубликовала 25 января в блоге на своём сайте пост про обновления продуктов. В тексте рассказывалось, например, про снижение цен и новые семейства моделей. На этой неделе выходит БЯМ gpt-3.5-turbo-0125, а цены на на GPT-3.5 Turbo снижаются в третий раз за последний год. Ввод тысячи токенов в новую модель будет стоить в два раза меньше, $0,0005, а каждая тысяча токенов на выходе обойдётся на четверть дешевле, в $0,0015.

OpenAI также сообщила о выходе gpt-4-0125-preview с мерами против лени БЯМ и обновлениях text-moderation-007. Ещё один пункт поста касался нативной поддержки укороченных эмбеддингов.

В контексте больших языковых моделей эмбеддинги — это математическое векторное представление слов в высокоразмерном пространстве. Текстовые эмбеддинги OpenAI используются для нескольких целей: поиска, кластеризации, рекомендаций и так далее.

Пост в блоге рассказывал о новой модели text-embedding-3-small и её более крупном собрате text-embedding-3-large. Текст говорил: обе модели обучены с некой техникой, которая допускает более дешёвый запуск за счёт производительности. В частности, размер эмбеддингов можно сократить указанием параметра dimensions в запросе API, что не приведёт к потере свойств представления концепции.

Что это за техника, пост не называл.

Выделение Адитьи Кусупати, @adityakusupati

На деле это так называемые эмбеддинги в стиле MRL из научной статьи «Matryoshka Representation Learning» (arXiv:2205.13147), которая была представлена на конфереренции NeurIPS 2022. 26 января на это указал Джерри Лю, сооснователь сервиса LlamaIndex, и порекомендовал статью к прочтению.

27 января один из соавторов работы Пратик Джайн [Prateek Jain] порадовался за включение технологии в реальный продукт, но с неудовлетворением отметил, что принципы открытой науки нарушаются. Как заявил Пратик, он рад, что работы по типу MRL и Matformers (arXiv:2310.07707), к которым он приложил руку, помогают демократизировать доступ к моделям машинного обучения.

Пратик признаёт, что ему неизвестен конкретный стек используемых технологий внутри OpenAI. Тем не менее, сотрудники компании были осведомлены о MRL и вступали в контакт с авторами научной статьи. Джайн хотел бы, чтобы OpenAI называла технику «эмбеддинги-матрёшки» или «вложенные эмбеддинги» — так, как это было в научных статьях.

Другой соавтор MRL Адитья Кусупати в твите проявил схожий настрой: конечно, приятно увидеть результат своего труда в деле, но для аспиранта желательно быть процитированным.

28 января в комментариях как к твиту Кусупати, так и Джайн отметился Оуэн Кэмпбелл-Мур, менеджер проекта команды API в OpenAI. Оуэн объяснил, что за текст отвечал он и что в OpenAI действительно использовали MRL. Сотрудник OpenAI пообещал, что текст исправят.

К тому моменту в сообществе уже вовсю перемывали косточки OpenAI. Наблюдатели в очередной раз обвинили компании подобного закрытого типа в паразитировании на открытой науке и open source. Организации по типу OpenAI и Anthropic извлекают выгоду из общедоступных знаний, а потом скупятся даже ссылку поставить, колко замечали в микроблогах.

На данный момент в посте OpenAI уже стоит ссылка на научную работу. Конфликт с исследователями урегулирован в зародыше: ситуацией доволен как Кусупати, так и Джайн. Изначальный вариант без упоминания MRL остался в «Архиве Интернета».

Tags:

Hubs: