
25 января 2023 года OpenAI опубликовала пост в блоге компании. 28 января текст обновили: добавили 3 буквы MRL и гиперссылку. За этим с виду мелким изменением скрывается ещё один виток спора о природе организации OpenAI.
Компания OpenAI опубликовала 25 января в блоге на своём сайте пост про обновления продуктов. В тексте рассказывалось, например, про снижение цен и новые семейства моделей. На этой неделе выходит БЯМ
gpt-3.5-turbo-0125
, а цены на на GPT-3.5 Turbo снижаются в третий раз за последний год. Ввод тысячи токенов в новую модель будет стоить в два раза меньше, $0,0005, а каждая тысяча токенов на выходе обойдётся на четверть дешевле, в $0,0015.OpenAI также сообщила о выходе
gpt-4-0125-preview
с мерами против лени БЯМ и обновлениях text-moderation-007
. Ещё один пункт поста касался нативной поддержки укороченных эмбеддингов.В контексте больших языковых моделей эмбеддинги — это математическое векторное представление слов в высокоразмерном пространстве. Текстовые эмбеддинги OpenAI используются для нескольких целей: поиска, кластеризации, рекомендаций и так далее.
Пост в блоге рассказывал о новой модели
text-embedding-3-small
и её более крупном собрате text-embedding-3-large
. Текст говорил: обе модели обучены с некой техникой, которая допускает более дешёвый запуск за счёт производительности. В частности, размер эмбеддингов можно сократить указанием параметра dimensions
в запросе API, что не приведёт к потере свойств представления концепции.Что это за техника, пост не называл.

Выделение Адитьи Кусупати, @adityakusupati
На деле это так называемые эмбеддинги в стиле MRL из научной статьи «Matryoshka Representation Learning» (arXiv:2205.13147), которая была представлена на конфереренции NeurIPS 2022. 26 января на это указал Джерри Лю, сооснователь сервиса LlamaIndex, и порекомендовал статью к прочтению.
27 января один из соавторов работы Пратик Джайн [Prateek Jain] порадовался за включение технологии в реальный продукт, но с неудовлетворением отметил, что принципы открытой науки нарушаются. Как заявил Пратик, он рад, что работы по типу MRL и Matformers (arXiv:2310.07707), к которым он приложил руку, помогают демократизировать доступ к моделям машинного обучения.
Пратик признаёт, что ему неизвестен конкретный стек используемых технологий внутри OpenAI. Тем не менее, сотрудники компании были осведомлены о MRL и вступали в контакт с авторами научной статьи. Джайн хотел бы, чтобы OpenAI называла технику «эмбеддинги-матрёшки» или «вложенные эмбеддинги» — так, как это было в научных статьях.
Другой соавтор MRL Адитья Кусупати в твите проявил схожий настрой: конечно, приятно увидеть результат своего труда в деле, но для аспиранта желательно быть процитированным.
28 января в комментариях как к твиту Кусупати, так и Джайн отметился Оуэн Кэмпбелл-Мур, менеджер проекта команды API в OpenAI. Оуэн объяснил, что за текст отвечал он и что в OpenAI действительно использовали MRL. Сотрудник OpenAI пообещал, что текст исправят.
К тому моменту в сообществе уже вовсю перемывали косточки OpenAI. Наблюдатели в очередной раз обвинили компании подобного закрытого типа в паразитировании на открытой науке и open source. Организации по типу OpenAI и Anthropic извлекают выгоду из общедоступных знаний, а потом скупятся даже ссылку поставить, колко замечали в микроблогах.
На данный момент в посте OpenAI уже стоит ссылка на научную работу. Конфликт с исследователями урегулирован в зародыше: ситуацией доволен как Кусупати, так и Джайн. Изначальный вариант без упоминания MRL остался в «Архиве Интернета».