Как стать автором
Поиск
Написать публикацию
Обновить

OpenAI добавила забытую ссылку на научную работу, на которой построен продукт компании

Время на прочтение3 мин
Количество просмотров8.3K


25 января 2023 года OpenAI опубликовала пост в блоге компании. 28 января текст обновили: добавили 3 буквы MRL и гиперссылку. За этим с виду мелким изменением скрывается ещё один виток спора о природе организации OpenAI.

Компания OpenAI опубликовала 25 января в блоге на своём сайте пост про обновления продуктов. В тексте рассказывалось, например, про снижение цен и новые семейства моделей. На этой неделе выходит БЯМ gpt-3.5-turbo-0125, а цены на на GPT-3.5 Turbo снижаются в третий раз за последний год. Ввод тысячи токенов в новую модель будет стоить в два раза меньше, $0,0005, а каждая тысяча токенов на выходе обойдётся на четверть дешевле, в $0,0015.

OpenAI также сообщила о выходе gpt-4-0125-preview с мерами против лени БЯМ и обновлениях text-moderation-007. Ещё один пункт поста касался нативной поддержки укороченных эмбеддингов.

В контексте больших языковых моделей эмбеддинги — это математическое векторное представление слов в высокоразмерном пространстве. Текстовые эмбеддинги OpenAI используются для нескольких целей: поиска, кластеризации, рекомендаций и так далее.

Пост в блоге рассказывал о новой модели text-embedding-3-small и её более крупном собрате text-embedding-3-large. Текст говорил: обе модели обучены с некой техникой, которая допускает более дешёвый запуск за счёт производительности. В частности, размер эмбеддингов можно сократить указанием параметра dimensions в запросе API, что не приведёт к потере свойств представления концепции.

Что это за техника, пост не называл.


Выделение Адитьи Кусупати, @adityakusupati

На деле это так называемые эмбеддинги в стиле MRL из научной статьи «Matryoshka Representation Learning» (arXiv:2205.13147), которая была представлена на конфереренции NeurIPS 2022. 26 января на это указал Джерри Лю, сооснователь сервиса LlamaIndex, и порекомендовал статью к прочтению.

27 января один из соавторов работы Пратик Джайн [Prateek Jain] порадовался за включение технологии в реальный продукт, но с неудовлетворением отметил, что принципы открытой науки нарушаются. Как заявил Пратик, он рад, что работы по типу MRL и Matformers (arXiv:2310.07707), к которым он приложил руку, помогают демократизировать доступ к моделям машинного обучения.

Пратик признаёт, что ему неизвестен конкретный стек используемых технологий внутри OpenAI. Тем не менее, сотрудники компании были осведомлены о MRL и вступали в контакт с авторами научной статьи. Джайн хотел бы, чтобы OpenAI называла технику «эмбеддинги-матрёшки» или «вложенные эмбеддинги» — так, как это было в научных статьях.

Другой соавтор MRL Адитья Кусупати в твите проявил схожий настрой: конечно, приятно увидеть результат своего труда в деле, но для аспиранта желательно быть процитированным.

28 января в комментариях как к твиту Кусупати, так и Джайн отметился Оуэн Кэмпбелл-Мур, менеджер проекта команды API в OpenAI. Оуэн объяснил, что за текст отвечал он и что в OpenAI действительно использовали MRL. Сотрудник OpenAI пообещал, что текст исправят.

К тому моменту в сообществе уже вовсю перемывали косточки OpenAI. Наблюдатели в очередной раз обвинили компании подобного закрытого типа в паразитировании на открытой науке и open source. Организации по типу OpenAI и Anthropic извлекают выгоду из общедоступных знаний, а потом скупятся даже ссылку поставить, колко замечали в микроблогах.

На данный момент в посте OpenAI уже стоит ссылка на научную работу. Конфликт с исследователями урегулирован в зародыше: ситуацией доволен как Кусупати, так и Джайн. Изначальный вариант без упоминания MRL остался в «Архиве Интернета».
Теги:
Хабы:
Всего голосов 15: ↑15 и ↓0+15
Комментарии7

Другие новости

Ближайшие события