Chatbot Arena, краудсорсинговая платформа для сравнительного анализа, которая стала важнейшей площадкой для тестирования ИИ-моделей, объявила сегодня о создании компании под названием Arena Intelligence Inc., работающей под брендом LMArena.

То, что в начале 2023 года было скромным исследовательским проектом Space Sciences Laboratory Калифорнийского университета в Беркли, превратилось в значимую силу в сфере оценки ИИ, привлекающую миллион посетителей в месяц, которые сравнивают модели в прямых соревнованиях. Таблицы лидеров платформы стали важным показателем качества моделей в отрасли.
Новую компанию возглавит первоначальная команда проекта: Анастасиос Ангелопулос и Вэй-Линь Чианг, которые недавно защитили докторские диссертации в Беркли, а также их научный руководитель Ион Стойка, специалист в области облачных вычислений и соучредитель Databricks и Anyscale. Хотя точные названия пока не утверждены, цель ясна: масштабировать платформу, исправить давние ошибки в пользовательском интерфейсе и создать новые функции на основе отзывов сообщества.
Платформа заняла уникальное положение в экосистеме ИИ, предоставляя нейтральные, ориентированные на пользователя оценки возможностей моделей. Многие крупные разработчики ИИ, в том числе OpenAI, использовали Chatbot Arena для тестирования новых моделей перед их широким распространением. Эта нейтральность, по-видимому, является основой видения команды в отношении будущего компании.
«LMArena останется верной своей первоначальной миссии. Она останется нейтральной, открытой платформой для тестирования и оценки моделей ИИ, — написала команда в своём объявлении. — Наша таблица лидеров никогда не будет предвзятой по отношению (или против) какого-либо поставщика и будет достоверно отражать предпочтения нашего сообщества по умолчанию».
С этой целью команда также запустила бета-версию сайта на beta.lmarena.ai — обновлённую платформу, которая повышает скорость работы, удобство использования на мобильных устройствах и ясность голосования — распространённые жалобы давних пользователей. Скоро появятся такие функции, как вход в систему, история чата и персонализированные списки лидеров, а также новые экспериментальные площадки, такие как WebDev Arena и RepoChat Arena.
Компания ещё не определилась с бизнес-моделью, но один из рассматриваемых вариантов — взимать плату с провайдеров за оценку моделей. Stoica подтвердила, что они намерены привлекать средства для финансирования роста, но отказалась делиться подробностями о сборе средств.
Для обычных пользователей ИИ и специалистов, интересующихся ИИ, платформа предлагает редкую возможность напрямую сравнивать ведущие системы без маркетингового приукрашивания — голосовать своими кликами за то, какие модели лучше всего работают в реальных сценариях.
По мере поступления финансирования в новую компанию остаётся открытым вопрос о том, сможет ли Arena Intelligence сохранить свой научный нейтралитет, развивая устойчивый бизнес. На данный момент команда делает акцент на прозрачности и доверии сообщества как на основных ценностях, признавая, что доверие является её самым ценным активом.