Пост @denis-19 — Open source — 26.10 09:41 / Хабр

26 окт 2023 в 09:412.4K

Open source * Машинное обучение * Искусственный интеллект

Компания Jina открыла под лицензией Apache 2.0 модель машинного обучения для векторного представления текста — jina‑embeddings‑v2. Модель позволяет преобразовать произвольный текст, включающий до 8192 знаков, в небольшую последовательность вещественных чисел, образующих вектор, сопоставленный с исходным текстом и воспроизводящий его семантику (смысл). Jina Embedding стала первой открытой моделью машинного обучения, обладающей характеристиками, не уступающими проприетарной модели векторизации текста от проекта OpenAI (text‑embedding‑ada-002), также способной обрабатывать тексты, насчитывающие до 8192 токенов.

Для загрузки доступны два варианта модели jina-embeddings (базовая на 270 МБ и сокращённая размером 70 МБ), обученные на 400 млн пар текстовых последовательностей на английском языке, охватывающих различные области знаний. При обучении использовались последовательности размером 512 токенов, которые были экстраполированы до размера 8192 при помощи метода ALiBi (Attention with Linear Biases). В ближайшее время также планируют опубликовать крупную модель, которая будет охватывать 435 млн параметров.

Базовая модель включает в себя 137 млн параметров и рассчитана на использование на стационарных системах с GPU. Сокращённая модель включает 33 млн. параметров, обеспечивает меньшую точность и нацелена на применение на мобильных устройствах и на системах с небольшим объёмом памяти.

Источник: OpenNET.