Как стать автором
Обновить

Компания Jina открыла под лицензией Apache 2.0 модель машинного обучения для векторного представления текста — jina‑embeddings‑v2. Модель позволяет преобразовать произвольный текст, включающий до 8192 знаков, в небольшую последовательность вещественных чисел, образующих вектор, сопоставленный с исходным текстом и воспроизводящий его семантику (смысл). Jina Embedding стала первой открытой моделью машинного обучения, обладающей характеристиками, не уступающими проприетарной модели векторизации текста от проекта OpenAI (text‑embedding‑ada-002), также способной обрабатывать тексты, насчитывающие до 8192 токенов.

Для загрузки доступны два варианта модели jina-embeddings (базовая на 270 МБ и сокращённая размером 70 МБ), обученные на 400 млн пар текстовых последовательностей на английском языке, охватывающих различные области знаний. При обучении использовались последовательности размером 512 токенов, которые были экстраполированы до размера 8192 при помощи метода ALiBi (Attention with Linear Biases). В ближайшее время также планируют опубликовать крупную модель, которая будет охватывать 435 млн параметров.

Базовая модель включает в себя 137 млн параметров и рассчитана на использование на стационарных системах с GPU. Сокращённая модель включает 33 млн. параметров, обеспечивает меньшую точность и нацелена на применение на мобильных устройствах и на системах с небольшим объёмом памяти.

Источник: OpenNET.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Публикации

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань