Как стать автором
Обновить

Первая языковая модель, которую наконец можно использовать в коммерческих целях — Dolly 2.0

Время на прочтение1 мин
Количество просмотров9.7K

Если помните недавнюю серию новостей, череда альпакоподобных моделей (Alpaca, gpt4all, Vicuna) страдала двумя основными недостатками:

  • все они были основаны на несвободной LLaMa

  • файнтюнинг, для понимания моделью промптов в стиле instruction following, проводили на не самых свободных данных, полученных на моделях OpenAI

Среди этого карнавала было одно* приятное исключение - Dolly, которая была лишена первого недостатка, но всё еще были вопросы по датасету. Вчера эту ситуацию исправили. За последние пару недель Databricks закраудсорсили силами своих собственных 5 000 сотрудников чистый датасет. Плюс в качестве базовой модели перешли с gpt-j-6B на Pythia 12b от всё той же Eleuther.ai

Модель доступна на hugging face. Тут есть достаточно простые инструкции как её можно закрутить в Paperspace, но производительность пока не очень. В самое ближайшее время ожидаем её квантирование и, возможно, оптимизацию для запуска в средах типа llama.cpp для машин без GPU. Плюс есть пара hugging face spaces, где эта модель уже крутится и с ней можно пообщаться - тыц, тыц и тыц (могут быть недоступны на момент чтения)

Источник: https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

* Да, я знаю, что еще готовится еще одно, силами комьюнити open-assistant.io и материнской компанией проекта - LAION. Но пока единственное демо, которое нам представили, основано на всё той же несвободной лламе.

Теги:
Хабы:
Всего голосов 11: ↑11 и ↓0+11
Комментарии8

Другие новости

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань