Pull to refresh
58
0
bugman @bugman

Make software to happen

Send message

Stability AI выпустили свою первую языковую модель

Reading time1 min
Views5.7K

Компания, известная всему миру по своим text-to-image моделям Stable Diffusion, выпустила свою первую языковую модель - StableLM. Уже доступны варианты на 3B и 7B параметров и в ближайшее время обещают 15B и 65B. Лицензия CC BY-SA-4.0 разрешает коммерческое использование. Также в релиз вошли fine-tuned модели в стиле InstructGPT, основанные на миксе датасетов Alpaca, GPT4All, Dolly, ShareGPT и HH. По известным причинам лицензия таких моделей уже не разрешает их коммерческого использования.

Ссылки:

https://github.com/stability-AI/stableLM/

https://stability.ai/blog/stability-ai-launches-the-first-of-its-stablelm-suite-of-language-models

Читать далее

RedPajama — open source LLaMa

Reading time1 min
Views4.6K

RedPajama — open source LLaMa

Группа исследователей из разных организаций и университетов (Together, ontocord.ai, ds3lab.inf.ethz.ch, crfm.stanford.edu, hazyresearch.stanford.edu, mila.quebec) работает над созданием open source альтернативы модели LLaMa и уже опубликовали датасет, релевантный использованному для создания последней.

Несвободная но хорошо сбалансированная LLaMa использовалась в качестве основы для таких проектов как Alpaca, Vicuna и Koala. В других известных проектах (Dolly, Dolly v2, gpt4all) в качестве основы для файнтюнинга использовались свободные, но достаточно старые по современным меркам модели серий gpt-j и gpt-neo.

Следующим шагом будет создание самой модели, что потребует серьёзных вычислительных мощностей. Но с учётом всеобщего интереса к этой теме, это лишь вопрос пары тройки недель.

Источник: https://www.together.xyz/blog/redpajama

Читать далее

Первая языковая модель, которую наконец можно использовать в коммерческих целях — Dolly 2.0

Reading time1 min
Views9.8K

Если помните недавнюю серию новостей, череда альпакоподобных моделей (Alpaca, gpt4all, Vicuna) страдала двумя основными недостатками - несвободная основа и несвободный датасет. Databricks от них окончательно избавились в своей новой модели Dolly 2.0

Читать далее

Веса Vicuna опубликованы. Теперь можно поиграться с самой продвинутой ChatGPT-like моделью на домашнем компьютере

Reading time2 min
Views40K

Друзья, это наконец случилось. В предыдущей новости были ссылочки на демо Викуньки, но вчера ночью опубликовали саму модель. Сегодня её уже квантировали до 4 бит и сконвертировали в формат ggml (Georgi Gerganov Machine Learning, полагаю), а значит нам ничего не стоит её скачать и прикрутить к llama.cpp и насладиться самой продвинутой языковой моделью на своём домашнем компьютере. Без смс и регистраций.

Читать далее

В строю ChatGPT клонов, которые можно крутить локально, прибыло. Встречайте gpt4all

Reading time1 min
Views55K

Новости из мира больших языковых моделей продолжают радовать день за днём. "Стенфордский подход" к fine tuning'у (это когда одну LLM дообучают по данным, полученным из другой LLM) продолжает давать жизнь новым интересным проектам.

В прошлый раз это была Dolly, в этот раз это gpt4all. В отличие от Alpaca, которую дотренировали всего на ~54k примерах из ChatGPT, эту модель тренировали на 437k примерах За основу взяли всё ту же LLaMA.

Читать далее

Демократизация больших языковых моделей продолжается. Встречайте Dolly

Reading time1 min
Views13K

Не успела прошуметь предыдущая новость https://habr.com/ru/news/t/723638/ так на горизонте замаячили новые альпакоподобные, натренированные по такому же принципу.

В этот раз, ребята из databricks взяли за основу не какую-то там полу-проприетарную Llama с непонятной лицензией, а вполне себе опенсорсовую gpt-j-6B от EleutherAI. Получилась эдакая instruction-following модель в стиле ChatGPT но уже пригодная к использованию в коммерческих продуктах (и у себя дома, конечно же).

Читать далее

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

Reading time2 min
Views71K

Тогда это сделаю я.

Друзья, если вы вдруг пропустили новости, то светлые головы из Стендфорда (университет такой в США), взяли несколько моделей LLama, которые недавно выпустили из недр Meta AI, нагенерировали им дополнительного материала для обучения при помощи GPT-3/3.5/4 и обучили её понимать запросы в стиле InstructGPT.

Модельки получились маленькие и теперь это всё доступно для установки на свой домашний комп. Народ вон даже на Rhaspberry Pi 4B их крутит. Как вам идея иметь свой собственный ChatGPT-alike бот дома, а?

Читать далее

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Chief Technology Officer (CTO), Software Architect
Lead
Git
Linux
Docker
Database
High-loaded systems
SQL
English
Software development
Algorithms and data structures
Development of integration solutions