Как стать автором
Обновить

Комментарии 9

Более 5 000 сотрудников Databricks работали над созданием databricks-dolly-15k в марте и апреле 2023 года.

databricks-dolly-15k - это датасет, содержащий 15 000 высококачественных пар запрос-ответ.

Я, конечно, не специалист по такого рода датасетам, но 5000 человек за 2 месяца могли бы и побольше датасет собрать/нагенерить...

Писать с нуля а не вставлять то что нагуглилось, вкладывая в ответы суть и смысл, к тому же сверхурочно помимо основной работы, такое себе. Впрочем сообществу от этого только плюсы. Уже как минимум два качественных датасета имеется, от OpenAssistant и Databricks. Думаю стоит работать и дальше в эту сторону, и нам, русскоязычному сообществу тоже стоит подумать над собственным датасетом и дообучением моделей.

Ну, учитывая, что ещё прошла только половина апреля, то за 1,5 месяца шикарный результат. :)

3 пары запрос - ответ с требованием, что они должны быть уникальны, за 2 мес или 43 рабочих дня... Невероятно...

Личный опыт: для программирования сейчас дает лучший результат среди открытых и бесплатных моделей, но до закрытых конечно далеко еще. Закрытые уже неплохо предсказывают, то есть "читают мысли".

Вы имеете в виду Dolly 2? На каких языках и задачах сравнивали? Викуну 13б смотрели в этом плане?

Долли 2 опередила предыдущего лидера Викуну 13б в моих тестах. Тестировал вопросами на Питоне, ПХП, Расте и ЖС, но я не думаю, что конкретный ЯП имеет какое-то значение тут)

Просил просто сгенерировать функцию на основе естественного языка (англ.), описывал вход и выход.

Это интересно на самом деле, потому как Dolly 2 (GPT-J) не дообучали специально на инструкциях для кода языков программирования, и архитектура сетки примитивнее чем у LLaMA* форков. Погоняю на кодогене еще тоже, позже отпишу о результатах.

Спасибо за статью. Приду домой, перечитаю внимательно. Хочется иметь свою домашнюю ИИ, чтобы поговорить "зажысь". Просто так, чтобы был. :) Интересно было бы обучить с нуля самому. И открытые проекты в этой сфере как нельзя кстати, можно не просто пользоваться, но и лепить своего кадавра, "за всё правильное и против всего плохого" :))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории