Комментарии 9
Более 5 000 сотрудников Databricks работали над созданием databricks-dolly-15k в марте и апреле 2023 года.
databricks-dolly-15k - это датасет, содержащий 15 000 высококачественных пар запрос-ответ.
Я, конечно, не специалист по такого рода датасетам, но 5000 человек за 2 месяца могли бы и побольше датасет собрать/нагенерить...
Писать с нуля а не вставлять то что нагуглилось, вкладывая в ответы суть и смысл, к тому же сверхурочно помимо основной работы, такое себе. Впрочем сообществу от этого только плюсы. Уже как минимум два качественных датасета имеется, от OpenAssistant и Databricks. Думаю стоит работать и дальше в эту сторону, и нам, русскоязычному сообществу тоже стоит подумать над собственным датасетом и дообучением моделей.
Ну, учитывая, что ещё прошла только половина апреля, то за 1,5 месяца шикарный результат. :)
3 пары запрос - ответ с требованием, что они должны быть уникальны, за 2 мес или 43 рабочих дня... Невероятно...
Личный опыт: для программирования сейчас дает лучший результат среди открытых и бесплатных моделей, но до закрытых конечно далеко еще. Закрытые уже неплохо предсказывают, то есть "читают мысли".
Вы имеете в виду Dolly 2? На каких языках и задачах сравнивали? Викуну 13б смотрели в этом плане?
Долли 2 опередила предыдущего лидера Викуну 13б в моих тестах. Тестировал вопросами на Питоне, ПХП, Расте и ЖС, но я не думаю, что конкретный ЯП имеет какое-то значение тут)
Просил просто сгенерировать функцию на основе естественного языка (англ.), описывал вход и выход.
Спасибо за статью. Приду домой, перечитаю внимательно. Хочется иметь свою домашнюю ИИ, чтобы поговорить "зажысь". Просто так, чтобы был. :) Интересно было бы обучить с нуля самому. И открытые проекты в этой сфере как нельзя кстати, можно не просто пользоваться, но и лепить своего кадавра, "за всё правильное и против всего плохого" :))
Dolly 2 — открытый аналог ChatGPT со свободной лицензией