Комментарии 18
датасет
loss функцию
сделаем энкодинг
данных, которых не было в трэйн датасете
простой даталоадер
бейзлайн модели
несколько attention-голов
Статья на каком языке написана?
Ранглишь
Статья на каком языке написана?
Есть такое слово — рунглиш...
Покупатель: Мне полпаунда свисс-доу-фетного творогу.
Продавец: Тю!.. То разве ж творог - Свисс лоу-фетный? То ж чиз!
Покупатель (удивляясь): Чиз?
Очередь (в нетерпении): Чиз, чиз! Не задерживайте, люди же ждут.
Покупатель (колеблясь): Ну свесьте полпаунда чизу.
Продавец: Вам послайсить или целым писом?
Продавец: Фиш свежайший, малосольный салмон, к нам аж с Филадельфии ездиют.
Покупатель: А джус вон тот строберри, - что, немецкий?
Продавец: джус польский. А вот язык, очень рекомендую, - шо-то исключительное.
Покупатель: Та он в аспике?
Продавец: Ну и шо, што в аспике?! Шо, что в аспике?! Мы его сами дома с удовольствием кушаем.
Жена мужу: "Из драйвэя сразу бери направо, на следующем огне будет ю-терн, бери направо, бери его и пили две мили до плазы. За севен-элевеном опять направо, через три блока будет экзит, не пропусти. Номера у него нет, но это не тот экзит, где газ, а тот, где хот-дожная".
— Дай квотер, я митер подкормлю.
— Купи диллу пучок, силантро пучок, два лика.
— Кто это лик?
— Черт его знает. На нем лейбел: лик.
На понятном :-)
Спасибо. Интересно было бы с русским текстом каким, может Пушкина того же. А то Шексира не все могут прочувствовать.
Весной и летом делал примерно такие же опыты, с такими же результатами - на авторские произведения совсем не похоже. Конечно, у меня мизерные машинные ресурсы, относительно небольшие датасеты - всё равно мой результат не тянет даже на "pet" решение и похож на приведённый в посте. Направление решения я понял, только реализовывать их можно на масштабах таких же как и OpenAI, с их масштабами ресурсов.
на небольшом датасете всех произведений Шекспира... в датасете содержится около миллиона символов
это подозрительно :) должно быть в несколько раз больше
за познавательную статью спасибо, хотя не 100% понятно насколько она относится к GPT
А какие требования к железу?
Чего-то у вас к концу ленту зажевало.
Куда MultiHeadAttention()-то вставлять? В примере Вы снова биграммы трените.
Спасибо за статью! Если у кого есть хорошие (проверенные) аналогичные примеры, закиньте плиз в комменты, пытаюсь тоже делать такие штуки, но пока не очень выходит(
спасибо! отличная статья. мне кажется не раскрыта тема коррекции обучения.
Интересная статья. Для экспериментов прикольно.
Интересно ещё в какую сторону можно развивать даже такую простую модель, чтобы повысить качество результата.
А можно поинтересоваться почему для этой задачи автор выбрал букву, а не слово, как наименьшую единицу данных? Если бы он тренировал на словах, то у него не было бы в результате "несуществующих" слов. (Я не специалист, сильно не пинайте)
Входной словарик был бы побольше, конечно.
Построим GPT: с нуля и шаг за шагом