Pull to refresh

Claude 3 можно научить черкесскому языку. Из-за принадлежности к адыгской подгруппе язык относительно изолирован от других. А ещё изучать его не так-то просто из-за сложной морфологии и ограниченности данных.

С таким необычным заявлением выступил энтузиаст hahahahohohe. В длинном твите он описал свою работу последних нескольких лет: из скудных источников он собрал 64 тыс. переведённых терминов и выражений, чтобы обучить модели русско-кабардинского машинного перевода.

Экспериментатор вставил в промпт справочные случайно выбранные 5,7 тыс. пар кабардинский – русский, затем попросил Claude 3 перевести текст. Казалось, что даже с малой толикой датасета БЯМ немедленно освоила то, на что у энтузиаста ушло 2 года.

Модель Opus продемонстрировала глубокое понимание структуры языка, правильно использовала заимствованные термины и проводила правдоподобный этимологический анализ. По запросу она могла даже сочинять новые термины.

Действительно, язык представлен в Интернете относительно слабо: в «Кабардино-черкесской Википедии» на сегодняшний день 1635 статей и 232 482 слов. Но в датасете предобучения язык всё же был в некотором объёме.

Как признался энтузиаст на следующий день, Claude 3 знает черкесский и так. Opus умеет переводить и общаться на языке, пусть и с ошибками. И вообще, поначалу модель переводить с черкесского просто отказывается, что и подкрепило иллюзию изучения языка из промпта.

Впрочем, предоставление дополнительных данных в промпте действительно улучшает качество работы модели.

Tags:
Total votes 4: ↑4 and ↓0+4
Comments2

Articles