Привет, Хабр! Меня зовут Настя Бурьянская, я занимаюсь координацией LLM-проектов в MTS AI. Сегодня я расскажу вам о том, как мы силами пяти человек за месяц научили нашу большую языковую модель Cotype Lite общаться на татарском языке.Я лишь недавно пришла в компанию, проработав до этого несколько лет проджектом в e-com, поэтому сфера LLM для меня все еще немного в новинку. Поэтому, когда мне дали задание перевести нашу модель на татарский язык, я была воодушевлена и немного напугана, потому что лидировать разработку большой языковой модели мне довелось впервые. Эту статью сложно назвать классической историей успеха — скорее, вас ждет рассказ о том, чему я научилась, занимаясь этим проектом.
Зачем вообще понадобилась модель на татарском?
Забегая вперед, скажу, что мы представили нашу новую версию модели на форуме Kazan Digital Week, который проходил в Татарстане с 9 по 11 сентября. У нее почти тот же функционал, что и у версии на русском языке — может отвечать на общие вопросы, анализировать документы до 8 тысяч токенов и суммаризировать их.