YandexGPT научат переводить текст с изображений, аудио- и видеофайлов
Нейросеть YandexGPT будут учить распознавать и переводить текст с изображений, аудио- и видеофайлов. Это следует из описания вакансии AI-тренера, опубликованной на сайте «Яндекса», пишут «Ведомости». Кандидат должен знать английский язык и обладать профессиональными навыками перевода, необходимыми для обучения больших языковых моделей. Представитель компании подтвердил, что «Яндекс» ищет AI-тренеров для улучшения текстовых переводов, но детали раскрыть отказался.
По словам источника «Ведомостей», близкого к «Яндексу», планируется нанять около десятка таких специалистов.
Согласно описанию вакансии, тренеры будут обучать генеративную модель, создавая собственные эталонные примеры, оценивать качество перевода и учить нейросеть распознавать и переводить текст с изображений и видео.
В начале 2023 года «Яндекс» уже вел набор соискателей по специальности «AI‑тренер» для обучения моделей семейства YandexGPT, напомнил представитель компании. Тогда набор состоял из специалистов гуманитарного направления, умеющих работать с русскоязычными текстами: профессиональных редакторов, журналистов, филологов, педагогов. По его словам, сейчас речь о категории сотрудников, способных обучить нейросеть узкоспециализированным тематикам. Например, разбираться в терминологии самых разных направлений: от физики до юриспруденции — чтобы точечно углубить знания модели.
В машинном обучении чистота и качество данных — самые важные критерии, говорит генеральный директор Dbrain, автор Telegram‑канала AI Happens Алексей Хахунов. Большинство компаний, занимающихся машинным переводом, регулярно нанимают себе разметчиков с узкими специализациями, чтобы развивать свои алгоритмы, сказал он.
По словам генерального директора рекрутинговой компании «Эллектус» Евгении Дворской, средние ожидания по заработной плате у AI‑тренеров с аналогичным опытом и продвинутым уровнем английского языка составляют около 150 тыс. рублей при удалённом формате работы. Наиболее опытные специалисты обойдутся компании в 200–250 тыс. рублей, а специалисты без аналогичного опыта обучения нейросети, но с хорошим уровнем английского могут стоить 60–70 тыс. рублей, рассказывает эксперт. «Профессия новая, и, скорее всего, ставки будут на обучение молодых специалистов при массовом найме», — отметила Дворская.
По словам Хахунова, для обучения современных моделей нужны два типа специалистов. Во‑первых, это нейролингвисты, которые знают, как работают нейросети. Они помогают создавать современные алгоритмы — в первую очередь машинных переводов. Во‑вторых, это специалисты, которые в совершенстве владеют несколькими языками и позволяют создавать пары между различными языками.
Основная сложность, по мнению эксперта, заключается в том, что для обучения современных моделей переводчик должен произвести не дословный перевод, а собрать семантически близкие виды переводов. «Одни и те же фразы по смыслу могут звучать по‑разному на разных языках, и важно, чтобы переводчик опирался на глубокое понимание языка, а не на дословный перевод», — объясняет он.