denis-19 Apr 19 2023 at 04:14

СМИ: «Яндекс» начал нанимать гуманитариев для обучения своей нейросети YaLM 2.0

2 min

15K

IT-companiesArtificial IntelligenceIT careerPersonnel Management * Studying in IT

Comments 12

Athari Apr 19 2023 at 04:56

Эта модель будет только для внутреннего пользования? А то модели OpenAI и Anthropic фигово работают с русским языком из-за токенизации, заточенной под английский язык, и было бы неплохо иметь что-то, нормально умеющее в русский. Пусть и с Товарищ Майор API 1.0 впридачу.

StSav012 Apr 19 2023 at 05:10

Ну, pymorphy почти умеет в токенизацию отдельных слов. Ещё прикрутить контекст — и в продакшен.

Athari Apr 19 2023 at 06:14

У нейронок своя логика для токенов, которая к сторогому научному словообразованию имеет весьма опосредованное отношение. У OpenAI, например, токен — часто "(пробел)слово".

freeExec Apr 19 2023 at 05:53

Наверное всё же из-за скудного датасета на русском. А русский он умеет кодировать по две буквы за раз.

Athari Apr 19 2023 at 06:10

Проблема не только и не столько в датасете — не то чтобы остальных языков было много. Когда в английском на одно слово уходит 2 токена, а в русском — 15, то возникает куча проблем, и основная — теряются логические связи между словами.

Если токен содержит корень английского слова, то модель осознает смысл этого корня, чётко выстроит все возможные связи с другими словами рядом, поймёт все возможные пути словообразования. А если токен соответствует полубукве русского слова, то у этой полубуквы нет своего смысла, а возможные связи с соседними полубуквами размазываются по миллионам вариантов. В результате — наркоманские галлюцинации, выдумывание слов и прочее.

Ну и чисто технические проблемы: скорость генерации текста уменьшается в 10 раз, размер контекста уменьшается в 10 раз (что особенно критично, потому что контекст мелкий даже для английских текстов).

dvoryakanton Apr 19 2023 at 05:32

Яндекс и нанимать? Через "сервисы партнеров" за мрот на фриланс будут искать гуманитариев.

agat000 Apr 19 2023 at 05:44

Главное не нанимать студентов. Они из хулиганских и раздолбайских побуждений такому научат....

Dimsml Apr 19 2023 at 06:53

Да нет, есть вакансия, так и называется AI-тренер.

Goupil Apr 19 2023 at 06:59

Это как нанимать кассиров для налаживания работы кассы самообслуживания. "Здесь вы научите замену себе и потом мы вас уволим в никуда"

ValeriyPus Apr 19 2023 at 07:10

«AI-тренер — это профессия будущего, которая требует экспертизы в области искусственного интеллекта (ИИ) и работы с текстом. Мы ищем таких специалистов, потому что разрабатываем YaLM 2.0 — нейросеть следующего поколения, которая будет работать в «Алисе», «Поиске» и других наших сервисах. AI-тренеры помогут нам выйти на качественно новый уровень обучения ИИ. Современные нейросети получают знания о мире из интернета, но, чтобы научиться их применять, нужен хороший тренер», — сообщил СМИ руководитель управления машинного интеллекта и исследований «Яндекса» Алексей Гусаков.

Это разметчики данных, которых, учитывая всякие Apache Spark (который делает синтаксический разбор на всех языках, и прочие coref), целая гора? ).

А делать генерализацию вопросов-ответов кто не дает(summarization)? ) Это знатно повысит качество текстов. Да еще с кросс-энтропией ).

Или ведущие ИИ корпорации собираются перепечатывать весь интернет? )

Источники внутри «Яндекса» пояснили, что зарплата одного такого сотрудника в Москве с учётом всех надбавок и бонусов может составлять около 150 тыс. рублей в месяц.

Удивительно, целых 2 тысячи долларов. Я вот сдавал экзамен на PhD vacancy (C++, з\п от 4 тысяч долларов) на 90%.

Уровень Яндекса оказался Значительно выше ). Яндекс - и не Google, но еще и не DreamCoder(DARPA).

Ioanna Apr 19 2023 at 11:29

PhD vacancy

А что это?

TexHNK Apr 20 2023 at 14:55

А в телегу не прикрутили еще YaLM?