Comments 12
Эта модель будет только для внутреннего пользования? А то модели OpenAI и Anthropic фигово работают с русским языком из-за токенизации, заточенной под английский язык, и было бы неплохо иметь что-то, нормально умеющее в русский. Пусть и с Товарищ Майор API 1.0 впридачу.
Ну, pymorphy почти умеет в токенизацию отдельных слов. Ещё прикрутить контекст — и в продакшен.
Наверное всё же из-за скудного датасета на русском. А русский он умеет кодировать по две буквы за раз.
Проблема не только и не столько в датасете — не то чтобы остальных языков было много. Когда в английском на одно слово уходит 2 токена, а в русском — 15, то возникает куча проблем, и основная — теряются логические связи между словами.
Если токен содержит корень английского слова, то модель осознает смысл этого корня, чётко выстроит все возможные связи с другими словами рядом, поймёт все возможные пути словообразования. А если токен соответствует полубукве русского слова, то у этой полубуквы нет своего смысла, а возможные связи с соседними полубуквами размазываются по миллионам вариантов. В результате — наркоманские галлюцинации, выдумывание слов и прочее.
Ну и чисто технические проблемы: скорость генерации текста уменьшается в 10 раз, размер контекста уменьшается в 10 раз (что особенно критично, потому что контекст мелкий даже для английских текстов).
Яндекс и нанимать? Через "сервисы партнеров" за мрот на фриланс будут искать гуманитариев.
Это как нанимать кассиров для налаживания работы кассы самообслуживания. "Здесь вы научите замену себе и потом мы вас уволим в никуда"
«AI-тренер — это профессия будущего, которая требует экспертизы в области искусственного интеллекта (ИИ) и работы с текстом. Мы ищем таких специалистов, потому что разрабатываем YaLM 2.0 — нейросеть следующего поколения, которая будет работать в «Алисе», «Поиске» и других наших сервисах. AI-тренеры помогут нам выйти на качественно новый уровень обучения ИИ. Современные нейросети получают знания о мире из интернета, но, чтобы научиться их применять, нужен хороший тренер», — сообщил СМИ руководитель управления машинного интеллекта и исследований «Яндекса» Алексей Гусаков.
Это разметчики данных, которых, учитывая всякие Apache Spark (который делает синтаксический разбор на всех языках, и прочие coref), целая гора? ).
А делать генерализацию вопросов-ответов кто не дает(summarization)? ) Это знатно повысит качество текстов. Да еще с кросс-энтропией ).
Или ведущие ИИ корпорации собираются перепечатывать весь интернет? )
Источники внутри «Яндекса» пояснили, что зарплата одного такого сотрудника в Москве с учётом всех надбавок и бонусов может составлять около 150 тыс. рублей в месяц.
Удивительно, целых 2 тысячи долларов. Я вот сдавал экзамен на PhD vacancy (C++, з\п от 4 тысяч долларов) на 90%.
Уровень Яндекса оказался Значительно выше ). Яндекс - и не Google, но еще и не DreamCoder(DARPA).
А в телегу не прикрутили еще YaLM?
СМИ: «Яндекс» начал нанимать гуманитариев для обучения своей нейросети YaLM 2.0