Привет, Хабр! Сегодня поговорим о новостях из мира Data Science. За пару последних месяцев как отечественные, так и зарубежные компании представили много всего интересного. Отличились и студенты, обучающиеся профессии «Data Scientist Pro», — они разработали нейросеть, которая написала сценарий для сериала СТС «Сидоровы».
Но есть и другие новости из мира машинного обучения и нейросетей. Так, мы изучили новинки и выбрали несколько, на наш взгляд, самых любопытных проектов. Понятно, что подборка субъективная, но интересна она будет самому широкому кругу читателей, связанных с Data Science. Если у вас есть что добавить, то расскажите в комментариях — обсудим.
Википедия будет выполнять факт-чек источников в статьях при помощи ИИ
В конце июля Википедия рассказала о партнерстве с Meta AI для проверки источников в своих статьях. На текущий момент Википедия включает около 6,5 млн статей, так что всех добровольных редакторов, которые работают на благо ресурса, не хватает для оперативной проверки текстов. ИИ-система от Meta*, получившая название Sphere, поможет выполнять факт-чек контента и подтверждать источники и цитаты.
Meta* добавила в базу своей системы около 134 млн открытых веб-страниц, чтобы ИИ мог проверять надежность источников информации. Права редактора искусственному интеллекту, правда, не предоставили. Так что платформа будет отмечать некоторые источники как неблагонадежные. Ну а редакторы-люди, которым уже не нужно посвящать много времени факт-чеку, будут править допущенные ошибки в случае необходимости.
Обучение ИИ-геймингу
В том, что искусственный интеллект может играть в самые сложные компьютерные и не только игры, сомнений не возникает уже ни у кого. Но чтобы ИИ мог играть, систему нужно обучать, что непросто и не очень быстро. Недавно специалисты из OpenAI решили провести исследование, задачей которого было выяснить, можно ли оптимизировать процесс обучения.
Пока что это только базовое изучение возможностей ИИ и попытка обучать систему дополнительными методами. Так, специалисты дали просмотреть специально разработанной нейросети свыше 70 000 часов видео по Minecraft, где блогеры обучают игроков создавать игровые аксессуары. В частности, алмазные инструменты.
Как оказалось, достаточно разметить небольшой объем данных, чтобы видео стали пригодными для обучения нейросети. В результате она научилась не только создавать в игре разные предметы, но и правильно перемещаться в виртуальном мире, а также добывать ресурсы.
Особенность тут в том, что для нейронной сети нужна обучающая выборка. Авторы, по сути, решили использовать реальные обучающие видео и превратили их в датасет для нейронной сети. Оказалось, что это более эффективный способ ее обучения, чем датасет, построенный просто на размеченном видео из игры, если цель — научить игрового бота создавать предметы.
«Яндекс» открыл модель генерации теста YaLM-100B
Корпорация «Яндекс» использует языковые модели YaLM в ряде своих продуктов, включая «Поиск» и в кавычках. Кроме того, модели такого типа работают в службе поддержки, рекламных объявлениях и описании сайтов в сниппетах.
YaLM-100B — самая большая в компании модель, сразу на 100 млрд параметров. Ее обучали 65 дней на 1,7 ТБ текстов из интернета, включая книги и другие источники. Обучение велось на суперкомпьютерах компании, на основе материалов как на английском, так и на русском языке. Обучение проводилось на базе 800 видеокарт А100. В конце июня модель опубликовали на «Гитхабе», где с ней и можно ознакомиться, использовать ее можно как в исследовательских, так и в коммерческих проектах.
Сам «Яндекс» использует YaLM более чем в 20 проектах. Возможностей у моделей YaLM много. Их задача — определение по готовому тексту принципа его построения и генерирование похожих текстов. Так, модели в состоянии создавать идеи для рекламных кампаний, генерировать описания товаров и видео. А также сочинять стихи и поздравления, классифицируя их по стилю речи и другим параметрам.
Генерация обложек для глянцевых журналов
Только появившись, Нейросеть DALLE-2 наделала изрядного шума в СМИ. Она научилась создавать реалистичные изображения по текстовому описанию. По словам разработчиков, она изобрела даже собственный язык для обсуждения изображаемых объектов.
Кроме того, ее создатели помогли сгенерировать реалистичное изображение для глянцевого журнала Cosmopolitan. Соавтором обложки, если так можно выразиться, стала художница Карен Икс. В этот раз она ничего не рисовала сама, а составила именно текстовый запрос для нейросети.
По ее словам, это было непросто, пришлось перебрать тысячи и тысячи вариантов, прежде чем остановилась на запросе «широкоугольный снимок с нижнего ракурса женщины-астронавта со спортивным телосложением, идущей в камеру на Марсе в бесконечной Вселенной, в стиле цифрового искусства». С машинами почти всегда так — для того чтобы получить правильный или желаемый ответ, нужно сначала научиться корректно задавать вопросы.
Вероятно, художница нарисовала бы обложку вручную быстрее, чем у нее ушло времени на составление запросов для нейросети. Но лиха беда начало — то, что начинается сейчас, в будущем может стать одним из популярных направлений цифрового искусства.
Крупнейшая модель от Google научилась решать сложные математические задачи
В апреле 2022 года корпорация Google представила одну из самых крупных языковых моделей, PaLM, сразу с 540 млрд параметров. После изучения модели оказалось, что она превосходит большинство других языковых моделей в большей части бенчмарков.
Обучали ее путем задействования 644 тензорных процессора Google TPU, с использованием платформы параллельных вычислений Pathways. Данные для обучения — английские и многоязычные датасеты с текстами сайтов, книг, статей Википедии, обычных чатов и кодов с GitHub.
Прежде чем представить модель миру, корпорация проверила ее в нескольких сотнях тысяч задач. Модель показала отличные результаты в плане понимания и генерации языка. А также превосходство в решении большинства таких задач в сравнении с «коллегами». При тестировании модель должна была определять причину и следствие, «понимать» содержание текстов, угадывать фильмы по эмодзи, искать синонимы и контраргументы, переводить тексты.
Ну а сейчас эту модель дообучили математике на наборе научных и математических данных. В результате удалось получить систему, которая может решать не только простые математические задачи, но и гораздо более сложные. Причем ставят их на естественном языке. Действует модель следующим образом: сначала разбивает задачу на этапы, а потом генерирует несколько возможных решений для каждого из них. Модель позволяет по-новому оценить границы применимости машинного обучения.
«Расширение областей применения машинного обучения не может не радовать. Обычно от моделей, созданных в недрах корпораций, до реального решения проблем нужно пройти довольно долгий путь. То, что ML будет использоваться для чека страниц Википедии, — это уже реальное решение проблем. Остальные новости в основном связаны с работой с самими моделями. Открытый доступ к модели «Яндекса» может помочь тем, кто хочет сам поэкспериментировать и работать с обработкой текстов в своем бизнесе. Работы по обучению игровых моделей, генерация журналов и решение задач — это полезные шаги в развитии методов решения проблем. Но до реального применения в бизнесах еще должно пройти какое-то время», — прокомментировал новости спикер профессии «Data Scientist PRO» в Skillbox и Product analyst Team Lead в корпорации Citrix Кирилл Шмидт.
Что же, на сегодня все, если рубрика вам понравится, сделаем ее ежемесячной. Ну а в случае, если у вас есть что рассказать из новинок мира Data Science, — давайте обсудим в комментариях.
*Компания Meta и социальные сети организации признаны экстремистскими на территории России.