Pull to refresh
11
34
Николай Герасименко @nikgerasimenko

ML Engineer (NLP)

Send message

Kandinsky Image научился генерировать изображения с надписями на русском

Level of difficultyEasy
Reading time3 min
Views7.3K

Мир никогда не станет прежним! Теперь можно генерировать котов с добавлением смешных надписей на русском, а разве не ради этого мы создавали искусственный интеллект?

Сегодня мы выпустили обновление модели генерации изображений Kandinsky. Модель научилась генерировать надписи на кириллице. Не просто текст поверх изображения, а органично вписанный: начерченный на стене, выпиленный из дерева, отлитый из металла, вышитый, связанный или выложенный лепестками роз.

Читать далее

Kandinsky 4.1 Image – новый генератор изображений от Сбера

Level of difficultyMedium
Reading time4 min
Views7.6K

В декабре прошлого года на конференции AI Journey наша команда представила  диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

Читать далее

Генерируем презентации с помощью GigaChat и Kandinsky

Level of difficultyEasy
Reading time7 min
Views6K

Все мы время от времени сталкиваемся с необходимостью сделать презентацию, даже если наша работа, казалось бы, этого не предполагает. Часто это трудоёмкая задача, которая досадно надолго отвлекает от просмотра мемов действительно важных дел вроде написания кода и обучения моделей.

Мы решили проверить, насколько современные LLM и модели генерации изображений могут тут облегчить нам жизнь, учитывая, насколько мощно они продвинулись в последние годы. Для этого мы собрали MVP на базе GigaChat-Max и Kandinsky 3.1, принимающий на вход текстовый запрос и количество слайдов и генерирующий файл презентации в формате .pptx.

Читать далее

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

Level of difficultyMedium
Reading time7 min
Views8.3K

Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в области эмбеддингов научных текстов выбор не такой широкий, особенно для русского языка. Для английского языка существует бенчмарк SciDocs и его расширенная версия SciRepEval, разработанные Allen Institute for AI. Для русского языка первый бенчмарк ruSciDocs был опубликован нами около года назад вместе с моделью ruSciBERT, и состоял из небольшого количества данных на русском языке, которые мы смогли собрать в открытом доступе (на порталах ЕГИСУ НИОКТР и Semantic Scholar).

В этом году, благодаря данным, которые предоставил нам портал eLibrary, мы смогли сделать следующий шаг и подготовили бенчмарк ruSciBench, который содержит гораздо большее количество данных по большему числу тематик. Кроме того, в ruSciBench почти для всех статей есть аннотация как на английском, так и на русском языках, что дает возможность тестировать сохранение семантики при смене языка.

Читать далее

Как мы фронтиры науки с помощью тематического моделирования искали

Reading time13 min
Views3.4K

Некоторое время назад перед нашей NLP-командой была поставлена необычная задача: построения системы определения фронтиров науки. Некоторые из нас до постановки задачи ни разу даже не слышали слово «фронтир», и мы начали с того, что стали разбираться, что оно значит. Буквальное историческое определение слова frontier – это граница между освоенными и неосвоенными поселенцами свободными землями на Диком Западе. Естественно, от этого буквального определения нам была интересна только часть про границу между освоенным и неосвоенным, она же «передний край науки». Получается, перед нами была поставлена задача автоматически определить, где проходит этот передний край.
Читать дальше →

Information

Rating
234-th
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity