Как стать автором
Обновить
102
Карма
0
Рейтинг
Sergei Belousov @BelBES

Пользователь

Большому художнику – большой критик: новые версии модели ruCLIP для ранжирования результатов ruDALL-E (и не только)

А какой процент пересечения с laion у вас в данных?

Большому художнику – большой критик: новые версии модели ruCLIP для ранжирования результатов ruDALL-E (и не только)

Все новые версии ruCLIP были обучены на открытых данных, собранных из Рунета, а также на данных экосистемы Сбера. Всего удалось собрать около 240 млн уникальных пар “изображение-описание на естественном языке”.

А почему вы не используете LAION-400M? Он, конечно, не русскоязычный, но если цель в закидывании модели даткой, то даже автоматический перевод аннотаций может дать гейн (либо использовать multilingual обучение)

Российские мобильные операторы перестали подключать новых абонентов к безлимитному интернету

Проблема в том, что  видеозвонок или видосик в ютубе/тик-токе - это копейки. Как и спотифаи с подкастами.

Копейки относительно чего? Пара часов стояния в пробках с прослушиванием стриминговой HQ музыки накручивают ~2Gb трафика. Надо полагать, что столько же времени просмотра видосиков в день займут еще больше трафика.

Вообще, количество людей, решивших отстоять своё право на трафик в этом топике меня умиляет :)

И чего в этом плохого?

Российские мобильные операторы перестали подключать новых абонентов к безлимитному интернету

Меня всегда занимал вопрос, на что люди тратят все эти гигазы? 

В третьем десятилетии 21 века ваш вопрос просто не имеет смысла: интернет настолько плотно вошел в жизнь многих людей, а ресурсы доступные в интернете настолько далеко ушли от статичных страниц фиксированного размера, что подсчет трафика вести бесполезно да и незачем пользователю знать, во сколько мегабайтов ему обошелся какой-нибудь видеозвонок или видосик в ютубе/тик-токе

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Согласен, я умышленно загрубил свое высказывание, чтобы не вдаваться в подробности ;) На графике, на самом деле, можно предположить и корреляцию между трейн/тест как один из факторов, благодаря которому точность в ноль не падает на тесте и другие причины такого поведения.

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

В целом это проблема не только автоэнкодеров, а вообще всех нейронных сетей (да и других тренируемых моделей тоже). В первую очередь модель же пытается заучить все, что ей показывают (т.к. методы обучения от нее именно этого и хотят обычно в явном или не очень виде), а обобщать начинает уже от безысходности, когда емкости не хватает для заучивания.

Тут скорей вопрос в том, насколько конкретная модель заучила трейн и является ли это проблемой конкретного пайплайна, или другие large scale сети для text-to-image (в частности CogView, который публично доступен и с которым можно как-то сравниваться) тоже склонны к меморизаци в +/- той-же степени. Ну т.е. очень круто, что Сбер тратит ресурсы на тренировку гигантских сетей и выкладывает это в паблик под свободной лицензией, но хотелось бы, чтобы модели были действительно полезными, а не только "самыми большими") А без хоть каких-то метрик и анализа не понятно, насколько оно полезно.

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Там время линейно скейлится относительно числа параллельно генерируемых картинок, если использовать images_num=1, то на 1x1080Ti выходит вполне терпимые ~4 минуты на запрос

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Судя по семплам из комментариев и моих экспериментов с этой сеткой, складывается ощущение, что сеть серьезно страдает проблемой меморизации...Есть ли какой-то анализ полученной модели? Какие значения FID оно показывает на валидационной выборке, как соотносится с DALL-E, CogView на COCO etc.?

Как мы тестировали и дообучали одну из самых хайповых разработок года

к сожалению, первая статья по FID куда-то пропала

оригинальная статья с описанием метрики тут

Как мы тестировали и дообучали одну из самых хайповых разработок года

Так а выводы то какие? Что мешает генерить качественные картинки и какой потенциал? :)

Таким образом, очевидным bottleneck’ом для данной архитектуры является автоэнкодер (VAE)  если он не способен восстановить исходное изображение процедурой encode-decode с приемлемым качеством, то и DALL·E никогда не сможет сгенерить изображение хорошего качества.

С VQVAE все +/- понятно и с генерацией картинок мы уже неплохо умеем работать, а вот все самое интересное у DALL-E определенно происходит в трансформере, который должен мапить текст в кодовую книгу. И исходя из статейных кратинок, там проблема явно не в рендеринге, а в том, что семантически оно рендерит ерунду. Но анализ этого вопроса остался за бортом :(

p.s. кстати, DALL-E - это уже прошлый век. Буквально недавно группа исследователей из Китая опубликовала свою работу CogView, и заявляется, что она бьет DALL-E по метрике FID. И в отличие от скрытных ребят из OpenAI, тут всё выложили в open source, включая снапшоты и можно покрутить в руках.

ComputerVision и стиль

В целом, я видел за последние пол года несколько примеров удачного внедрения StyleGAN в бизнес (про ту же одежду, например автоматическое формирование фото на моделях для сайтов). 

N-е время назад я выложил python библиотеку для генерации лиц и там что-то около 250 скачиваний в месяц, надеюсь что хоть кто-то из скачавших её использует в продакшене, а не только на поиграться :D Правда пока из кейсов для генерации лиц видел только всякий скам с генерацией аватар для автоматически регистрируемых аккаунтов :D

Но конечно, там очень узкое применение.

Это, по моему, вообще для всей области справедливо: идеологи рисуют славное будущее с повсеместно автоматически генерируемым контентом, а на практике всё ограничивается дай бог десятком кейсов, связанных с энтертейнментом

ComputerVision и стиль

Подумаем как можно математически представить лицо. Удивительно, но лицо это достаточно простой объект. Ещё лет 20 назад начали появляться работы на тему 3DMM

Аналогия с 3DMM хорошая. Про StyleGAN2 можно думать так, что:

  • ConstantInput - это "параметрическая модель" целевого класса объектов (примерно то, что строится в процессе обучения 3DMM)

  • Modulation/Demodulation - это ручки, дергая за которые можно из модели слепить нужный нам объект

Вот если так думать про стайлган, то становятся +/- понятны его границы применимости (в частности, почему авторы даже не пытались тренировать его на ImageNet).

А вот тут мы немножко прервемся и поговорим о теории. Вы не задумывались над вопросом почему большая часть StyleGAN работ про лица? 

Ну вообще в генеративках вроде бы генерация лиц - это почти стандарт де факто, к тому же авторы стайлгана попутно с самой сеткой клэймили и создание FFHQ датасета, поэтому сами и делают упор на своем собственном датасете. В принципе в сети можно найти приличные модели и для пейзажей, абстрактного арта и тд и тп. В целом, имхо, аргументация, что кроме лиц он нигде толком не работает из-за сложности модели - довольно слабая. Вернее с одной стороны это очевидно и справедливо для вообще любых моделей. А с другой сложно сказать, сколько было приложено усилий для того, чтобы получить качественную модель для другого домена:

  • Сами NVIDIA, как уже отмечалось выше, больше любят играться со своим датасетом FFHQ, а претрены для других больше для галочки выложили (и даже на них насколько помню на момент выхода статей это был state of the art).

  • Играться с StyleGAN2 - дорого и требует ресурсов больше, чем доступно среднестатистическому indie-рисерчеру, поэтому нужна высокая мотивация для того, чтобы тратить деньги на тренировку моделек. В основном пользовательские модели тренируются на куда более скромном железе и меньше по времени, соответственно и получаются модели так-себе качества. Даже у академиков я встречал статьи, где какие-то безумные парни тренировали стайлган и свою модификацию что-то около двух месяцев (!!!) на одной RTX 2080 GPU чтобы получить результаты.

  • Сам по себе FFHQ очень качественный датасет в котором и качество фото достаточно однородное по датасету и лица все выровнены, без оклюзий, достаточно фронтальные и тд и тп. Насколько качественно подготовлены данные в других датасетах - вопрос открытый, а как известно данные решают многое.

Т.ч. я бы сказал, что в основном StyleGAN работает на лицах потому, что авторы уже выложили хороший претрен, а больше особо и некому было инвестировать достаточно усилий в тренировку для других доменов и выложить это в паблик. К тому же генерация лиц, в связке с замечательными свойствами StyleGAN по части манипуляций с латентом, дает мощный инструмент для решения достаточно понятной задачи, поэтому вокруг по сути одного снапшота выросло целое направление рисерча по поводу инверсий и манипуляций с латентом конкретно для стаайлгана. Какой-то осмысленный кейс для генератора лошадей придумать сложно...

И тут, имхо, лежит фундаментальная проблема всей области генеративных моделей:

  • Стоимость исследований тут очень высокая. Условный DALL-E смогли натренировать только OpenAI, и в мире может быть найдется еще дай бог десяток компаний, где могли бы повторить что-то такое. Или с тем-же StyleGAN для лиц - люди придумывают очень замысловатые способы инверсии, но по сути пытаются сетями решать проблему адаптации домена, когда сетка наученная на стерильном FFHQ довольно не очень реконструирует реальное фото, т.к. это тупо out of domain сэмпл (для in-domain примеров у меня получалось качественно делать инверсию тупо подфайнтюнив mobilenet на парах [картинка, ее латентный код])...и людям проще придумать новый метод, чем закидать стайлган данными и дотренировать, как бы это сделали люди их индустрии.

  • Универсальных пртренов тут до сих пор никто не придумал. Т.е. тут нет такого, чтобы условный OpenAI/NVIDIA/etc. выложил супер-сетку, которую малыми усилиями можно дофайнтюнить на свою задачу...как это происходит со всякими трансформерами типа GPT/BERT/etc.

Как итог - исследователи не имеющие доступа к очень большим ресурсам, вынуждены либо кучковаться вокруг того небольшого пула задач, что корпорации выложили в паблик, либо довольствоваться более скромными результатами, не претендующими на SOTA и в целом вся область хоть как-то двигается стараниями кучки лабов, которые по пальцам пересчитать можно. Например для задачи синтеза изображений есть довольно прикольная статья, которая хоть и не дает SOTA результатов, зато приемлемый результат позволяет получить буквально за день на одной бытовой GPU'шке.

з.ы. а что касается стайлгана, то недавно я тоже заинтересовался темой современных генеративок и в принципе могу отчасти подтвердить тезис про простоту генерации лиц, т.к. по ходу своих экспериментов удалось ужать StyleGAN2 примерно в x9.5 раз, при этом сохранив визуально приличное качество генерации. И кажется, что этот эксперимент показывает, что изначально StyleGAN2 - довольно избыточная сетка для решения этой задачи.

Смартфон на Linux: как обстоят дела

ПО тоже кое-какое уже есть, а в принципе можно запускать любое линуксовское ПО, и пофиг на то, что оно в большинстве своём написано для х86

Так в итоге все это "можно запускать любое линуксовское ПО" заткнется не из-за сложностей портирования с x86 (а если в коде есть ассемблер/интринсики, то оно еще и не факт что тривиально перенесется под ARM), а в то, что на мобильных графических оболочках им пользоваться невозможно будет.

Смартфон на Linux: как обстоят дела

Это вполне отличная ОС

На сколько я знаю Sailfish OS это так же Аврора, только более допиленная.

Мой опыт с Sailfish (на Gemini PDA, куда разработчики его нативно портировали) говорит, что эти два пункта не могут существовать одновременно :) Если по сравнению с авророй sailfish является "более допиленной", то страшно представить, насколько все плохо у этой авроры.

Собеседование в Яндекс: театр абсурда :/

Будто бы база для алгоритмиста чем-то отличается. Вопрос в глубине экспертизы и решаемых задачах.

Собеседование в Яндекс: театр абсурда :/

Ну нет смысла нанимать выделенного алгоритмиста. Весь абсолютно программный код по определению — алгоритмы. Большая часть — тривиальные, типа пройтись по списку и выбрать минимум или сложить 2 числа.

Под "алгоритмистами" чаще всего понимают рисерч-инженеров… давайте расскажите, как компаниям не нужен R&D и все можно порешать на уровне понимания "сейчас пройдемся по списку и сложим два числа"...

А вы знали, что в основе ОС 85% смартфонов лежит Linux?

Что до LibreOffice… Неужели ТС не сталкивался с такой ситуацией: открываешь в Libre Office Writer документ MS Word — а там вся структура поплыла?

Осталось понять, зачем в 2021 пользоваться оффлайн офисом, когда есть отличный облачный Google Office, или не менее качественный облачный Office365 от микрософта… и тот и другой в принципе закрывают потребности бОльшинства пользователей офиса (разве что экстремальны кейсы с какими-нибудь жуткими табличками в экселей на несколько гигов могут колом встать в облаках).

400 новых игр на подходе: глава Google Stadia подвёл итоги первого года работы сервиса

Ага, тоже тут недавно захотелось "вспомнить молодость" и поиграть в игрушки, а накатывать на десктоп ради этого дела Windows совсем не хотелось и начал пробовать облачные сервисы. Stadia согласилась работать только из под VPN, т.к. в России официально ее нет (что автоматически сузило канал и удлинило пинг до серверов), набор игрушек оказалася какой-то очень ограниченный и в целом сервис "не зашел"… до кучи они мне уже месяц не могут корректно оформить возврат денег за игрушку. А вот GFN оказался на голову выше: есть сервера региональные с хорошим пингом, и зоопарк игр большой и клиент оказался удобней + круто, что игры не привязаны к сервису и если мне приспичит, то я могу скачать клиент из родного магазина и установить локально (в отличие от стадии). В общем потыкал несколько дней и остался доволен, даже лагов почти не заметил)

Линус Торвальдс объяснил, почему он не будет покупать Mac на чипе M1

постоянно раздражает то, что на внешней клавиатуре со стандартной раскладкой пальцы не помнят, куда там макос клавиши-модификаторы мапит

Линус Торвальдс объяснил, почему он не будет покупать Mac на чипе M1

Идеально для разработчиков, которые не пишут код, но которым важно показать свой статус

Для инженера стоимость макбука в пределах покупки с одной зарплаты, о каком статусе речЬ?: рука-лицо:

Информация

В рейтинге
Не участвует
Откуда
Нижний Новгород, Нижегородская обл., Россия
Дата рождения
Зарегистрирован
Активность