Подборка статей о машинном обучении: кейсы, гайды и исследования за февраль 2020



    Вслед за январским постом встречайте второй выпуск дайджеста. Здесь вас ждёт список англоязычных материалов за февраль, которые написаны без лишнего академизма. Публикации содержат примеры кода и ссылки на непустые репозитории. Упомянутые технологии лежат в открытом доступе и многие из них не требуют сверхмощного железа для тестирования.

    Статьи поделены на четыре типа:
    Анонсы опенсорсных инструментов и датасетов
    Практические руководства для PyTorch и TensorFlow
    Кейсы применения машинного обучения
    Исследования в области ML


    Анонсы опенсорсных инструментов


    ClearGrasp

    Алгоритм призван решить проблему с распознаванием прозрачных объектов, которые неравномерно отражают и преломляют свет. Для работы подойдет любая стандартная RGB-D камера.

    PyTorch3D

    Facebook анонсировал высокомодульную и оптимизированную библиотеку для PyTorch, которая упрощает глубокое обучение моделей на трехмерных изображениях.

    Hydra

    Новый фреймворк из эко-системы PyTorch, который призван решить проблемы, связанные со сложностью проектов. Предоставляет возможности управления проектом через командную строку и конфигурационные файлы.

    TensorFlow.js для React Native

    Инструмент не использует webview для рендеринга и не зависит от API веб-платформ, которые используются в браузере. Таким образом, это новая интеграционная платформа с бэкэндом, который подходит для этой среды.

    Matrix Compression Operator

    Оператор позволяет использовать любую функцию матричного сжатия, заданную как факторизацию, и создавать API тензорного потока, чтобы динамически применять это сжатие во время обучения любой переменной тензорного потока.

    Torchmeta

    Библиотека мета-обучения предоставляет единый интерфейс для разных датасетов, чтобы упростить создание новых алгоритмов.

    AutoFlip

    Часто требуется изменить ориентацию экрана с горизонтальной (16:9 или 4:3) на вертикальную. Наконец появился фреймворк, который помогает динамически обрезать кадры с минимальными потерями. Инструмент определяет границы кадра и движущиеся объекты, оставляя на экране только самое важное.



    Constrained Optimization Library

    Инструмент для TensorFlow, который позволяет уменьшить степень нечестных результатов при решении задач из реального мира, когда учитывается множество дополнительных параметров (например при выдаче банковских кредитов). Инструмент алгоритмически преобразует ограничения в выборке данных в игру с нулевой суммой для двух игроков.

    Poincare Maps

    С помощью гиперболической геометрии инструмент раскрывает иерархические отношения попарных сходств различных клеток. Это позволяет использовать машинное обучение для картографирования и анализа развития клеток организмов.

    PyTorch Lightning + Torchbearer

    Создатели высокоуровневой абстракции Torchbearer объединили усилия с набирающей популярность PyTorch Lightning и теперь работают в их команде. Абстракция автоматизирует разработку, делает код стандартизированным, поддерживаемым и масштабируемым. Таким образом, чтобы исследователи могли больше сосредоточиться на науке, а не работе с кодовой базой.

    Open Images V6

    Состоялся релиз шестой версии датасета Open Images, в котором существенно расширили тип маркировки и комментариев к изображениям. Капшены к фотографиям настолько подробные, что также повлияют на дальнейшее развитие междисциплинарных исследований, где компьютерное зрение совмещается с обработкой естественного языка.

    CCMatrix: набор данных для обучения моделей перевода

    Датасет состоит из 4,5 миллиардов битекстовых предложений в 576 языковых парах и поможет в создании более совершенных NMT-моделей.

    Руководства


    Распределенный метод главных компонент с использованием TFX

    Как TensorFlow Transform позволяет применять метод главных компонент в масштабируемой форме, используя ресурсы вычислительных кластеров, и как включить обработку преобразований в TFX-пайплайн.

    Ускорение нейронных сетей с использованием TensorNetwork в Keras

    Материал о том, как пользоваться библиотекой TensorNetwork для обработки тензорных сетей в контексте машинного обучения.

    TensorFlow Lattice: гибкое, контролируемое и интерпретируемое машинное обучение

    Вводный обзор о возможностях библиотеки для обучения ограниченных и интерпретируемых решетчатых моделей.

    Кейсы


    AR-маски с TensorFlow.js

    Купленный Loreal стартап ModiFace делится опытом применения машинного обучения в контексте AR-масок. На примере бьюти-бренда показано, как машинное обучение может применяться в еcommerce.

    Распознавание номерных знаков в реальном времени

    Пошаговый кейс доказывает, что машинное обучение доступно теперь каждому. Автор рассказывает, как в домашних условиях собрать бюджетное устройство, создать модель, обучить ее, разместить её на AWS, а также разработать клиентскую часть.

    Определение уровня загрязнения воздуха с помощью телефона

    Кейс по созданию приложения, которое определяет уровень загрязнения воздуха по фото с камеры телефона. Проблема, которую нужно было решить —краудсорсить данные от разных пользователей для дальнейшего обучения модели, но при этом обеспечить сохранность пользовательских данных.

    Добавления эффекта объема двухмерным изображениям

    Facebook делится опытом разработки свёрточной нейронной сети
    программы, которая создает эффект объемной фотографии для двухмерных изображений. При создании потребовалось решить массу проблем, как при обучении модели, так и при оптимизации системы для поддержки мобильных телефонов.



    Как не разориться при стремительном росте пользователей

    Как создатели Dungeon AI масштабировались, чтобы поддерживать 1 млн пользователей, и с помощью Cortex сделали микросервис на основе модели машинного обучения.

    Исследования


    Использование “Радиоактивных данных”

    Метод “Радиоактивных данных” позволяет определять, что модель машинного обучения была обучена с использованием конкретного набора данных. Это может помочь исследователям и инженерам отслеживать, какой набор данных использовался для обучения модели, чтобы они могли лучше понять, как различные наборы данных влияют на производительность различных нейронных сетей.

    TyDi QA: датасет из вопросов и ответов на разных языках

    Google опубликовала исследование и наборы данных, состоящий из 200 000 пар вопросов и ответов из 11 языков, представляющих широкий спектр языковых явлений. Участникам исследования предлагали на основе текста задать сопутствующий вопрос, ответ на который не содержится в тексте, после чего предлагалось найти ответ на вопрос в статье Википедии. И эти данные составили датасет.

    Искусственное создание наборов данных для клинических исследований

    В силу разных ограничений очень сложно создавать наборы данных с фотографиями кожных новообразований. Теперь появился инструмент, который генерирует необходимые данные для последующего обучения. DermGAN принимает в качестве входных данных реальное изображение и соответствующую ему предварительно сгенерированную семантическую карту с основными характеристиками реального изображения (тип кожи, состояние кожи, местоположение новообразования), из которой генерирует новый синтетический пример с запрошенными характеристиками.

    Ускоренное МРТ-сканирование

    Цель проекта – ускорить МРТ-сканирование пациентов в 10 раз с помощью ИИ. Снимки генерируются с помощью DNN из необработанных данных, и в этом процессе часто появляются артефакты. Исследование рассказывает, как вредоносное машинное обучение помогло сократить их количество.

    Оптимизация инфраструктуры для рекомендаций на основе DNN

    Исследование анализирует разные инфраструктуры, которые используются для выдачи персонализированных рекомендаций товаров, видео и пр. с помощью DNN. Также предоставляются инструменты чтобы проверить, насколько хорошо работают рекомендации, сделанные на основе DNN в производственном масштабе. Например, проводится бенчмарк серверов Intel, используемых в датацентрах (Broadwell, Haswell, Skylake).

    Txt2π

    Обзор нового подхода к обучению с подкреплением. Он призван помочь решить сложную задачу, в которой агенту необходимо совершать несколько шагов, на основе цели и знания об окружении, которое может меняться. Модель должна научиться играть в игру, где нужно побеждать монстров на основе определенных правил (Read to Fight Monsters).

    Обучение CNN на изображениях со сверхвысоким разрешением

    Существующие методы параллелизма данных и моделей позволяют обучать нейронные сети с миллиардами параметров, но при этом обучение на данных, состоящих из изображений с высоким разрешением, вроде снимков КТ, остается проблемой. В этой работе рассматривается применимость конволюционных нейронных сетей на изображениях сверхвысокого разрешения (есть код проекта).

    Обучение модели ориентированию на картах Street View

    Google собирает заявки от исследователей, которые готовы помочь создать набор данных для последующего обучений нейронных сетей пространственной ориентации.

    T5: новый инструмент для трансферного обучения

    В результате крупномасштабного опроса исследователи определили лучшее методики трансфертного обучения и применили эти идеи для создания предобученной модели T5, а также датасет на которой она обучалась.

    В мартовской подборке ожидайте статьи о применении ML в борьбе с COVID-19: определение температуры людей в реальном времени по инфракрасному излучению, диагностика вируса, отслеживание вспышек эпидемии и прочее. А пока на этом всё. Спасибо за внимание!

    Средняя зарплата в IT

    110 000 ₽/мес.
    Средняя зарплата по всем IT-специализациям на основании 8 431 анкеты, за 2-ое пол. 2020 года Узнать свою зарплату
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 5

      0
      Обучение CNN на изображениях со сверхвысоким разрешением
      Там правильная ссылка стоит?
        0
        Спасибо, заменил, теперь ссылка ведёт на статью (до этого вела на гитхаб проекта).
        0
        вредоносное машинное обучение помогло сократить их количество

        FastMRI leverages adversarial learning to remove image artifacts
          0
          Не совсем понимаю ваш комментарий. Могу только предположить, что вам показался неверным перевод. Гугл-транслейт переводит adversarial learning как состязательное обучение, и в ML есть такое понятие. В статье же говорится про “искажение” фото с помощью наклонов изображения, чтобы устранить полосы на снимках. То есть это все-таки про другое явление, которое у нас принято называть «вредоносным обучением». Подробнее об этом можно почитать тут.
            0
            «Вредоносный» не пердает сути. Наверняка в могучем русском языке есть нормальное слово.

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое