• 10 научных статей о реставрации с помощью глубокого обучения, которые должен прочитать каждый

    • Translation
    В скором времени у нас стартует новый поток продвинутого курса «Machine Learning Pro + Deep Learning», а сегодня мы делимся постом, в котором рассказывается о подходах к реставрации с помощью глубокого обучения. Реставрация изображений в разрезе глубокого обучения — это задача заполнения потерянных пикселей так, чтобы итоговое изображение выглядело реалистично и соответствовало оригинальному контексту. Некоторые приложения метода, такие как удаление нежелательных объектов и интерактивное редактирование изображений, показаны на кдпв. Приложений на самом деле так много, как вы только можете себе представить.
    Приятного чтения!
    • +22
    • 3.1k
    • 2
  • Кризис воспроизводимости исследований в области искусственного интеллекта

    • Translation

    В исследованиях ИИ доминируют технологические гиганты, однако грань между реальными прорывами и рекламой коммерческого продукта постепенно размывается. Некоторые учёные считают, что пора это прекратить.




    В прошлом месяце в журнале Nature опубликовали ругательный отзыв, подписанный 31 учёным. Им не понравилось исследование Google Health, ранее появившееся в этом же журнале. В нём компания Google описывала успешные результаты испытаний искусственного интеллекта (ИИ), искавшего признаки рака груди на медицинских фотоснимках. Критики утверждают, что команда Google предоставила так мало информации о коде и ходе испытаний, что исследование оказалось больше похожим на рекламное описание закрытой частной технологии.

    «Мы не могли это больше выносить, — говорит Бенджамин Хайбе-Каинс, ведущий автор отзыва, изучающий вычислительную геномику в Торонтском университете. – И дело не в этом конкретном исследовании – мы уже много лет подряд наблюдаем подобную тенденцию, и это нас уже реально раздражает».
    Читать дальше →
  • Введение в обработку изображений в Python при помощи Pillow

    • Translation
    • Tutorial

    Бывает такой заходишь на почту и видишь очередную подборку статей, которые никогда не прочитаешь, но тут так сошлись звезды, что и открыл статью, и прочел, и придумал, где на практике пригодится. А теперь хочу поделиться статьей с Хабром, чтобы если кому-то нужен будет простой и понятный гайд по работе с изображениями на Python — пожалуйста.


    Pillow — это свободно распространяемая библиотека для работы с изображениями (далее Imaging Library) на Python с открытым исходным кодом, которая добавляет вашему коду поддержку открытия, изменения и сохранения изображений в различных расширениях.

    Читать дальше →
  • Популярная лингвистика. Часть 1. Маме — пиджин, детям — креол

      Brilliant Mironov


      Если вам интересно, что такое пиджин и чем он отличается от креола, на каком языке общаются пришельцы и откуда есть пошёл дотракийский язык, то этот небольшой цикл статей для вас.

      Читать дальше →
    • Играемся с 3090 и пробуем MIG на A100


        Каждый раз, когда встает заветный вопрос, апгрейдить ли карточки в серверной или нет, я просматриваю подобные статьи и смотрю такие видосы (нет, маркетинговым материалам от Nvidia конечно верить нельзя, как показал недавний кейс с числом CUDA-ядер).


        Канал "Этот Компьютер" очень сильно недооценен, но автор не занимается ML. А в целом при анализе сравнений акселераторов для ML в глаза как правило бросаются несколько вещей:


        • Авторы учитывают как правило только "адекватность" для рынка новых карт в США;
        • Рейтинги далеки от народа и делаются на весьма стандартных сетках (что наверное в целом хорошо) без деталей;
        • Популярная мантра тренировать все более гигантские сетки вносит свои коррективы в сравнения;

        Не нужно быть семи пядей во лбу, чтобы знать очевидный ответ на вопрос "а какая карта лучше?": карточки серии 20* в массы не пошли, 1080 Ti с Авито до сих очень привлекательны (и не особо дешевеют как ни странно, вероятно по этой причине).


        Все это прекрасно и вряд ли стандартные бенчмарки сильно врут, но недавно я узнал про существование технологии Multi-Instance-GPU для видеокарт А100 и нативную поддержку TF32 и мне пришла идея поделиться своим опытом реального тестирования карточек на архитектуре Ampere (3090 и А100). В этой небольшой заметке я постараюсь ответить на вопросы:


        • Стоит ли свеч обновление на Ampere? (спойлер для нетерпеливых — да);
        • Стоят ли своих денег A100 (спойлер — в общем случае — нет);
        • Есть ли кейсы, когда A100 все-таки интересны (спойлер — да);
        • Полезна ли технология MIG (спойлер — да, но для инференса и для очень специфичных случаев для обучения);

        За деталями прошу под кат.

        Читать дальше →
      • Гиперпараметры: как перестать беспокоиться и начать их оптимизировать

          «Подбор гиперпараметров». Если у вас в голове при произнесении этой фразы прокатились несколько панических атак и непроизвольно задергался глаз, а, возможно, и рука в инстинктивном желании перевернуть стол с криками «Да ну его, этот ваш дата сайнс» (нецензурную брань оставим за скобками), значит вы, как и я, хоть раз пытались обучить наивный байес мало-мальски тяжелую модель на большом объеме данных.





          Источник изображения: thecode.media



          Размер батча, learning rate, размер того слоя, размер сего слоя, вероятность dropout-a. Страшно? Уже представляете часы (дни) ожидания? А это я еще про количество голов у трансформеров не говорил…

          Читать дальше →
        • Квантовая криптография: простейшие протоколы и чуть-чуть криптоанализа

          Самая известная криптографическая проблема - передача секретных сообщений. Для этой задачи чаще всего используют криптосистемы с закрытым ключом: Алиса (отправитель) шифрует информацию с помощью ключа, а Боб (получатель) им же расшифровывает сообщение. К сожалению, криптосистемы с закрытым ключом имеют серьезные сложности в практической реализации. Основной вопрос - как раздать ключи? Во многих отношениях проблема распределения ключей так же сложна, как и проблема приватного общения - злонамеренная третья сторона может подслушивать распределение ключей, а затем использовать перехваченный ключ для расшифровки сообщений. Существует множество способов решения данной проблемы, один из них квантовая криптография, метод генерации и передачи криптографических ключей, секретность которых гарантирована законами квантовой механики.

          Читать дальше
        • «Синяя коробка» — устройство, с которого начался бизнес Возняка и Джобса

          • Translation

          «Если бы не синие коробки, Apple бы не существовало. Я уверен в этом на 100%». — Стив Джобс

          Хотя «фрикеры» (фанаты телефонных систем) использовали «синие коробки» для доступа к бесплатным телефонным услугам ещё в 1950-х годах, первую цифровую blue box спроектировал Стив Возняк в 1972 году. Её рекламировали и продавали сам Возняк (взявший себе фрикерское имя «Berkeley Blue»), Джобс (известный под именем «Oaf Tobar») и их друзья в Беркли и по всей Калифорнии в 1972 и 1973 годах. Возняк говорил, что они изготовили 40-50 устройств, а Джобс утверждал, что сотню; но определённо известно, что многие коробки были конфискованы, когда усилились аресты фрикеров в 1973-1975 годах; частично это было вызвано коммерческим распространением устройств. Эти синие коробки являются результатом первого коммерческого сотрудничества двух гигантов, ставших основателями Apple, а их печатные платы стали для Воза первым опытом изготовления плат.

          До наших дней дошло очень мало устройств, произведённых лично Возняком, и ещё меньше осталось первых версий таких плат — Возняк вскоре сменил структуру печатной платы, чтобы использовать в ней более дешёвую мембранную клавиатуру.
          Читать дальше →
        • Ваш pet-project будет доволен. Как вдохнуть жизнь в свои наработки

            Pet project


            Всем привет! Как и многие, я люблю поковыряться с каким-либо хобби-проектом, — и удовольствие получаешь и показать при случае можно, а если он способен ещё и пользу кому-то принести, то это вдвойне приятно.


            В этой статье я хочу поделиться, как наработки, оставшиеся после соревнования на машинный перевод, вылились в интересный проект и как сотрудничество с Национальным корпусом русского языка вдохнуло в него новую жизнь.

            Читать дальше →
            • +26
            • 4.8k
            • 1
          • Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу

              Привет, Хабр. Меня зовут Саша Готманов, я руковожу группой нейросетевых технологий в поиске Яндекса. Сегодня на YaC 2020 мы впервые рассказали о внедрении трансформера — новой нейросетевой архитектуры для ранжирования веб-страниц. Это наиболее значимое событие в нашем поиске за последние 10 лет. 

              Сегодня я расскажу читателям Хабра, в чём заключается иллюзия «поиска по смыслу», какой путь прошли алгоритмы и нейросети в ранжировании и какие основные сложности стоят перед теми, кто хочет применить для этой задачи трансформеры и даже заставить их работать в рантайме. 

              Читать далее
            • Обучение модели естественного языка с BERT и Tensorflow


                Рис. 1. Фразы и предложения в векторном представлении модели естественного языка

                Обработка естественного языка (Natural Language Processing, NLP) – это область вычислительной лингвистики, ориентированная на разработку машин, способных понимать человеческие языки. Разработка таких машин – одна из задач, которые решают исследователи и инженеры в команде SberDevices.

                В современной компьютерной лингвистике понимание смысла написанного или сказанного достигается с помощью векторных моделей естественного языка. Например, в семействе виртуальных ассистентов Салют такая модель применяется для распознавания намерений пользователя, ведения диалога, выделения именованных сущностей и многих других задач.

                В этой статье мы рассмотрим метод обучения модели естественного языка (NLU) на размеченных данных и реализацию этого метода на python3 и tensorflow 1.15. Ниже вы найдете пошаговое руководство и примеры кода. Код всего эксперимента доступен для воспроизведения на Colab.

                Помимо этого, мы выкладываем в публичный доступ русскую модель NLU класса BERT-large [427 млн. параметров]: tensorflow, pytorch.

                Прочитав этот пост, вы узнаете:

                • что такое модели NLU и как они применяются в компьютерной лингвистике;
                • что такое векторы предложений и как их получить;
                • как обучить векторизатор предложений [NLU] на базе архитектуры BERT;
                • как можно использовать обученные модели NLU
                Читать дальше →
                • +18
                • 2.6k
                • 4
              • Борьба за права или атмосфера паранойи — в мире музыки еще не определились, что выбрать

                  Сложная эпидемиологическая ситуация и проблемы в экономике — не повод прекращать разбирательства о том, чей именно двухсекундный сэмпл был использован в том или ином треке.

                  Так считают многие представители индустрии. Кажется, тема плагиата и компенсаций за него волнуют их больше, чем само музыкальное творчество. Обсудим, как все-таки обстоят дела.

                  К чему приводит такой подход
                • Что почитать менеджеру продукта или проекта: от исследований Канемана до мотивации Брэдбери



                    Всем привет! В нашем совместном с МФТИ учебном проекте Технотрек есть семестровый курс по Product Management. Меня зовут Станислав, и я ведущий преподаватель этого курса, а также менеджер продукта в проекте DonationAlerts. Готовясь к курсу, я собрал внушительный список полезных материалов. Сделал для вас из этого списка подборку книг и блогов, которые будут полезны менеджерам продуктов или проектов.

                    Список собран на основе моего опыта, а также рекомендаций от коллег и экспертов индустрии. К каждой книге есть микрорецензия и формальное описание. Подборка получилась обширная, и будет интересно увидеть в комментариях ваши рекомендации.
                    Читать дальше →
                    • +33
                    • 3.7k
                    • 3
                  • Raspberry Pi в роли сервера для хостинга сайтов

                    • Translation
                    Raspberry Pi — это недорогой одноплатный компьютер, отличающийся крайней экономичностью в плане потребления электроэнергии. Он хорошо подходит на роль платформы, на базе которой создают устройства, которые постоянно должны быть включены. Среди множества способов применения Raspberry Pi можно выделить использование этого компьютера в качестве веб-сервера. И, на самом деле, хостить сайты на Raspberry Pi очень просто. Если посчитать стоимость услуг обычного хостинг-провайдера, то окажется, что они не так уж и дёшевы. Альтернативой таким услугам может стать собственный хостинг на Raspberry Pi, обслуживание которого не стоит практически ничего. Кроме того, платформа Raspberry Pi постоянно развивается, поэтому тому, кто решает ей пользоваться, можно не беспокоиться о том, что в будущем ему придётся работать с устаревшим аппаратным и программным обеспечением.


                    Читать дальше →
                  • Каверзные вопросы по Python

                      Мне кажется, в каждом языке программирования есть моменты, которые требуют повышенной концентрации внимания или больше практики для своего понимания. Python в этом плане не исключение, и сегодня я расскажу вам о нескольких каверзных вопросах, с которыми вы можете столкнуться как в повседневной разработке, так и в ходе прохождения собеседования.


                      Читать дальше →
                    • О понимании в искусственном интеллекте

                        Искусственный интеллект сейчас представляется различными системами, но о понимании можно говорить только в диалоговых системах Искусственного Интеллекта (ИИ). И сама тема понимания в ИИ сводится к нескольким аспектам диалогового взаимодействия искусственного агента с человеком:

                        1. Порождаемые диалоговой системой тексты отвечают «здравому смыслу».
                        2. Ответы системы соответствуют контексту диалога и ожиданиям человека.
                        3. Понимание целей, намерений высказываний человека в диалоге.

                        Понимания смысла в полной мере нельзя отнести к теме понимания контекста диалога, так как смысл высказывания собеседника может быть по-разному интерпретирован, и какой интерпретации должно соответствовать состояние понимания, не ясно. Можно ли «ошибки» по мнению собеседника (человека) интерпретировать как иное понимание смысла выражения системой? В большей степени понимания смысла относится к пониманию намерений и целей высказывания, а это отдельная тема theory of mind. «Здравый смысл» как критерий понимания можно интерпретировать точнее. В общем смысле это соответствие ответа картине мира, что поддается проверке. И на сегодня это является лучшим критерием понимания искусственными агентами, такими как диалоговые боты, контекста диалога. Но пока в этом боты не демонстрируют успехи.

                        Анализ подходов


                        Релевантный ответ является самым простым критерием понимания ботом собеседника (человека). Но этот критерий легко «подделать», что ни раз демонстрировалось участниками Премии Лёбнера. Он достигается закладыванием большого числа вариативных шаблонов ответов на распознаваемые нейронной сетью «интентов». Это трудно назвать пониманием. Но и успехи таких ботов скромны – смешанные интенты они распознают крайне плохо. Один вопрос вне тем шаблонов и система проваливается. Это легко проверить на таких ботах как Алиса от Яндекс и Siri от Apple. Можно сказать, что знания мира у таких систем фрагментарны.
                        Читать дальше →
                      • Искусственный интеллект в области юриспруденции. Статья 3

                          Введение


                          Мы продолжаем цикл статей на тему юридического искусственного интеллекта, аспектов его разработки и перспектив практического применения на отечественном рынке. В предыдущих публикациях мы неоднократно говорили, что, по нашему мнению, разработка Legal AI может быть обеспечена с помощью создания и применения нового семантического блока, включающего в себя:


                          • инструменты лингвистического анализа текстов на естественном языке;
                          • структурированную модель юридических знаний (графы знаний и онтологии);
                          • предобученные нейронные сети.

                          В первой статье мы детально исследовали существующие инструменты процессинга русскоязычного текста. Во второй статье мы рассмотрели подходы к созданию продуктов на основе искусственного интеллекта, а также вопросы взаимодействия специалистов в области IT и юриспруденции. В настоящей статье мы предлагаем погрузиться в тему онтологий и ответить на следующие вопросы:


                          1. Какова роль онтологий в процессе создания искусственного интеллекта?
                          2. Почему существующие онтологии в области права неприменимы для Legal AI, несмотря на многолетние попытки зарубежных специалистов структурировать юридические знания?
                          3. Какими свойствами должны обладать онтологии для Legal AI, чтобы решать практические задачи?

                          Читать дальше →
                        • Искусственный интеллект в области юриспруденции

                          Введение


                          Тема искусственного интеллекта сегодня — одна из самых обсуждаемых. Перспектива «обеспечить монополию в сфере искусственного интеллекта и стать властелином мира» заставила всех соревноваться в данной области. IT-гиганты, финансовые компании, бизнес-аналитики, университеты и научное сообщество предлагают собственное видение инструментов и методологии решения основных задач при их создании. Однако результаты удручают, особенно в сфере LegalTech.



                          Что такое настоящий LegalTech, а что скрывается под громкими рекламными слоганами? Почему никому из IT-разработчиков не удалось создать действительно прорывной и функциональный продукт, близкий к цифровому юристу? Какой подход позволил нам решить данные задачи и существенно приблизиться к созданию настоящего юридического искусственного интеллекта?

                          Читать дальше →