• Теперь персональные данные должны удалять отовсюду по первому требованию, но есть побочка

      Речь идет о поправках к закону о персональных данных, что вступили в силу в марте. Теперь любые персональные данные обязаны убрать откуда угодно по первому требованию их владельца. Причем владельцу не надо ничего никому доказывать и объяснять.

      Ситуация одновременно и правильная, и проблемная. Причем проблемы появятся (по факту уже появились) у всех владельцев сайтов, интернет-площадок и СМИ, кто так или иначе взаимодействует с пользователями. 

      Что касается нововведений, я попытался разложить все по полочкам. А еще собрал в отдельный список то, что придется поменять и добавить владельцам сайтов.

      Читать далее
    • Переход на облачную платформу Google Cloud (Google Cloud Platform – GCP)

      • Translation

      [часть 2 из 2]


      [часть 1 из 2]





      Как нам это удалось


      Мы решили перейти на GCP, чтобы повысить производительность приложений — увеличив при этом масштаб, но без существенных затрат. Весь процесс занял более 2 месяцев. Для решения этой задачи мы сформировали специальную группу инженеров.


      В этой публикации мы расскажем о выбранном подходе и его реализации, а также о том, как нам удалось достичь главной цели, — осуществить этот процесс максимально гладко и перенести всю инфраструктуру на облачную платформу Google Cloud Platform, не снижая качества обслуживания пользователей.


      image

      Читать дальше →
    • Переход на облачную платформу Google Cloud (Google Cloud Platform – GCP)

      • Translation

      [Часть 1 из 2]



      Блог Hike появился 12 декабря 2012 года, и читателей тогда было совсем немного. К 2016 году мы достигли цифр в 100 миллионов зарегистрированных пользователей и 40 миллиардов сообщений ежемесячно. Но такой рост обозначил проблему, связанную с масштабированием нашей инфраструктуры. Для ее устранения нам нужна была высокопроизводительная платформа по приемлемой цене. В 2016 и 2017 годах мы столкнулись с многочисленными перебоями в работе, с этим нужно было срочно что-то делать, поэтому мы начали рассматривать различные варианты.

      Читать дальше →
      • +15
      • 12.3k
      • 4
    • Объясняем на пальцах принцип действия оптимизаторов для нейронных сетей: основные алгоритмы, и зачем они нужны

      • Translation

      Оптимизаторы — важный компонент архитектуры нейронных сетей. Они играют важную роль в процессе тренировки нейронных сетей, помогая им делать всё более точные прогнозы. Специально к старту нового потока расширенного курса по машинному и глубокому обучению, делимся с вами простым описанием основных методик, используемых оптимизаторами градиентного спуска, такими как SGD, Momentum, RMSProp, Adam и др. 

      Читать далее
    • Используем глубокое обучение, чтобы отгадывать страны по фотографиям в GeoGuessr

      • Translation
      Во время последнего локдауна в Великобритании мы с женой играли в GeoGuessr. Эта игра более размеренна, чем те, в которые мы обычно играем, но хорошо подходит для нашей семьи с 11-недельным младенцем, который становится активнее с каждым днём.

      GeoGuessr — это игра о географических исследованиях. Вас бросают на случайную точку в Google Street View, после чего ваша задача — указать своё местоположение на карте. Можно осматривать окрестности, увеличивать изображение и двигаться по пути автомобиля на местных улицах.

      image

      Нас серьёзно заинтересовали ежедневные соревнования (Daily Challenge) на GeoGuessr. Мы начали заходить на сайт каждый день и пытаться поставить новый рекорд. В формате Daily Challenge на каждый раунд выделяется по три минуты, которые мы тратили или на бешеное кликанье по австралийскому бушу (при этом иногда путая его с Южной Африкой), или на обсуждение того, есть ли в шведском языке буква ø.
      Читать дальше →
      • +28
      • 3.4k
      • 7
    • Как запустить модель машинного обучения на iPhone

      • Translation
      • Tutorial

      Чего уж только на Хабре не было, и DOOM на осциллографе, тесте на беременности и калькуляторе запускали, даже сервер Minecraft на зеркалке Canon 200D поднимали. Сегодня же, специально к старту нового потока курса по Machine Learning и углубленного Machine Learning и Deep Learning, попробуем описать кратчайший путь от обучения модели машинного обучения на Python до доказательства концепции iOS-приложения, которое можно развернуть на iPhone. Цель статьи — дать базовый скаффолдинг, оставляя место для дальнейшей настройки, подходящей для конкретного случая использования.

      Приятного чтения
    • Как я Лигу Легенд парсил

      Привет, Хабр!

      Осмелюсь сегодня рассказать, как мне довелось извлекать данные прямо из видеозаписей турнирных игр по игре League of Legends с помощью глубоких нейронных сетей: зачем это нужно, какие архитектуры и приёмы использовались, и с какими сложностями я столкнулся.

      Читать далее
    • Полиморфизм в Python

      • Translation

      В этой статье мы изучим полиморфизм, разные типы полиморфизма и рассмотрим на примерах как мы можем реализовать это в Python.

      Что такое полиморфизм?

      В буквальном значении полиморфизм означает наличие разных форм.

      Полиморфизм — очень важная идея в программировании. Она заключается в использовании единственной сущности(метод, оператор или объект) для представления различных типов в различных сценариях использования.

      Давайте посмотрим на пример:

      Пример 1: полиморфизм оператора сложения

      Читать далее
    • Как ускорить код на Python в тысячу раз

      • Translation


      Обычно говорят, что Python очень медленный


      В любых соревнованиях по скорости выполнения программ Python обычно занимает последние места. Кто-то говорит, что это из-за того, что Python является интерпретируемым языком. Все интерпретируемые языки медленные. Но мы знаем, что Java тоже язык такого типа, её байткод интерпретируется JVM. Как показано, в этом бенчмарке, Java намного быстрее, чем Python.
      Читать дальше →
    • Распознавание документов для целей ДБО

        Появление дистанционного банковского обслуживания (ДБО) поменяло весь банковский бизнес, предоставив возможность получения финансовых услуг «в два счета». Сегодня мы хотим рассказать вам о нашем новом продукте Smart Document Engine, который изменит процесс ДБО, обеспечив процедуру открытия счетов и получения кредитов «за два клика».

        Читать далее
      • Развертывание приложений Django

          После того, как мы закончили разработку веб-приложения, оно должно быть размещено на хосте, чтобы общественность могла получить доступ к нему из любого места. Мы посмотрим, как развернуть и разместить приложение на экземпляре AWS EC2, используя Nginx в качестве веб-сервера и Gunicorn в качестве WSGI.

          Читать далее
          • –9
          • 3.2k
          • 5
        • Преобразуем графику Fortnite в PUBG новым более быстрым подходом

          • Translation

          Пару лет назад я показал, как мы можем использовать ИИ для переноса стилей, такой как CycleGAN, для преобразования графики одной игры, чтобы она выглядела похожей на другую, на примере Fortnite в PUBG. Этот проект до сих пор остается одним из самых просматриваемых, и спустя два года он все еще привлекает новых зрителей. Это означает, что это направление исследований в области ИИ вызывает большой интерес, но, к сожалению, мы пока не видим больших подвижек по превращению таких прототипов в реальность. Хотя и были представлены версии этого ИИ, работающие на более высоком разрешении, они нуждались в использованию нескольких графических процессоров для обучения, что является непрактичным для использования в реальном мире.

          К счастью, по прошествии большого количества времени у нас наконец-то есть статья, демонстрирующая значительный прогресс в попытке уменьшить вычислительную мощность, необходимую для обучения этого ИИ. Статья от Калифорнийского университета в Беркли и Adobe называется «Contrastive Learning (контрастное обучение) для непарного преобразования изображений» (CUT).

          Читать далее
        • Python & оптимизация времени и памяти

            Зачастую скорость выполнения python оставляет желать лучшего. Некоторые отказываются от использования python именно по этой причине, но существует несколько способов оптимизировать код python как по времени, так и по используемой памяти. 

            Хотелось бы поделиться несколькими методами, которые помогают в реальных задачах.

            Изучить статью
          • Как построить свою систему поиска похожих изображений

              В интернете есть много информации о поиске похожих изображений и дубликатов. Но как построить свою систему? Какие современные подходы применять, на каких данных обучать, как валидировать качество поиска и куда смотреть при выводе в production?

              В этой статье я собрал все необходимые компоненты поисковой системы на изображениях в одном месте, разбавив контент современными подходами.

              Читать далее
            • Поиск изображений

                Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

                Читать далее
                • +20
                • 4.8k
                • 1
              • Ирландия — мостик между Америкой и Европой. Как живет религиозная страна, которая внезапно стала IT-кластером



                  Евгений Кольцов уже четыре года живет в Дублине. Работал на TileStyle, AirBnB, а сейчас — Senior Data Analyst в Buymie. Он рассказал нам об особенностях Ирландии — страны-деревни, в которой не так давно были запрещены разводы, а теперь зарплаты стали больше, чем в Англии. Потребности в пустых беседах, «купола» IT-гигантов, купание в море зимой, жизнь в эстейтах и почему лечиться отсюда часто едут обратно в Москву.

                  Читать дальше →
                • Нейродайджест: главное из области машинного обучения за март 2021

                    В марте было особенно много новостей про применение самообучения в области компьютерного зрения. Главная проблема, которую пытаются решить самообучающиеся модели — выполнять задачи, не полагаясь на тщательно подобранные и помеченные наборы данных. FAIR и Microsoft представили сразу несколько исследований и инструментов на эту тему.

                    Перейти к обзору
                    • +16
                    • 3.3k
                    • 2
                  • Что я узнал, потратив 5 000 долларов на эксперименты с Facebook Ads

                    • Translation


                    В прошлом году я выкатил новый цифровой продукт для нишевой аудитории подрядчиков. Сначала я выпустил продукт для уже имевшегося у меня списка клиентов и подписчиков. Получив многообещающие результаты, я решил расширить масштаб и провести в Facebook Ads кампании по привлечению новых клиентов.

                    С июня по ноябрь 2020 года я потратил больше 5 000 долларов на проведение различных мелких кампаний. Я провёл сотни экспериментов, тестируя рекламные тексты, изображения, аудитории и стимулы. Планировалось отметить наиболее успешные эксперименты и создать на их основе новую маркетинговую кампанию.

                    Наиболее ценными плодами этих экспериментов стали навыки и знания, которые я получил всего за несколько месяцев. Я узнал важность тестирования и проб разных заголовков и изображений. Я обнаружил, что все предположения о моей аудитории оказались совершенно неверными. Если бы не реклама на Facebook, то я бы по-прежнему придерживался этих заблуждений.

                    К концу эксперимента я получил фундаментальные уроки о том, как работает Facebook и что нужно для получения в нём хороших результатов.
                    Читать дальше →
                    • +31
                    • 9.3k
                    • 6
                  • Всё, что нам нужно — это генерация

                    • Tutorial

                    Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров


                    С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.

                    Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.

                    Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат,  отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.  

                    • Лично нам в SberDevices не терпелось поскорее применить такой формат к различным задачам — поэтому мы открываем доступ к самой большой русскоязычной нейросети ruGPT-3 XL с 1,3 млрд параметров. 

                    Инженерный запал вылился в кропотливую работу по распараллеливанию обучения, очистке данных и тестированию. Но зато… теперь в open-source модель ruGPT-3 XL с 1,3 млрд параметров!



                    А также ее публичное API:


                    Читать дальше →