• Как машинное обучение в YouDo катится в продакшен. Лекция в Яндексе

      В крупных сервисах решить какую-нибудь задачу с помощью машинного обучения — означает выполнить только часть работы. Встраивать ML-модели не так уж просто, а налаживать вокруг них CI/CD-процессы еще сложнее. На конференции Яндекса «Data & Science: программа по заявкам» руководитель направления data science в компании YouDo Адам Елдаров рассказал о том, как управлять жизненным циклом моделей, настраивать процессы дообучения и переобучения, разрабатывать масштабируемые микросервисы, и о многом другом.


      — Начнем с вводных. Есть data scientist, он в Jupyter Notebook пишет какой-то код, делает фиче-инжениринг, кросс-валидацию, тренирует модельки. Скор растет.
      Читать дальше →
      • +21
      • 6,2k
      • 8
    • Как стать датасайнтистом, если тебе за 40 и ты не программист

        Бытует мнение, что стать датасайентистом можно только имея соответствующее высшее образование, а лучше ученую степень.

        Однако мир меняется, технологии становятся доступны и для простых смертных. Возможно, я кого-то удивлю, но сегодня любой бизнес-аналитик в состоянии освоить технологии машинного обучения и добиться результатов, конкурирующих с профессиональными математиками, и, возможно, даже лучших.

        Дабы не быть голословным, я расскажу вам свою историю — как из экономиста я стал дата-аналитиком, получив необходимые знания через онлайн-курсы и участвуя в соревнованиях по машинному обучению.



        Сейчас я ведущий аналитик в группе больших данных в QIWI, но еще три года назад я был довольно далек от датасайнс и об искусственном интеллекте слышал только из новостей. Но потом все изменилось, во многом благодаря Coursera и Kaggle.

        Итак, обо всем по порядку.
        Читать дальше →
      • Как правильно «фармить» Kaggle

          image
          *фарм — (от англ. farming) — долгое и занудное повторение определенных игровых действий с определенной целью (получение опыта, добыча ресурсов и др.).


          Введение


          Недавно (1 октября) стартовала новая сессия прекрасного курса по DS/ML (очень рекомендую в качестве начального курса всем, кто хочет, как это теперь называется, "войти" в DS). И, как обычно, после окончания любого курса у выпускников возникает вопрос — а где теперь получить практический опыт, чтобы закрепить пока еще сырые теоретические знания. Если вы зададите этот вопрос на любом профильном форуме, то ответ, скорее всего, будет один — иди решай Kaggle. Kaggle — это да, но с чего начать и как наиболее эффективно использовать эту платформу для прокачки практических навыков? В данной статье автор постарается на своем опыте дать ответы на эти вопросы, а также описать расположение основных грабель на поле соревновательного DS, чтобы ускорить процесс прокачки и получать от этого фан.

          проверить глубину этой кроличьей норы
        • Правила джентльменского поведения в IT: история ITIL

            В начале 2019 года библиотеку инфраструктуры информационных технологий ITIL ждет самое серьёзное обновление с 2011. Уже почти 30 лет ею пользуются по всему миру — и в частном бизнесе, и в государственных структурах. Вспомним, для чего ITIL создали и как она менялась.

            Читать дальше →
          • Как мы сдавали экзамен Certified Kubernetes Administrator



              В прошлом году у организации CNCF (Cloud Native Computing Foundation), помогающей развиваться таким Open Source-проектам, как Kubernetes и Prometheus, появилась программа сертификации CKA (Certified Kubernetes Administrator). В начале этого лета мы решили в ней поучаствовать и получили первые сертификаты для своих сотрудников. О том, что это, зачем и как происходит, с удовольствием рассказываем всем любопытствующим читателям хабры.
              Читать дальше →
            • Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

                Распознаванием лиц в 2018 году никого не удивишь – каждый студент, может, даже школьник, его делал. Но всё становится немного сложнее, когда у вас не датасет на 1 млн пользователей, а:


                • 330 миллионов пользовательских аккаунтов;
                • ежедневно заливается 20 млн пользовательских фотографий;
                • максимальное время на обработку одного фото не должно превышать 0.2 сек;
                • ограниченные объемы оборудования для решения задачи.


                В этой статье мы поделимся опытом разработки и запуска системы распознавания лиц на пользовательских фотографиях в социальной сети Одноклассники и расскажем про все ”от А до Я”:


                • математический аппарат;
                • техническую реализацию;
                • результаты запуска;
                • и акцию StarFace, которую мы использовали для PR-а нашего решения.

                Распознавание лиц Одноклассников в деталях
              • Метод BFGS или один из самых эффективных методов оптимизации. Пример реализации на Python



                  Метод BFGS, итерационный метод численной оптимизации, назван в честь его исследователей: Broyden, Fletcher, Goldfarb, Shanno. Относится к классу так называемых квазиньютоновских методов. В отличие от ньютоновских методов в квазиньютоновских не вычисляется напрямую гессиан функции, т.е. нет необходимости находить частные производные второго порядка. Вместо этого гессиан вычисляется приближенно, исходя из сделанных до этого шагов.

                  Существует несколько модификаций метода:
                  L-BFGS (ограниченное использование памяти) — используется в случае большого количества неизвестных.
                  L-BFGS-B — модификация с ограниченным использованием памяти в многомерном кубе.

                  Метод эффективен и устойчив, поэтому зачастую применяется в функциях оптимизации. Например в SciPy, популярной библиотеки для языка python, в функции optimize по умолчанию применяется BFGS, L-BFGS-B.

                  Читать дальше →
                  • +21
                  • 15,5k
                  • 4
                • Поднимаем микромониторинг на icinga2 с минимальными затратами

                  Иногда есть желание контролировать ситуацию в разнородных сетях, отдельных хостах за натом или просто мониторить компьютеры родителей или друзей, но ресурсов для этого почти нет. Будем искать решение с помощью icinga2. Сейчас у VDS провайдеров есть предложения VDS серверов в минимальных конфигурациях за смешные деньги. Что ж, воспользуемся этим.

                  Например, сервер с одним ядром, 512 Мб оперативной памяти и диском на 10 Гб обойдется всего в 90 рублей в месяц. Установим icinga2 на такой сервер. Но для экономии ресурсов не будем хранить данные и вместо стандартного веб-интерфейса (icingaweb2) сделаем свой который будет обращаться к API icinga2.
                  Читать дальше →
                • «Метод тыквы». Как выращивать идеальных клиентов и отсеивать плохих



                    Делимся с вами саммари (кратким изложением идей) на книгу Майка Микаловица «Метод тыквы. Как стать лидером в своей нише без бюджета». В оригинале книга называется «The Pumpkin Plan. A Simple Strategy to Grow a Remarkable Business in Any Field». Переводчик решил вставить в название фразу «без бюджета», напомнив про предыдущую книгу автора («Стартап без бюджета»). Но всё-таки переводное название вводит в заблуждение. Книга о другом.
                    Рекомендуем к прочтению тем, кто увяз в работе над собственным делом, кто гоняется за каждым новым заказом, кто устал от плохих клиентов, и всем, кто хочет сделать свой бизнес выдающимся. Возможно, нам есть чему поучиться у фермеров, выращивающих гигантские тыквы.

                    Итак…
                    Читать дальше →
                    • +8
                    • 14,9k
                    • 6
                  • 40 ключевых концепций информационных технологий доступно и понятно

                    • Перевод
                    Представляю вашему вниманию перевод очень ёмкой, и в то же время достаточно краткой (для такого масштаба проблемы) статьи Карла Чео. Я решил, что очень хочу сделать её перевод практически сразу, как только начал читать, и очень рад, что в итоге сделал это.
                    Для того, чтобы сделать обучение более веселым и интересным, представляю вам перечень важных теорий и концепций информатики, объяснённых с помощью аналогий с минимальным количеством технических деталей. Это будет похоже на очень быстрый курс информатики для всех с целью просто дать вам общее представление об основных концепциях.

                    Важные замечания:
                    • Пункты с неуказанным источником написаны мной самостоятельно. Поправьте меня, если вы заметите какие-то неточности. Предложите лучшую аналогию, если это возможно.
                    • Заголовки ссылаются на соответствующие им статьи в Wikipedia. Пожалуйста, читайте эти статьи для более серьезных и детальных объяснений.
                    • Аналогии — отличный способ объяснить материал, но они не идеальны. Если вы хотите по-настоящему понять перечисленные концепции, вам следует начать с фундаментальных азов и рассуждать, исходя из них.

                    Также зацените эту инфографику (вариант на русском), если вы просто начинающий программист.
                    Читать дальше →
                  • Управление ресурсами с помощью явных специализаций шаблонов



                      RAII – одна из наиболее важных и полезных идиом в C++. RAII освобождает программиста от ручного управления ресурсами, без неё крайне затруднено написание безопасного с точки зрения исключений кода. Возможно, самое популярное использование RAII – это управление динамически выделяемой памятью с помощью умных указателей, но она также может с успехом применяться и к другим ресурсам, особенно в мире низкоуровневых библиотек. Примеры включают в себя дескрипторы Windows API, файловые дескрипторы POSIX, примитивы OpenGL и тому подобное.
                      Читать дальше →
                    • Генератор документов docx и xlsx

                      image

                      Год назад ко мне в очередной раз обратился постоянный заказчик. «Менеджеры — идиоты, — негодовал он. — Текучка кадров огромная, на обучение каждого уходят месяцы. А потом они делают ошибки».

                      Лишь после такой эмоциональной прелюдии последовало задание: «Необходимо, чтоб при заказе с сайта на почту приходил уже сформированный пакет документов в форматах MS Office: бланк заказа, счет к оплате, товарный чек, и спецификация».
                      Читать дальше →
                    • Бесплатный видеокурс CCNA Сisco доступен на одном из каналов YouTube

                        По моему глубокому убеждению, в особенности в сфере IT, важнейшим качеством любого из специалистов является способность к самообучению. Именно потому в нашей небольшой компании стало хорошей традицией уделять ежедневно время этому процессу, собственному развитию. Даже менеджер должен понимать, как устроена и функционирует сеть. Не давнее, как вчера, обсуждая проблему с BGP, коллега сказал «Вот не был бы я лентяем — прошел бы в студенческие годы курс CCNA и знал бы ответ на твой вопрос». И я задался задачей помочь коллеге, найти способ получить знания в этой области самому, хотя бы начального уровня, чтоб лучше понимать с чем мы работаем. На Хабре, введя в поиск CCNA, можно встретить массу рекомендаций, но все же, англоязычный Интернет — основной источник знаний в области IT-коммуникаций.



                        Я просто обожаю YouTube! Ведь он предоставляет волшебную возможность удаленного «посещения» тематических конференций и семинаров, причем абсолютно бесплатно. В этот раз, как оказалось, там уже месяца 2 существует бесплатный канал, на котором лектор Imran Rafai, четко и доступно излагает материал из 30-дневного CCNA-курса, весьма доступно и увлекательно!

                        Даже если Вы не системный администратор, а просто хотите обладать немного лучшим пониманием, что такое Интернет — курс для Вас! Помимо прочего Вы повысите свой уровень английского, ведь курс на английском языке, с субтитрами.
                        Читать дальше →
                      • Как продавать крупным компаниям: 16 советов. Часть 1

                        • Перевод
                        При продаже своих услуг или программных продуктов крупным предприятиям и корпорациям нужно выработать совсем другой подход, чем тот, который используется с малым и средним бизнесом. Мы в Alconost перевели для вас советы Тима Нгуена, который построил свою карьеру, продавая различные продукты компаниям среднего, крупного и корпоративного сектора, в том числе кредитным союзам и банкам по всей Америке. В среднем сумма сделки составляла 500 тыс. долларов ежегодно, при этом худшим результатом было 25 тысяч, а лучшим – 7 млн. долларов за год. Мы думаем, что советы Нгуена применимы не только к американскому рынку – хотя к нему в особенности.


                        Читать дальше →
                        • +13
                        • 36,8k
                        • 6
                      • Как удалить bucket с 400 миллионами файлов на Amazon S3

                          Допустим, у вас в бакете скопилось несколько сотен миллионов файлов (всякое бывает) и вы решили их удалить. Удалить бакет без удаления содержимого нельзя. Удаление самих файлов происходит примерно по 1000 за 2 секунды. Несложно посчитать, что 400 миллионов файлов можно удалить за 9 дней работы браузера без выключения, да еще и заплатить придется за каждую операцию (DELETE хоть и бесплатный, но LIST стоит денег).

                          Но есть возможность настроить правила хранения файлов так, чтобы они удалялись автоматически:
                          Читать дальше →
                        • Running Lean. Пересказ одной из лучших книг о стартапах

                          • Tutorial
                          Cover
                          Ниже — вольный пересказ книги Running Lean, автор — Ash Maurya. Рейтинг Амазона — 4.8 из 5. Книга, насколько я знаю, на русский язык еще не переведена.

                          Здесь изложена суть книги в объеме меньшем 1% объема книги, по моей оценке. Все вопросы освещены так, как я их понял, что необязательно совпадает с тем, как их хотел донести автор.

                          Допускаю, что нарушаю чьи-то права: пересказ лицензии не требует, но иллюстрации взяты из книги. Автору я писал в попытке прояснить этот вопрос, но ответа не получил.

                          Блог автора кгиги: practicetrumpstheory.com.

                          Структура пересказа

                          • Введение в процесс Running Lean
                            • Три важнейших методологии
                            • Roadmap
                          • Описание процесса Running Lean
                            • Составьте «План А»
                              • Определите кто клиенты
                              • Создайте бизнес-модели
                              • Ранжируйте бизнес-модели
                            • Протестируйте и измените план
                              • Подготовьтесь к проведению экспериментов
                              • Категории рисков и четыре фазы тестирования плана
                                • Фаза 1. Поймите проблему
                                • Фаза 2. Найдите решение
                                • Фаза 3. Валидируйте качественно
                                • Фаза 4. Верифицируйте количественно
                          • Три стадии стартапа
                            • Соотношение трех стадий стартапа и четырех фаз тестирования плана
                            • Держите правильный фокус
                            • Привлекайте финансирование вовремя
                            • Масштабируйте правильно
                          Читать дальше →
                        • Deploy Django приложений с использованием Ansible для чайников

                          Доброго времени суток!

                          Совсем недавно мой коллега познакомил меня с замечательным инструментом автоматизации ручного труда под названием Ansbile. После чего моментально родилась идея написать что-то своё, что упрощает тот самый ручной труд. Что чаще всего приходится делать руками? Правильно, деплоиться.

                          В этой статье я расскажу о том, как с использованием ansible раскатать django-проект на чистом удаленном сервере ubuntu 14.04, создав при этом для проекта отдельного пользователя.
                          Читать дальше →
                          • +17
                          • 17k
                          • 8
                        • Робот-пылесос Kärcher RC 3000: опыт эксплуатации

                            В своей жизни я встречал людей, которым нравится пылесосить. Да, именно так, сам процесс наведения чистоты доставляет удовольствие. Причина может быть разной — от демонстрации собственной нужности до мизофобии.

                            Однако среди широкого спектра придуманных человечеством мотивов для проведения ежедневной уборки жилища, я не смог найти свой. Лень неизменно одерживала верх как над рациональными доводами о необходимости пылесосить каждый день, так и над эмоциональными порывами, энергии которых хватало только на то, чтобы выругаться: "Почему опять никто не убрался!"

                            Признавшись себе однажды в том, что дело не в «нехватке времени» или «усталости после работы», а в банальном нежелании брать в руки этот чертов пылесос, я решил, что нужно процесс уборки как-то автоматизировать, например, купить робота-уборщика.

                            Прочного и надежного робота-уборщика, способного нормально функционировать в самых тяжелых условиях:



                            Мой выбор пал на RC 3000 от Karcher, впечатлениям от эксплуатации которого и посвящается данная статья.

                            Осторожно: под катом много фотографий и видеороликов
                          • BOOTSTRA.386: тема для Bootstrap в духе 1980-х

                              Оказывается, некоторые темы для Bootstrap — это маленькие произведения искусства. В рамках надвигающейся пятницы хотелось бы рассказать об одной из таких тем.

                              Крис МакКензи — явно один из тех, кто скучает по старым добрым временам DOS, EGA/VGA и Turbo Vision, иначе он вряд ли бы решился сделать что-то подобное. Так что если вы успели устать от засилья плоского дизайна, то добро пожаловать в мир BOOTSTRA.386!

                              Осторожно: будьте готовы к острому приступу ностальгии. Единственное, чего не хватает для полного погружения — так это навигации с клавиатуры, ну и курсора в виде прямоугольного блока.

                              image

                              Читать дальше →
                            • GTD на кухне: чем накормить голодного программиста

                              • Tutorial
                              imageИтак, как и обещал в первой части, продолжаем упрощать бытовую жизнь хабражителя. Сегодня 8 марта (кстати, девушки, поздравляю!) и части мужчин хочется порадовать своих женщин и освободить их от «рабского труда» на кухне, а другой части – приготовить для себя не традиционные пельмени\вареники\сосиски, а что-то посущественней.
                              Вот несколько проверенных рецептов, которые пригодятся и первым, и вторым.

                              Осторожно, много картинок. Голодным не входить!
                              Читать дальше →