• Как поступить на PhD программу по машинному обучению

    • Tutorial

    1. Введение


    Этот текст — небольшое обобщение моего опыта подачи заявок на Computer Science PhD с уклоном в machine learning в Северной Америке. Я постарался собрать в этом гайде свои просчеты (учиться лучше на чужих ошибках) и более-менее универсальные вещи, полезные всем. Но все равно нужно понимать, что это довольно индивидуальный опыт, поэтому ваша личная стратегия может отличаться. Например, в случае выбора вузов/научных руководителей или в написании statement of purpose. Ну или вы находитесь в других стартовых условиях по сравнению со мной (оценки, статьи, рекомендации).


    Имейте в виду, что основная часть гайда писалась до получения результатов, потому что мне хотелось избежать «ошибки выживших» (survivorship bias) и проанализировать свой опыт безотносительно того, поступил я или нет. В конце руководства есть мои результаты: я поступил в 2 из 11 вузов, в которые подавался. На мой взгляд, все равно стоит избегать ошибок, которые я здесь буду описывать. Ну и нужно понимать, что в процессе подачи на ML PhD очень много шума, поэтому можно сделать все хорошо и пролететь и наверное даже наоборот.


    image
    Читать дальше →
  • Введение в процессы загрузки ядра и запуска системы Linux

    • Translation
    Всем привет! Вот мы и открыли очередной, четвёртый по счёт уже, поток курса «Администратор Linux», который уверенно занимают свою нишу рядом с девопсерским курсом. Больше преподавателей, больше информации и стендов. Ну и как всегда больше интересной информации, которую подобрали преподаватели.

    Поехали.

    Задумывались ли вы когда-нибудь, что нужно для того, чтобы ваша система была готова к запуску приложений?

    Понимать процессы загрузки ядра и запуска системы Linux, важно для настройки Linux и решения проблем запуска. В этой статье представлен обзор процесса загрузки ядра с использованием GRUB2 загрузчика и запуска, выполняемого системой инициализации systemd.

    На самом деле, есть два ряда событий, необходимых для приведения компьютера с Linux в рабочее состояние: загрузка ядра (boot) и запуск системы (startup). Процесс загрузки ядра начинается при включении компьютера и заканчивается с инициализацией ядра и запуском systemd. После этого начинается процесс запуска системы, и именно он доводит компьютер Linux до рабочего состояния.

    Читать дальше →
  • Mikrotik RoS, полезные мелочи

    • Tutorial
    Распространенность оборудования Mikrotik растет с каждым днем, все больше устройств, а значит и RoS, появляется не только в корпоративном секторе, но и у обычных, домашних пользователей.
    К сожалению, не смотря на вполне нормальные настройки по умолчанию, которые можно сделать через Quick Set, в интернете можно встретить множество советов очистить конфигурацию, и сделать как-то по «особому», с «нуля». В этой статье я хочу поделится своим опытом и дать рекомендации, как изменить конфигурацию из Quick Set под свои нужды, при этом сохранив достаточный уровень защищенности.
    Читать дальше →
  • Как я проходил тестовое задание на летнюю стажировку в Яндекс

    image

    Привет Хабр, сегодня я расскажу о том, как я проходил тестовое задание на летнюю стажировку в Яндекс. Эта публикация будет полезна начинающим разработчикам, любителям олимпиадного программирования, тем кто неравнодушен к С++ и Java, или просто хочет прочесть интересную статью после трудного рабочего дня.

    Чего ожидать от этой статьи?

    • Introduction, о том что такое стажировки в Яндкесе, как и когда на них подать
    • Мотивация к написанию данной статьи
    • Примеры задач, моё решение и краткий разбор (Можно смело пропустить первые два пункта, и начинать именно отсюда)

    Introduction


    Для тех кто мало знаком с системой отбора на стажировку в Яндексе расскажу вкратце. На сайте яндекса, за несколько месяцев до лета объявляется оплачиваемая вакансия для начинающих разработчиков, в том отделе, в котором вы бы хотели работать (i.e. Яндекс.Диск, Яндекс.Алиса). По ссылке, нужно заполнить форму, о том где Вы учитесь, чем занимаетесь, какой был опыт работы, о чем писали дипломную работы итп. После заполнения формы Вам на почту присылают тестовое задание, на выполнение которого у Вас есть 6 часов, в любой день в течении недели с момента, когда Вы получили это письмо.
    Читать дальше →
  • Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

      Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:



      Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.

      Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Питоном. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.

      Год назад Дима Веселов начал проект Наташа. С тех пор код был значительно доработан. Наташа была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.
      Наташа — это аналог Томита-парсера для Питона (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.
      В статье показано, как использовать готовые правила Наташи и, самое главное, как добавлять свои с помощью Yargy-парсера.
      Читать дальше →
    • Пряморукий DNS: делаем правильно

        Представляем вашему вниманию очень эмоциональный рассказ Льва Николаева (@maniaque) о том, как надо настраивать DNS и особенно, как делать не надо. Вот прямо после каждого пункта можете мысленно добавлять: «Пожалуйста, не делайте этого!» В своем докладе Лев так и говорит.

        Статья будет состоять из трех частей:

        1. Как сделать резольвер (unbound, bind)

        Резольвер — это та штука, которую вы прописываете в настройках своей операционной системы, чтобы можно было превращать понятные человеку адреса типа ya.ru в непонятное 87.250.250.242.

        2. Как держать зоны (PowerDNS)

        Если вы уже доросли до этого, расскажем, как держать зону самостоятельно, как это делать хорошо и отказоустойчиво, и как это делать, если у вас несколько сотен доменов.

        3. Как взболтать, но не смешивать (PowerDNS + unbound)


        Читать дальше →
      • Python, под пиратским флагом

        image Йо-хо-хо, хабровчане!

        Пока IT сообщество увлеченно наблюдает за криптовалютами и их добычей, я решил помайнить то, что майнилось задолго до того, как крипта и все связанное с ней стало мэйнстримом. Речь конечно же об игровом золоте в ММО играх.

        Реализовать задумку мне помог python 3.6 и советы коллег программистов. Хотя статья и будет опираться на пример в конкретной игре, цель ее больше не рассказать историю хака, а расхвалить питон и показать еще не освоившим, что с ним может делать человек-не-программист и почему это так круто.

        Читать дальше →
      • Самодельная домашняя вентиляция

          Каждый, кто уже обзавёлся измерителем уровня углекислого газа (CO2), знает, насколько важно непрерывно подавать в жилые помещения свежий воздух. Самое простое решение этой проблемы — всегда держать открытой форточку, но у меня, как и во многих других городских домах, это не комфортно из-за уличного шума, к тому же при открытой форточке может быть очень холодно.

          Второй вариант решения проблемы свежего воздуха — приточная вентиляция, подающая воздух с улицы. Я пытался использовать компактные системы приточной вентиляции Tion, iFresh, Ballu, но понял, что все они меня не устраивают — при достаточном расходе воздуха они слишком сильно шумят. Судя по всему, сделать тихую систему с вентилятором, находящимся в комнате, невозможно.

          Именно поэтому, я сделал систему домашней вентиляции сам.

          Читать дальше →
        • GDPR — новые правила обработки персональных данных в Европе для международного IT-рынка

            image

            В мае 2018 года Европа переключится на обновлённые правила обработки персональных данных, установленные Общим регламентом по защите данных (Регламент ЕС 2016/679 от 27 апреля 2016 г. или GDPR — General Data Protection Regulation). Данный регламент, имеющий прямое действие во всех 28 странах ЕС, заменит рамочную Директиву о защите персональных данных 95/46/ЕС от 24 октября 1995 года. Важным нюансом GDPR является экстерриториальный принцип действия новых европейских правил обработки персональных данных, поэтому российским компаниям следует внимательно отнестись к ним, если услуги ориентированы на европейский или международный рынок.

            Новый регламент предоставляет резидентам ЕС инструменты для полного контроля над своими персональными данными. С мая 2018 года ужесточается ответственность за нарушение правил обработки персональных данных: по GDPR штрафы достигают 20 миллионов евро (около 1,5 млрд руб.) или 4% годового глобального дохода компании. В настоящей статье мы проанализировали новые правила обработки персональных данных в ЕС и сформулировали рекомендации для российских компаний по методам реагирования на GDPR.
            Читать дальше →
          • За пять дней я прошел собеседования в пяти компаниях Силиконовой долины и получил пять предложений о работе

            • Translation
            За пять дней, с 24 по 28 июля 2017 года, я прошел собеседования в LinkedIn, Salesforce Einstein, Google, Airbnb и Facebook; все пять компаний предложили мне работу. Это был замечательный опыт и я понимаю, как мне повезло, что мои усилия оправдали себя, поэтому решил написать об этом. Здесь я расскажу о том, как готовился к собеседованиям, как они проходили и какое впечатление произвели на меня компании.



            Как все началось


            Я отработал в Groupon почти три года. Это моя первая работа, там были и прекрасные люди, и отличные проекты. Мы делали всякие интересные штуки, вводили перемены внутри компании, публиковали материалы и все в таком духе. Но со временем я стал ощущать, что темп моего самообразования стал затухать (попросту говоря, замедляться), мне не хватало пищи для ума. К тому же, как и всякого разработчика ПО из Чикаго, меня тянуло в Область залива Сан-Франциско — ведь там столько известных компаний.

            Жизнь коротка, а профессиональная жизнь еще короче. Обговорив все с женой и заручившись ее полной поддержкой, я решил сделать решительный шаг и в первый раз в жизни поменять работу.
            Читать дальше →
          • Легкий тест производительности облачных платформ AWS, Google Cloud и Microsoft Azure

            Когда говорят «облачная виртуальная машина», как правило, имеют в виду AWS. И когда все эти вопросы стали для меня актуальными, из любопытства решил провести небольшой эксперимент по оценке цены/скорости систем других крупных облачных конкурентов.



            Самое интересное, что по мере разматывания клубка во всей этой облачной истории внезапно всплыл один подвох, который перетасовал всю колоду. И у меня до сих пор нет ответа на вопрос, а как вообще можно вот так вот торговать мощностями, как делают это два упомянутых в заголовке гранда?
            Кому интересно — добро пожаловать под кат.
            Читать дальше →
          • Магия SSH

              С SSH многие знакомы давно, но, как и я, не все подозревают о том, какие возможности таятся за этими магическими тремя буквами. Хотел бы поделиться своим небольшим опытом использования SSH для решения различных административных задач.

              Оглавление:

              1) Local TCP forwarding
              2) Remote TCP forwarding
              3) TCP forwarding chain через несколько узлов
              4) TCP forwarding ssh-соединения
              5) SSH VPN Tunnel
              6) Коротко о беспарольном доступе
              7) Спасибо (ссылки)
              Читать дальше →
            • Удалённая работа: 50 оттенков свободы

                Вы работаете в офисе? Не факт, что вам повезло. И, как минимум, вы что-то теряете.  А вот мы кое-что знаем о дистанционной занятости. И это неслучайно — наш сервис часто используется компаниями именно для организации такого типа работы. В прошлом году мы провели большое исследование дистанционной занятости. Кроме интересных цифр и довольно ободряющих показателей в РФ, мы обнаружили множество проблем удалённых сотрудников. Им холодно и одиноко. Они нередко испытывают коммуникационные и мотивационные проблемы, думают о смене работы и переживают за то, что отрезаны от коллег и всего, что происходит в офисе. А это всё следствие ошибок компаний. Как их преодолеть с помощью интернет-технологий  — под катом.


                Рекомендуемые позы для удалённой работы в удовольствие
                Читать дальше →
              • Создание онтологии в Protégé 5.0

                • Tutorial
                Logo ProtégéProtégé является свободным программным средством с открытым исходным кодом для редактирования онтологий и систем управления знаниями 1 . Версия 5.0 на сегодня является актуальной (о ней подробнее). Поэтому я подумала, что простой тьюториал, как небольшое введение в работу с этой программой, не будет лишним на Хабре.

                Создание новой онтологии


                Для создания онтологии открываем редактор Protégé 5.0 (загрузить можно с официального сайта или воспользоваться онлайн версией) и вводим ее название — например, NQF_FQF, и версию — /1.0.


                Далее
              • Лекции Технопарка. Базы данных (весна 2017)


                  Всем жаждущим знаний предлагаем ознакомиться с новыми лекциями Технопарка, посвящённым базам данных. Курс ведёт Артём Навроцкий, ведущий программист в Allods Team.


                  Список лекций:


                  1. Введение
                  2. Модификация и выборка данных
                  3. Выборка данных (продолжение)
                  4. Транзакции. Триггеры и хранимые процедуры
                  5. Индексы и производительность
                  6. Оптимизация запросов. Оптимизация структуры данных
                  7. Репликация, полнотекстовый поиск, JSON
                  8. Сохранность данных
                  Читать дальше →
                  • +44
                  • 44.3k
                  • 6
                • Как я поголодал 5 дней и узнал много нового о липидном метаболизме

                    В комментариях к моим постам об ограничении калорий (1, 2) пару раз прозвучала мысль, что было б неплохо, если бы я привел данные по исследованиям и многдневного полного голодания. Что ж, попытаюсь.

                    Скажу сразу, что в сети очень много восторженных отзывов о том, как кому-то помогло длительное голодание (1, 2, 3). Отрицательных же (или хотя бы нейтральных) в разы меньше. Думаю, тут дело не только в мега-полезности голодания, но и в reporting bias — те, кому от голодания стало хуже, не особо горят желанием делиться опытом: ведь мало того, что неприятно рассказывать о своих неудачах, так еще и есть риск оскорбить религиозные чувства адептов голодания, которые расскажут, что ты всё делал неправильно, и вообще врёшь.


                    Наиболее взвешенная, на мой взгляд, научная статья по проблематике голодания была написана ещё в 1982 году. В её абстракте чётко изложены основные пункты, некоторые из которых я заметил и на себе:

                    Читать дальше →
                  • Почему рискованно запрещать детям заниматься рискованными вещами

                    • Translation
                    В прошлой статье серии, посвящённой причинам и следствиям современного тренда, развивающегося в сторону чрезмерной родительской опеки, мы исследовали правдивость главной причины, по которой родители всё сильнее опекают детей и отказываются от метода «свободных прогулок», по которому росли они сами: что сегодняшний мир стал опаснее, чем был ранее.

                    Мы показали, что риск стать жертвой несчастного случая или преступления для ребёнка не только был очень мал несколько десятилетий назад, но и снизился с тех времён. Мы также обсудили, что небольшой существующий риск практически невозможно исключить, независимо от того, как сильно мы пытаемся это сделать. Присущая миру случайность приводит к тому, что некоторые трагедии человек не может контролировать.

                    Тем не менее, пока такой риск остаётся, неважно, насколько он мал или неподконтролен, многие родители пытаются сделать всё, что от них зависит, чтобы исключить и его. Они рассчитывают, что их попытки как-то уменьшат шансы на возникновение этого риска, или, что более реально, просто успокаивают себя тем, что они сделали для безопасности ребёнка всё, что могли.

                    Это можно было бы считать разумным подходом к воспитанию ребёнка, если бы такая чрезмерная бдительность не приводила бы к своим собственным рискам и недостаткам. Но, к сожалению, у этой бдительности есть недостатки.
                    Читать дальше →
                  • This is Science: 4 распространённых мифа о вакцинации и их корни


                      Источник

                      Журнал Science Magazine продолжает радовать отличными материалами. На этот раз мне на глаза попались две замечательные статьи. Одна из них посвящена мифам вокруг вакцинации детей. Другая же с помощью инфографики отлично демонстрирует, как изобретение и внедрение вакцин на протяжении XX века помогло победить самые разные заболевания или существенно снизить смертность от них.
                      На вайна ради, науки и здоровья для
                    • Отчет с Data Fest⁴ 11-12 февраля



                        11-12 февраля в нашем московском офисе состоялась четвертая конференция Data Fest⁴, объединившая исследователей, инженеров и разработчиков, связанных с Data Science во всех его проявлениях. Под катом мы подготовили для вас видеоматериалы с конференции.
                        Читать дальше →
                        • +30
                        • 7.5k
                        • 1
                      • Gixy — open source от Яндекса, который сделает конфигурирование Nginx безопасным

                          Nginx, однозначно, один из крутейших веб-серверов. Однако, будучи в меру простым, довольно расширяемым и производительным, он требует уважительного отношения к себе. Впрочем, это относится к почти любому ПО, от которого зависит безопасность и работоспособность сервиса. Признаюсь, нам нравится Nginx. В Яндексе он представлен огромным количеством инсталляций с разнообразной конфигурацией: от простых reverse proxy до полноценных приложений. Благодаря такому разнообразию у нас накопился некий опыт его [не]безопасного конфигурирования, которым мы хотим поделиться.



                          Но обо всем по порядку. Нас давно терзал вопрос безопасного конфигурирования Nginx, ведь он — полноправный кубик веб-приложения, а значит, и его конфигурация требует не меньшего контроля с нашей стороны, чем код самого приложения. В прошлом году нам стало очевидно, что этот процесс требует серьезной автоматизации. Так начался in-house проект Gixy, требования к которому мы обозначили следующим образом:

                          — быть простым;
                          — но расширяемым;
                          — с возможностью удобного встраивания в процессы тестирования;
                          — неплохо бы уметь резолвить инклюды;
                          — и работать с переменными;
                          — и про регулярные выражения не забыть.
                          Читать дальше →