• CISSP: что нового и чем вооружиться?

      Совсем недавно в Rambler Group появился сертифицированный специалист CISSP. Он готов поделиться своим опытом и рассказать, что дает этот сертификат, какие изменения произошли в экзамене за последние 2 года и как эффективно к нему подготовиться.



      Привет, я Саша, директор по методологии, контролю кибербезопасности и управлению рисками, сертифицированный специалист CISSP. После получения сертификата мне чаще всего задают эти два вопроса:

      1. сложно было сдать экзамен?
      2. сколько ты готовился?

      И вот, отвечая в очередной раз, я решил поделиться с вами своим опытом подготовки и сдачи экзамена. Тем более самая свежая статья про CISSP на русском языке датирована далеким 2018 годом, а за это время уже многое успело измениться. В лучших традициях зарубежных коллег в конце поста я оставил список материалов, по которым готовился и получил заветный сертификат, а также блок моих персональных рекомендаций.
      Читать дальше →
    • Частотный анализ русского текста и облако слов на Python

      Частотный анализ является одним из сравнительно простых методов обработки текста на естественном языке (NLP). Его результатом является список слов, наиболее часто встречающихся в тексте. Частотный анализ также позволяет получить представление о тематике и основных понятиях текста. Визуализировать его результаты удобно в виде «облака слов». Эта диаграмма содержит слова, размер шрифта которых отражает их популярность в тексте.

      Обработку текста на естественном языке удобно производить с помощью Python, поскольку он является достаточно высокоуровневым инструментом программирования, имеет развитую инфраструктуру, хорошо зарекомендовал себя в сфере анализа данных и машинного обучения. Сообществом разработано несколько библиотек и фреймворков для решения задач NLP на Python. Мы в своей работе будем использовать интерактивный веб-инструмент для разработки python-скриптов Jupyter Notebook, библиотеку NLTK для анализа текста и библиотеку wordcloud для построения облака слов.
      Читать дальше →
    • Обзор российского законодательства по защите критической информационной инфраструктуры

        Друзья, в предыдущей публикации мы рассмотрели вопросы защиты персональных данных с точки зрения российского и международного законодательства. Однако существует и еще одна актуальная тема, касающаяся большого количества российских компаний и организаций — мы говорим о защите критической информационной инфраструктуры. Защищенность и устойчивость ИТ-систем как отдельных крупных компаний, так и целых отраслей промышленности в современных условиях играют решающую роль. Во всем мире фиксируются попытки осуществления целенаправленных и изощренных кибератак на объекты инфраструктуры, и не обращать внимания на такие факты было бы весьма недальновидно. Создание ГосСОПКА (государственной системы обнаружения, предупреждения и ликвидации последствий компьютерных атак на информационные ресурсы Российской Федерации), а также подписание Федерального Закона от 26 июля 2017 г. № 187-ФЗ «О безопасности критической информационной инфраструктуры Российской Федерации» и разработка соответствующих подзаконных актов послужили логичным ответом на вызовы текущих реалий.

        Рассмотрим этот аспект информационной безопасности подробнее. Вперёд!

        image
        Читать дальше →
        • +4
        • 18.7k
        • 6
      • Пишем модель угроз

        • Tutorial


        Всем привет, мы продолжаем свой цикл статей по «бумажной безопасности». Сегодня поговорим о разработке модели угроз. Если цель прочтения этой статьи в получении практических навыков, то лучше сразу скачать наши шаблоны документов, в котором есть и шаблон модели угроз. Но и без шаблона под рукой со статьей тоже можно ознакомиться в общеобразовательных целях.

        Читать дальше →
        • +25
        • 69.5k
        • 8
      • Визуализация статистики Яндекс Директ своими руками. От API до Data Studio

        • Tutorial
        Мне, как специалисту по рекламе, требуется постоянно присматривать за клиентами. В этом мне помогает Data Studio.
        Однако специалистам по рекламе редко выделяют бюджеты на аналитику, поэтому приходится делать все своими руками.

        Что нужно сделать чтобы визуализировать Яндекс Директ в Data Studio:

        1. Получить токен от своего аккаунта (за этим в справку Директа)
        2. На Python Написать запрос к серверу Яндекс Директ
        3. Сложить статистику в Pandas Data Frame
        4. Отправить данные в Google Big Query
        5. Построить визуализацию в Data Studio на основе данных в Google Big Query


        Читать дальше →
      • «Просто похудеть» — непросто

          Интернет наводнен статьями о том, как похудеть "просто съедая меньше чем потратил" и отчетами об успешном опыте некоторых везунчиков. Чего нету (ну или очень мало) в интернете — это отчетов о том, как миллионы людей безрезультатно пытаются просто "съесть меньше", садясь на все новомодные диеты и неизменно возвращаясь к тому, с чего начинали, а иногда и скатываясь по шкале индекса массы тела в еще более красную зону.


          В этой статье я постараюсь описать наиболее частые причины неудач и дать некоторые лайфхаки, который позволят обмануть свой мозг и наконец достигнуть своего так желаемого целевого веса.

          Хакнуть свой мозг
        • Выбираем канал для точки доступа Wi-Fi. Исчерпывающее руководство

            2,4 ГГц — это плохо. 5 ГГц — это хорошо. 6 ГГц — это ещё лучше, но послезавтра. Все это знают, кого я тут учу, в самом деле. Всё это хорошо, только делать-то что, когда ты такой, как умный, открываешь какой-нибудь Wi-Fi Explorer, а там сатанизм и этажерки, как на скриншоте?



            Шаг первый — поплакать. Шаг второй — нырнуть под кат. Вопрос простой, а ответ — нет.
            Когда это нас останавливало?
          • Как помочь pandas в обработке больших объёмов данных?

            • Translation
            Библиотека pandas — это один из лучших инструментов для разведочного анализа данных. Но это не означает, что pandas — это универсальное средство, подходящее для решения любых задач. В частности, речь идёт об обработке больших объемов данных. Мне довелось провести очень и очень много времени, ожидая, пока pandas прочтёт множество файлов, или обработает их, вычислив на основе находящихся в них сведений какие-то интересующие меня показатели. Дело в том, что pandas не поддерживает механизмы параллельной обработки данных. В результате этому пакету не удаётся на полную мощность воспользоваться возможностями современных многоядерных процессоров. Большие наборы данных в pandas обрабатываются медленно.



            Недавно я задался целью найти что-то такое, что позволит помочь мне в деле обработки больших данных. Мне удалось найти то, что я искал, я встроил найденный инструмент в свой конвейер обработки данных. Я использую его для работы с большими объёмами данных. Например — для чтения файлов, содержащих 10 гигабайт данных, для их фильтрации и агрегирования. Когда я справляюсь с решением подобных задач, я сохраняю то, что у меня получилось, в CSV-файле меньшего размера, который подходит для pandas, после чего приступаю к работе с полученными данными с помощью pandas.

            Вот блокнот Jupyter, содержащий примеры к этому материалу, с которыми можно поэкспериментировать.
            Читать дальше →
            • +32
            • 4.5k
            • 3
          • Умирает ли RuTracker? Анализируем раздачи

            Любая деятельность генерирует данные. Чем бы вы ни занимались, у вас наверняка на руках кладезь необработаной полезной информации, ну или хотя бы доступ к его источнику.


            Сегодня побеждает тот, кто принимает решения, основываясь на объективных данных. Навыки аналитика как никогда актуальны, а наличие под рукой необходимых для этого инструментов позволяет всегда быть на шаг впереди. Это и является подспорьем появления данной статьи.


            У вас есть свой бизнес? Или может… хотя, не важно. Сам процесс добычи данных бесконечен и увлекателен. И даже просто хорошо покопавшись в интернете можно найти себе поле для деятельности.


            Вот, что мы имеем сегодня – Неофициальная XML-база раздач сайта RuTracker.ORG. База обновляется раз в полгода и содержит в себе информацию о всех раздачах за историю существования данного торрент-трекера.


            Что она может рассказать владельцам рутрекера? А непосредственным пособникам пиратства в интернете? Или обычному юзеру, увлекающемуся аниме, например?

            Читать дальше →
          • Как разработчикам Myst удалось уместить на одном CD-ROM целую вселенную

            • Translation
            image

            Привет, я Рэнд Миллер, соавтор «Myst». Мы поставили перед собой задачу создать реальный мир «Myst», но болезненно ударились о реальные ограничения CD-ROM. Играми я начал заниматься ещё с начала старшей школы, и я уже не молод, то есть это было довольно давно. Игры, которые у меня тогда были на компьютере, непохожи на современные. Меня очень захватила игра Lunar Lander. Я помню её до сих пор. В ней не было графики. Это была строка текста на ЭЛТ-экране, сообщавшая мне, насколько далеко я был от лунной поверхности, насколько быстро я перемещался, сколько топлива осталось, а ещё вопросительный знак. Нужно было вводить количество топлива, которое вы хотите сжечь, нажимать на ввод, и так повторять, пока не упадёшь на поверхность.

            В начале старшей школы друг из колледжа взял меня с собой в компьютерный центр Университета Нью-Мексико. Я увидел эту игру на экране, и это была настоящая магия. Для меня это была магия. И он сказал: «Есть и другие игры», и что можно самому делать игры. «Вот, ты пишешь программы, чтобы они делали это». Для меня это изменило всё, и с тех пор я захотел этим заниматься. Cyan была образована примерно в середине 80-х, и в то время нам казалось, что это очень многозначное название, поэтому мы можем заниматься чем угодно. У нас с моим братом Робином была идея голубого неба, и она нам понравилось, поэтому мы выбрали такое название.
            Читать дальше →
          • Ускоряем numpy, scikit и pandas в 100 раз с Rust и LLVM: интервью с разработчиком Weld

            Привет, Хабр! Представляю вашему вниманию перевод статьи «Interview with Weld’s main contributor: accelerating numpy, scikit and pandas as much as 100x with Rust and LLVM».

            Проработав несколько недель с data science инструментарием в Python и R, я начал задаваться вопросом, а нет ли какого промежуточного представления (Intermediate representation, IR) наподобие CUDA, которое можно использовать в разных языках. Должно же быть что-то получше, чем реимплементация и оптимизация одних и тех же методов в каждом языке. В дополнение к этому было бы неплохо иметь общую среду выполнения (common runtime), чтобы оптимизировать всю программу целиком, а не каждую функцию в отдельности.

            После нескольких дней исследования и тестирования различных проектов я нашел Weld (можете ознакомиться с академической статьей).

            К моему удивлению одним из автором Weld является Матей Захария (Matei Zaharia), создатель Spark.

            Итак, я связался с Шоумиком Палкаром (Shoumik Palkar), основным контрибьютором Weld, и взял интервью у него. Шоумик — аспирант факультета компьютерных наук в Стэнфордском университете, куда поступил по совету Матея Захарии.

            Weld еще не готова к промышленному использованию, но весьма перспективна. Если вам интересно будущее data science и Rust в частности, вам понравится это интервью.
            Читать дальше →
          • 70 офигенных видеокурсов от мировых звёзд

              image

              Хотели бы вы поучиться освоению космоса у Криса Хэдфилда, разработке игр у создателя SimCity Уилла Райта, писательскому мастерству у Дэна Брауна, Нила Геймана или Малькольма Гладуэлла, актерскому мастерству у Натали Портман или Кевина Спейси, шахматам у Гарри Каспарова, а режиссуре у Мартина Скорсезе и Дэвида Линча?

              Предлагаю вашему вниманию 70 курсов с MasterClass, они платные, но тот кто ищет, тот найдет и бесплатно.

              А какие суперкрутые видеокурсы встречали вы?

              А ещё, учите английский, без него никак, «нету ножек, нету мультиков».

              Разработка игр
              Освоение космоса
              Кинопроизводство
              Актерское мастерство и перформанс
              Музыка
              Писательство и журналистика
              Кулинария и вино
              Спорт, балет и покер
              Мода и дизайн
              Экономика, бизнес и лидерство
              Научное мышление
              Переговоры (от ФБР)
              Экстремальная фотография
              Сохранение природы
              Читать дальше →
            • LDA на статьях LiveJournal + визуализация

                Как-то раз стало интересно, какие темы выделит LDA (латентное размещение Дирихле) на материалах «Живого Журнала». Как говорится, есть интерес — нет проблем.

                Для начала немного про LDA на пальцах, вдаваться в математические подробности не будем (кому интересно — почитает). Итак, LDA — является одним из наиболее распространенных алгоритмов для моделирования тем. Каждый документ (будь то статья, книга или любой другой источник текстовых данных) представляет собой смесь тем, а каждая тема представляет собой смесь слов.


                Картинка взята из Википедии
                Читать дальше →
              • 5 малоизвестных секретов Pandas

                • Translation

                Pandas не нуждается в представлении: на сегодняшний день это главный инструмент для анализа данных на Python. Я работаю специалистом по анализу данных, и несмотря на то, что пользуюсь pandas каждый день, не перестаю удивляться разнообразию функционала этой библиотеки. В этой статье я хочу рассказать о пяти малоизвестных функциях pandas, которые я недавно узнал и теперь продуктивно использую.

                Для новичков: Pandas — это высокопроизводительный набор инструментов для анализа данных на Python с простыми и удобными структурами данных. Название произошло от понятия «panel data», эконометрического термина, которым называют данные о наблюдениях одних и тех же субъектов в течение разных периодов времени.

                Здесь можно скачать Jupyter Notebook с примерами из статьи.
                Читать дальше →
                • +45
                • 11.2k
                • 1
              • 10 отличных Github репозиториев, которые должен знать каждый веб-разработчик

                • Translation

                Кроме огромных репозиториев с источниками для подготовки к интервью, здесь много чего интересного


                Я собрал список из десяти отличных репозиториев на Github, которые помогут вам существенно расширить свои знания.


                image


                А я его перевел, т.к. показалось, что пост многим будет интересен. Перевод очень вольный: я опустил нерелевантные промо-ссылки и гипер эмоциональные похвалы автора оригинала, чтобы оставить только суть. Еще, обновил цифры, чтобы информация была более актуальной к моменту публикации этого перевода. Итак, перейдем к списку.
                Читать дальше →
                • +62
                • 76.4k
                • 8
              • Zip-файлы: история, объяснение и реализация

                • Translation


                Мне давно было интересно, как сжимаются данные, в том числе в Zip-файлах. Однажды я решил удовлетворить своё любопытство: узнать, как работает сжатие, и написать собственную Zip-программу. Реализация превратилась в захватывающее упражнение в программировании. Получаешь огромное удовольствие от создания отлаженной машины, которая берёт данные, перекладывает их биты в более эффективное представление, а затем собирает обратно. Надеюсь, вам тоже будет интересно об этом читать.

                В статье очень подробно объясняется, как работают Zip-файлы и схема сжатия: LZ77-сжатие, алгоритм Хаффмана, алгоритм Deflate и прочее. Вы узнаете историю развития технологии и посмотрите довольно эффективные примеры реализации, написанные с нуля на С. Исходный код лежит тут: hwzip-1.0.zip.
                Читать дальше →
              • Как работать с API Google Таблиц (Google Sheets API v4) на языке R с помощью нового пакета googlesheets4

                • Tutorial

                Электронные таблицы по-прежнему остаются довольно популярным инструментом для работы с данными, а среди различных процессоров электронных таблиц наиболее популярными являются Google Таблицы. Во-первых, это бесплатный инструмент, во-вторых, функционал Google Таблиц достаточно широк, и они предоставляют вам возможность в онлайн режиме получить доступ к данным.


                В этой статье мы разберёмся с тем, как на языке программирования R работать с Google Sheets API v4 с помощью пакета googlesheets4, а точнее:


                • Как пройти авторизацию для работы с Google Таблицами по API;
                • Рассмотрим основные функции пакета;
                • Разберём примеры кода для чтения данных, создания новых таблиц и выполнения других манипуляций с Google Таблицами по API.

                Также эта статья поможет пользователям устаревшего пакета googlesheets мигрировать на новый googlesheets4.


                Для тех кому лень читать статью, вот ссылка на 10 минутный, русскоязычный видео урок на YouTube. Остальным добро пожаловать под кат.


                Читать дальше →
              • Сканирующее окно по массивам NumPy

                  CoLab блокнот с примерами.


                  Возможно сделать скользящее окно (rolling window, sliding window, moving window) по массивам NumPy на языке программирования Python без явных циклов. В данной статье рассматривается создание одно-, двух-, трех- и N-мерных скользящих окон по массивам NumPy. В результате скорость обработки данных увеличивается в несколько тысяч раз и сравнима по скорости с языком программирования С.


                  Cкользящее окно применяется в: обработке изображений, искусственных нейронных сетях, интернет протоколе TCP, обработке геномных данных, прогнозировании временных рядов и т.д.


                  Отказ от ответственности: в исходном коде могут быть ошибки! Если вы видите ошибку, пожалуйста, напишите мне.


                  Читать дальше →
                  • +18
                  • 5.4k
                  • 5
                • Как сжать модель fastText в 100 раз

                    Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и примеры компактной модели для русских слов.


                    Читать дальше →
                    • +43
                    • 11.2k
                    • 4
                  • Сотовый телефон с дисковым номеронабирателем

                    • Translation


                    Перевод статьи с сайта самодельщицы Джастин Хопт

                    Поскольку я получила неимоверное количество запросов от людей, желающих купить дисковый сотовый телефон, у себя на сайте я выложила набор для его сборки, где есть только всё самое «сложное» (напечатанный корпус с кнопками и плата); номеронабиратель и другие детали вам нужно будет искать самостоятельно.


                    Почему я решила сделать сотовый телефон с дисковым номеронабирателем? В капризном и раздражающем сенсорном мире чрезмерно связанных друг с другом людей, использующих телефоны, которые они не могут ни понять, ни контролировать, мне захотелось сделать что-то полностью моё, личное и очень тактильное, при этом дающее мне повод не отправлять текстовые сообщения.

                    Суть не в анахронизме. Я хотела показать, что можно получить вполне пригодный для использования сотовый телефон, максимально далеко отошедший от сенсорного экрана, и в некоторых случаях превосходящий его по функциональности. В каких же?
                    Читать дальше →