Привет, Хабр! Меня зовут Роман Ленц, я руковожу анализом данных и машинным обучением в ПГК. Мы с коллегами подобрали курсы, литературу и сообщества, которые пригодятся тем, кто желает погрузиться в тему машинного обучения и анализа данных, но не знает, с чего начать.
Пользователь
Вопросы и задачи по SQL на собеседованиях 2024: готовьтесь эффективно
В 2024 году вопросы и тестовые задания на собеседованиях не потеряли своей актуальности и продолжают вызывать огромный интерес у соискателей. Если вы сейчас погружены в процесс прохождения интервью, то наверняка сталкиваетесь с множеством непростых, но захватывающих задач.
Давайте вместе рассмотрим некоторые из новых вопросов и задач, которые реально задаются на собеседованиях в различных командах. Эти примеры основаны на моем собственном опыте и актуальны на сегодняшний день. Новые вопросы и задачи будут публиковаться по мере их поступления и прохождения собеседований.
Анализ новостей с помощью сегментации и кластеризации временных рядов
В Отусе я прошла курс ML Advanced и открыла для себя интересные темы, связанные с анализом временных рядов, а именно, их сегментацию и кластеризацию. Я решила позаимствовать полученные знания для своей дипломной университетской работы по ивент-анализу социальных явлений и событий и описать часть этого исследования в данной статье.
Шаг 1. Сбор данных
В качестве источника данных я взяла информационно-новостной ресурс Лента.ру, так как с него легко парсить данные, новости разнообразны и пополняются в большом объеме ежедневно. Для теста я спарсила новости за последний год (март 2023 – март 2024) с помощью питоновских BeautifulSoup и requests.
В коде происходит процедура сбора заголовка, даты и тематики новостей:
Часть 1. GPU-Based Fuzzing. Что за зверь такой?
Всем привет!
При изучении темы фаззинг‑тестирования всегда возникает вопрос, насколько сильно можно увеличить количество выполнений приложения в секунду. Иначе говоря — как ускорить фаззинг?
В последнее время одно из популярных направлений — искусственный интеллект, его создание и обучение. Лично я от этой темы далек, однако имею представление, что лучшего всего он (ИИ) обучается на видеокартах. Более того, обучение может происходить с использованием облака.
И так, с одной стороны мы имеем фаззинг, который надо ускорить, с другой — большое количество вычислительных ресурсов на основе видеокарт из‑за активного развития ИИ. Так почему бы не попробовать использовать эти ресурсы во благо ИБ?
Как работает multiprocessing в Python под капотом
Я довольно давно пишу на Python и во многих проектах использовал multiprocessing — пакет стандартной библиотеки языка Python, который предоставляет интерфейс для работы с процессами, очередями, пулами процессов и многими другими удобными инструментами для параллельного программирования. В какой-то момент я понял, что мне не хватает более детального понимания работы этой библиотеки.
Мне захотелось залезть в исходники multiprocessing, разобраться и заодно написать статью. Данная статья в основном рассчитана на новичков в Python и тех, кто хочет подробнее разобраться в том, как именно создаются процессы и пулы в Python и погрузиться в детали реализации.
Управляем умным домом Home Assitant через Алису и без интернета. Часть 1
В этой статье я бы хотел рассказать о том, как можно управлять умным домом и всеми устройствами (не только Zigbee) в Home Assistant даже без подключения к интернету.
Pandas: от хаоса к красоте кода
Работа с pandas.DataFrame
может превратиться в неловкую кучу старого (не очень) доброго спагетти-кода. Я и мои коллеги часто используем эту библиотеку, и хотя мы стараемся придерживаться хороших практик программирования, иногда мы все равно мешаем друг другу, создавая запутанный код.
Я собрала несколько советов и подводных камней, которых следует избегать, чтобы сделать код на pandas
чистым. Надеюсь, вам они тоже будут полезны. Также я буду ссылаться на классическую книгу Роберта Мартина «Чистый код: создание, анализ и рефакторинг».
Разница между pool.map и pool.map_async в Python
Еще одна статья-шпаргалка о модуле multiprocessing в Python, без воды, от новичка для новичков многопроцессорного программирования.
pool.map и pool.map_async являются методами модуля multiprocessing.Pool в Python, которые позволяют параллельно выполнять функции на нескольких процессах.
Модули multiprocessing и threading в Python
Данная статья написана новичком для новичков, т.е. для тех, кто только начинает изучать возможности многопроцессорного и многопоточного программирования в Python. Статья намеренно пишется без воды и со скомканной теорией, в стиле шпаргалки.
Как увеличить точность модели с 80% до 90%+ (мой опыт)
Разберем способы поднять точность модели!
Привет, чемпион! Возможно, перед тобой сейчас стоит задача построить предиктивную модель, или ты просто фармишь Kaggle, и тебе не хватает идей, тогда эта статья будет тебе полезна!
Наверное, уже только ленивый не слышал про Data Science и то, как модели машинного обучения помогают прогнозировать будущее, но самое крутое в анализе данных, на мой взгляд, - это хакатоны! Будь-то Kaggle или локальные соревнования, везде примерно одна задача - получить точность выше, чем у других оппонентов (в идеале еще пригодную для продакшена модель). И тут возникает проблема...
Обратный поиск изображений: руководство от детективного агентства Bellingcat
Кадр одного из онлайновых расследований Bellingcat
Международное агентство Bellingcat опубликовало несколько советов по идентификации людей и географических локаций на фотографиях с помощью функции «Поиск изображений» в поисковых системах.
Оказалось, что в этом отношений нет равных российской поисковой системе «Яндекс. Картинки». По одному образцу движок находит фотографии этого лица в совершенно другой обстановке и освещении, что говорит о продвинутом распознавании лиц. У Google и других компаний нет ничего подобного, признают специалисты. Таким образом, «Яндекс» можно назвать безусловным лидером по обратному поиску изображений.
В опубликованном руководстве разъясняются базовые методы онлайн-расследований, с акцентом на идентификацию лиц и адресов.
Временные ряды в прогнозировании спроса, нагрузки на КЦ, товарных рекомендациях и поиске аномалий
Рассмотрим задачи подробнее.
9 подходов для выявления аномалий
Применение
Выявление аномалий используется в таких областях как:
1) Предсказание поломок оборудования
Так, в 2010 году Иранские центрифуги были атакованы вирусом Stuxnet, который задал неоптимальный режим работы оборудования и вывел из строя часть оборудования за счет ускоренного износа.
Если бы на оборудовании использовались алгоритмы поиска аномалий, ситуации выхода из строя можно было избежать.
Помнить всё: метод римской комнаты
Совет прекрасный, но не всегда есть под рукой система, которой я доверяю. И не всегда я ей доверяю. Бывают ситуации, когда ни записать, ни прочитать записанное невозможно. На пробежке, например. На грани сна. В бане. Во время шторма на палубе каравеллы.
В конце концов, эту чудесную систему можно где-то потерять.
В таких случаях всё-таки придётся использовать голову, но не загружая её. И лучший из известных мне способов это сделать — метод римской комнаты. Также его называют дворец памяти или дорога Цицерона.
400 потрясающих бесплатных сервисов
Рад представить дополнение оригинального списка из 300 потрясающих бесплатных сервисов. Автор оригинальной статьи Ali Mese добавил ещё +100 новых сервисов, которые помогут найти все — от источников вдохновения и редакторов фотографий до создания опросов и бесплатных иконок.
И еще подборку +500 инструментов от 10 марта 2017 г. смотрите здесь.
A. Бесплатные веб-сайты
- HTML5 UP: Адаптивные шаблоны HTML5 и CSS3.
- Bootswatch: Бесплатные темы для Bootstrap.
- Templated: Коллекция 845 бесплатных шаблонов CSS и HTML5.
- Wordpress.org | Wordpress.com: Бесплатное создание веб-сайта.
- Strikingly: Конструктор веб-сайтов.
- Layers: Создание сайтов на WordPress (new).
- Bootstrap Zero: Самая большая коллекция бесплатных шаблонов Bootstrap (new).
- Landing Harbor: Продвижение мобильного приложения c помощью бесплатного лендинга (new).
43 полезных сервиса для управления проектами. Без эпитетов
Требуется: необходимо быстро назначать задачи исполнителям, планировать спринты, трекать выполнение и статусы, визуализировать процессы и делиться результатами с заказчиками.
Выбирая для себя сервисы, с помощью которых мы могли бы работать над проектами в несколько раз эффективнее, у нас сложился целый список различных сервисов таск- и тайм-менеджмента, для управления и планирования проектов, командной работы, построения онлайн диаграмм и т.д.
Изначально сервисов было более 100, но постепенно список сокращался, и мы остановили наш выбор на трех, удовлетворяющих вместе наши нужды лучше всего: Jira, Slack и GanttPro. Но, если вдруг эти сервисы не помогут вам в планировании задач и работы с командой, делюсь с вами полным списком:
Процесс поиска очень часто усложняется тем, что все сервисы, как один, пишут «Лучший сервис, помогающий превратить ваши идеи в реальность и реализовать ваши проекты. Сегодня.». Так, а что вы делаете-то? Поэтому в этом списке без лишних эпитетов, только что какой сервис умеет. :)
Микрофон и криптография: извлекаем 4096-битные ключи RSA с расстояния в 10 метров
Оборудование, используемое при проведении акустической криптоатаки
Известный специалист в области криптографии Ади Шамир (Adi Shamir) уже несколько лет работает над проектом акустического извлечения криптографических ключей. Исследования в этой сфере он начал еще в 2004 году, и сейчас продолжает совершенствовать методы «акустического криптоанализа». Проблема, над решением которой работает Шамир с командой, заключается в возможности извлекать RSA-ключи с использованием микрофона — качественного выделенного или микрофона смартфона.
Ранее эксперт с командой коллег (в нее входит разработчик программного обеспечения Лев Пахманов) опубликовал работу с демонстрацией практической реализации своей идеи. Им удалось извлечь ключи RSA с расстояния 4 метров, используя обычный параболический микрофон, и с расстояния в 30 сантиметров, используя микрофон смартфона. Теперь эксперты улучшили результат, научившись извлекать ключи с расстояния в 10 метров.
Windows 10 IoT — небольшой обзор новой редакции ОС для маленьких устройств
На прошлой неделе мы рассказали про то, как видим Интернет Вещей. Про то, как в Microsoft Technology Center уже функционирует концепт умного офиса. Про то, как подключить Arduino к Raspberry Pi 2, а также про то, как с одноплатной системы можно собирать данные, отправлять и визуализировать в облаке Microsoft Azure. Прошлая неделя получилась именно такой – под знаком облака. Эта пройдёт под знаком Windows 10 – сегодня про общие моменты, в среду про AllJoyn, в пятницу – про все те интереснейшие партнёрства, которые мы заключили (Canonical, Arduino и др.) и про то, что они несут в этот мир.
Образование, которое мы потеряли
Что же происходит?
Запускаем сайт на облачном VPS от Infobox за 10 минут
Можно использовать все возможности облака без необходимости длительной настройки ОС и установки ПО для хостинга сайта. Если вы используете классические VPS – мы сделали шаблон доступным и в этом сервисе.
Внутри шаблона Ubuntu 14.04 lamp предустановлено и настроено следующее ПО:
- NGINX 1.4 (в качестве реверс-прокси)
- Apache 2.4
- PHP 5.5
- MySQL 5.5
- ProFTPD 1.3
- PHPMyAdmin 4.0
Можно сразу развернуть сайт, пользоваться FTP и PHPMyAdmin без дополнительных настроек.
В этой статье мы рассмотрим этот шаблон подробнее и покажем, как просто можно перенести сайт на облачные VPS от Infobox.
Информация
- В рейтинге
- Не участвует
- Зарегистрирован
- Активность