Pull to refresh
9
Karma
0
Rating
Владислав @Gers1972

Аналитик данных

ML под ударом: противодействие атакам на алгоритмы машинного обучения

Бастион corporate blog Information Security *Machine learning *Artificial Intelligence

Ежегодно выходят тысячи научных работ об атаках на алгоритмы машинного обучения. Большая часть из них рассказывает о взломе компьютерного зрения, ведь на его примере можно наглядно продемонстрировать последствия атаки. На деле первыми под удар попадают спам-фильтры, классификаторы контента, антивирусные сканеры и системы обнаружения вторжений. Например, достается базе VirusTotal. Туда уже давно пробуют загружать безобидные файлы, которые распознаются, как вредоносные и вызывают цепочки ложных срабатываний.

Среда, в которой выполняются алгоритмы машинного обучения, подвержена большинству стандартных векторов атак, но это еще не все. Подобно тому, как реляционные базы данных привели к появлению SQL-инъекций, а веб-скрипты к XSS, алгоритмы машинного обучения подвержены особым угрозам, от которых плохо помогают стандартные меры защиты.

Читать далее
Total votes 14: ↑14 and ↓0 +14
Views 1.4K
Comments 0

Большое сравнение 400 нейронных сетей для задачи классификации на более 8000 классов

Python *Data Mining *Machine learning *Artificial Intelligence Data Engineering *

Думаю, вы знакомы с графиками сравнения точности архитектур. Их применяют в задачах по классификации изображений на ImageNet. 

В каждом сравнении которые я мог встретить ранее в Интернете, как правило это было сравнение небольшого количества архитектур нейросетей, произведенными разными командами, и возможно в разных условиях.

Кроме того в последнее время я наблюдаю изменения: появилось большое количество архитектур. Однако их сравнений с ранее созданными архитектурами я не встречал, либо оно было не столь масштабным.

Мне захотелось столкнуть большое количество существующих архитектур для решения одной задачи, при это объективно посмотреть как поведут себя новые архитектуры типа Трансформер, так и ранее созданные архитектуры.

Читать далее
Total votes 10: ↑10 and ↓0 +10
Views 1.4K
Comments 11

Почему я больше не рекомендую Julia

Programming *Data visualization Julia *
Translation

Много лет я пользовался языком программирования Julia для преобразования, очистки, анализа и визуализации данных, расчёта статистики и выполнения симуляций.

Я опубликовал несколько опенсорсных пакетов для работы с такими вещами, как поля расстояний со знаком, поиск ближайших соседей и паттерны Тьюрингатакже с другими), создавал визуальные объяснения таких концепций Julia, как broadcasting и массивы, а ещё применял Julia при создании генеративной графики для моих визиток.

Какое-то время назад я перестал пользоваться Julia, но иногда мне задают о нём вопросы. Когда люди спрашивают меня, я отвечаю, что больше не рекомендую его. Мне подумалось, что стоит написать, почему.
Читать дальше →
Total votes 35: ↑34 and ↓1 +33
Views 10K
Comments 18

Практические применения генеративных моделей: как мы делали суммаризатор текстов

SberDevices corporate blog Python *Machine learning *Artificial Intelligence Natural Language Processing *


В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики. 
Читать дальше →
Total votes 7: ↑7 and ↓0 +7
Views 1K
Comments 0

Как одолеть вопросы по АБ тестам с собеседований

Product Management *Interview IT-companies

Данная статья продолжение моих "баталий" с HR-ами в январе этого года: погружусь в тему АБ тестов на основе своего опыта прохождения собеседований.

Т.к. данная тема не самая простая для аналитиков, и не только для нас. То давайте начнем с базовых теоретических вопросов, которые спрашивают на собесах - можно использовать данную статью, как гайд для погружения в АБ тесты.

Читать далее
Total votes 5: ↑5 and ↓0 +5
Views 4.2K
Comments 3

Чтобы найти хороших разработчиков, заставьте их читать чужой код

Programming *Personnel Management *IT career
Translation
При найме разработчиков можно смотреть на различные навыки, но за годы работы я выяснил, что самое важное — простая способность кодить, и этот навык сильно опережает по важности все остальные. Я могу быстро обучить человека, чтобы он получил знания в определённой области, но никогда не видел, чтобы простая способность кодить исходила из чего-то иного, кроме как из личного стремления к упорной и глубокой практике. Благодаря этому я выяснил, что одни способы лучше подходят для выявления талантов, чем другие.
Читать дальше →
Total votes 95: ↑95 and ↓0 +95
Views 32K
Comments 65

Как изучить SQL за ночь или шпаргалка для системного аналитика

System Analysis and Design *SQL *

Помните, как вы были студентами, и готовились к экзаменам по ночам?

Предлагаю вашему вниманию простую шпаргалку по SQL с теорией и практикой, которой вы сможете воспользоваться в любое время.

Изучите теорию на примерах и закрепите на 13 практических задачах по SQL.

Читать далее
Total votes 62: ↑57 and ↓5 +52
Views 32K
Comments 40

Релокация на машине в Армению

IT-emigration IT career

Доброго дня всем хабровчанам. Примерно месяц назад я переехал из Москвы жить и работать в Ереван. С тех пор периодически меня спрашивают про то как мне удалось доехать до Армении на автомобиле, как вообще устроена релокация и как мне живется после переезда. Так что я подумал-подумал и решил написать об этом статью на Хабр.

Для тех кто заинтересовался
Total votes 87: ↑79 and ↓8 +71
Views 30K
Comments 253

«Двойные» субтитры и автопауза — расширение для изучения языков с помощью Netflix и YouTube

Browser extensions Learning languages

Плагин под названием DoubleSubs предназначен для улучшения навыков аудирования и словарного запаса, просто просматривая видео и сериалы с двойными субтитрами.

Это расширение предназначено для помощи в изучении языка способом погружения. Погружение в язык — это наиболее естественный способ изучать его. Вы можете учиться методом погружения в языковую среду с помощью YouTube, или можете смотреть фильмы, телевизионные шоу и сериалы, рекламные ролики это все является часть погружения.

Основная особенность расширения — отображение двух субтитров сразу (например Английски + Русский), чтобы зрители могли сверять их и запоминать нужную им лексику. Однако он поддерживает и другие функции:

Читать далее
Total votes 21: ↑21 and ↓0 +21
Views 6.3K
Comments 19

Как улучшить распознавание скелетов в MediaPipe

Recognitor corporate blog Algorithms *Image processing *Machine learning *Artificial Intelligence
Tutorial

Я очень люблю скелетные детекторы из Mediapipe. Чтобы запустить их нужно всего несколько минут. Работает на разных платформах (мобильные, pc, embedded, и.т.д.). И выдает достаточное качество для многих применений. 

Но надо признать что не всюду его можно брать и использовать. Давайте я расскажу как небольшими силами можно его улучшить. Приведенная тут логика будет построена вокруг Mediapipe, но она им не ограничена. Применяя аналогичные подходы можно улучшить практически любой скелетный алгоритм.

Читать далее
Total votes 16: ↑15 and ↓1 +14
Views 2.2K
Comments 14

Как изменилась стандартная библиотека Python за последние годы

Python *Programming *

Python 3.8+


Когда выходит очередная версия Python, все внимание достается новым фичам языка: моржовому оператору, слиянию словарей, паттерн-матчингу. Еще много пишут об изменениях в асинхронной работе (модуль asyncio) и типизации (модуль typing) — эти модули на виду и бурно развиваются.


Остальным модулям стандартной библиотеки достается незаслуженно мало внимания. Хочу это исправить и рассказать, что интересного появилось в версиях 3.8–3.10.

Читать дальше →
Total votes 88: ↑86 and ↓2 +84
Views 14K
Comments 13

Три подхода к ускорению обучения XGBoost-моделей

Wunder Fund corporate blog Python *Programming *Machine learning *
Translation

Фреймворк XGBoost (Extreme Gradient Boosting, экстремальный градиентный бустинг) — это эффективная опенсорсная реализация алгоритма градиентного бустинга. Этот фреймворк отличается высокой скоростью работы, а модели, построенные на его основе, обладают хорошей производительностью. Поэтому он пользуется популярностью при решении задач классификации и регрессии с использованием табличных наборов данных. Но процесс обучения XGBoost-моделей может занять много времени.

Читать далее
Total votes 11: ↑11 and ↓0 +11
Views 923
Comments 1

Команда awk – примеры использования в Linux и Unix

RUVDS.com corporate blog Configuring Linux *System administration **nix *
Translation
Tutorial

В этом базовом руководстве вы узнаете самые основы команды awk, а также увидите некоторые способы её использования при работе с текстом, включая вывод содержимого файла, а также его конкретных столбцов, строк и слов по указанным критериям. Приступим!
Читать дальше →
Total votes 41: ↑38 and ↓3 +35
Views 8.7K
Comments 15

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

Machine learning *Artificial Intelligence Data Engineering *
Sandbox
Translation

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

Читать далее
Total votes 20: ↑20 and ↓0 +20
Views 7.1K
Comments 3

Развертывание моделей машинного обучения. Часть первая. Размещаем Web-приложение в облачной платформе Heroku

Cloud computing *Machine learning *Studying in IT DevOps *Artificial Intelligence
Tutorial

В этой серии статей мы рассмотрим, как на основе готовых моделей создавать приложения, использующие машинное обучение, и организовывать доступ пользователей к ним. Начнем с создания Web-приложения для классификации изображений на Streamlit и развертывания его на облачной платформе Heroku в бесплатном аккаунте. Этот подход подойдет для прототипов и персональных или учебных проектов.

Читать далее
Total votes 10: ↑9 and ↓1 +8
Views 3.1K
Comments 4

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Магнит corporate blog Algorithms *Big Data *Data Engineering *

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 3.1K
Comments 2

Строковые алгоритмы на практике. Часть 3 — Алгоритм Рабина — Карпа

High performance *Algorithms *

Сегодня мы разберем хитроумный и нетривиальный алгоритм поиска подстроки в строке. Он основан не на сравнении символов, а на сравнении чисел. Я уже писал, что основная моя цель это не написать простой разбор алгоритмов, а посмотреть их эффективность, какие-то интересные места и сравнить их производительность между собой.
И сегодня есть что посмотреть.

Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Views 4.7K
Comments 8

Тинькофф Инвестиции про новую версию API и конкурс торговых роботов

TINKOFF corporate blog API *Finance in IT

Привет! На связи команда Тинькофф Инвестиций. Мы запустили новую версию программного интерфейса для алгоритмического трейдинга. Расскажем про Tinkoff Invest API и что новенького в сервисе.

Читать далее
Total votes 21: ↑19 and ↓2 +17
Views 3.7K
Comments 16

Где работать в ИТ в 2022: Selectel

Хабр Карьера corporate blog Personnel Management *IT career

Наша рубрика «Где работать в ИТ» — это интервью с интересными айти-компаниями, в которых они делятся подробностями о процессах своей работы. Представители индустрии отвечают на вопросы о найме, условиях, командах и технологиях. 

В этом выпуске мы расскажем вам о компании Selectel — провайдере облачной инфраструктуры и услуг дата-центров. 

Читать далее
Total votes 55: ↑51 and ↓4 +47
Views 11K
Comments 13

Найти за полсекунды: сравниваем похожие фотографии

Конференции Олега Бунина (Онтико) corporate blog High performance *Search engines *PHP *Algorithms *

Привет, меня зовут Петр и я работаю в Badoo в команде биллинга. В этой статье я хочу поделиться своим опытом работы над пет-проектом по созданию хранилища фотографий с возможностью поиска дубликатов. Я расскажу, с каким багажом я вошел в этот проект, в чем заключалась задача и как её решал. В конце поделюсь результатами и почему я считаю, что это один из лучших проектов, которым я занимался. 

Однажды мои знакомые попросили сделать им хранилище изображений для их проекта по модерации внешних ресурсов. Условия: срок хранения до трех лет, фотографии при этом присылаются неравномерно, в среднем поток — 150.000 картинок в сутки.

Казалось бы, достаточно банальная задача. Если бы не еще одно условие: хорошо бы сопоставлять фотографии с уже имеющимися: искать дубликаты и помечать их. 

Читать далее
Total votes 53: ↑52 and ↓1 +51
Views 8.9K
Comments 7

Information

Rating
Does not participate
Location
Тверь, Тверская обл., Россия
Date of birth
Registered
Activity