Как стать автором
Обновить
4
0
Андрей Тарасов @tarrapid

Lead Data Scientist

Отправить сообщение

OCR за час? — Не думаю

Время на прочтение4 мин
Количество просмотров14K

Одним прекрасным вечером коллега попросил подумать над алгоритмом поворота серийных номеров на металлических брусках. Но глобально задача предполагала именно распознавание номеров. Казалось бы, современные коробочные решения должны легко решить нашу задачу. О том, что было на самом деле, и пойдет речь в этой статье.

Читать далее
Всего голосов 31: ↑30 и ↓1+29
Комментарии7

«Другие» рекомендации. Часть 1

Время на прочтение15 мин
Количество просмотров4.4K

Сейчас в различных источниках имеется огромное количество статей, материалов конференций, телеграм-каналов и открытых репозиториев в GitHub на любую тему из сферы Data Science. В статье хочется обратить ваше внимание на отдельный класс задач, которому, по нашему мнению, уделяют меньше внимания и который не так часто встречается в рамках Data Science кейсов, соревнований или хакатонов.

Речь пойдет о «Других» рекомендациях -- ML-системах, которые уже нельзя отнести к рекомендательным в популярном/классическим смысле. Давайте разберемся, что для нас классика, а что — нет.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии2

Какие опасности таятся в Искусственном интеллекте на самом деле? Мнение дата-сайнтистов

Время на прочтение4 мин
Количество просмотров8.6K

Когда люди думают о гипотетических опасностях ИИ, то почему-то сразу представляют себе эдакого терминатора, который внезапно сбежит из какой-нибудь лаборатории и пойдет крушить все вокруг.

Мало кто боится бессердечную систему, которая рекомендует банку не одобрять тебе ипотеку, или приложение того же банка, в которое ты заходишь по отпечатку пальца. Собака от Boston Dynamics так вообще, кроме умиления, ничего не вызывает, и совсем уж комично выглядит армия роботов-пылесосов, которыми многие пользуются.

Здесь в том числе срабатывает эффект «зловещей долины», который, в частности, активно используется в киноиндустрии:

Страшно? Жми сюда
Всего голосов 14: ↑9 и ↓5+4
Комментарии12

Что такое «Action Recognition»?

Время на прочтение11 мин
Количество просмотров7.8K

Год назад моя статья про трекинг была тепло принята на Хабре. Эта статья в каком-то смысле продолжение. В ней я сделал обзор современных методов распознавания действий. От самых простых до самых сложных. Расскажу в каких ситуациях что использовать, и расскажу как это применяют в некоторых проектах.

Вперед!
Всего голосов 27: ↑27 и ↓0+27
Комментарии0

Аналитика vs Data Science: как я ускорил поиск себя в профессии и нашел те самые задачи

Время на прочтение11 мин
Количество просмотров13K

Мне 26 лет, я сменил направление карьеры с прикладной аналитики на Data Science. В моей истории не было кардинальной смены профессии, но я последовательно искал задачи «под себя».

Мой опыт может быть полезен тем, кто пытается найти себя в аналитике и смежных областях, но некоторые моменты и стратегии универсальны и будут полезны всем, кто задумался о переменах в карьере. Поиск «своих задач» похож на сборку LEGO, где блоки — это разные задачи, но вы свободны выкидывать ненужные детальки, обмениваться ими с коллегами или даже брать элементы из другого набора, чтобы построить именно то, что нужно вам. Также я поделюсь списком из почти 20 источников и ресурсов, которые помогли мне сменить профессиональную область.

Читать далее
Всего голосов 13: ↑12 и ↓1+11
Комментарии3

Object Detection. Распознавай и властвуй. Часть 2

Время на прочтение9 мин
Количество просмотров20K

В прошлом посте я начал разбираться в двухступенчатых Object Detection моделях и рассказал о самой базовой и, соответственно, первою из них – R-CNN. Сегодня мы рассмотрим другие модели этого семейства: Fast R-CNN и Faster R-CNN. Поехали!
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

Как построить свою систему поиска похожих изображений

Время на прочтение10 мин
Количество просмотров27K

В интернете есть много информации о поиске похожих изображений и дубликатов. Но как построить свою систему? Какие современные подходы применять, на каких данных обучать, как валидировать качество поиска и куда смотреть при выводе в production?

В этой статье я собрал все необходимые компоненты поисковой системы на изображениях в одном месте, разбавив контент современными подходами.

Читать далее
Всего голосов 51: ↑50 и ↓1+49
Комментарии33

Object Detection. Распознавай и властвуй. Часть 1

Время на прочтение10 мин
Количество просмотров32K


Технологии компьютерного зрения позволяют в сегодняшних реалиях сделать жизнь и бизнес проще, дешевле, безопаснее. По оценкам разных экспертов этот рынок будет двигаться в ближайшие годы только в сторону роста, что и позволяет развиваться соответствующим технологиям как в сторону производительности, так и качества. Одним из наиболее востребованных разделов является Object Detection (обнаружение объектов) – определение объекта на изображении или в видео потоке.

Времена, когда обнаружение объектов решалось исключительно путем классического машинного обучения (каскады, SVM...) уже прошли – сейчас в этой сфере царят подходы, основанные на Deep Learning. В 2014 году был предложен подход, существенно повлиявший на последующие исследования и разработки в этой области – R-CNN модель. Последующие его улучшения (в виде Fast R-CNN и Faster R-CNN) сделали его одним из самых точных, что и стало причиной его использования по сей день.

Помимо R-CNN есть еще много подходов реализующих поиск объектов: семейство Yolo, SSD, RetinaNet, CenterNet… Кто-то из них предлагает альтернативный подход, а кто-то развивает текущий в сторону увеличения показателя производительности. Обсуждение почти каждого из них можно вынести в отдельную статью, по причине обилия фишек и ухищрений :)

К изучению предлагаю набор статей с разбором двухступенчатых Object Detection моделей. Умение разбираться в их устройстве приносит понимание базовых идей, применяемых и в других реализациях. В этом посте рассмотрим самую базовую и, соответственно, первую из них – R-CNN.
Читать дальше →
Всего голосов 20: ↑20 и ↓0+20
Комментарии3

Опыт моделеварения от команды Computer Vision Mail.ru

Время на прочтение15 мин
Количество просмотров11K


Меня зовут Эдуард Тянтов, я руковожу командой Computer Vision в Mail.ru Group. За несколько лет существования наша команда решила десятки задач компьютерного зрения, и сегодня расскажу вам о том, какие методики мы используем для успешного создания моделей машинного обучения, которые работают на широком спектре задач. Поделюсь трюками, которые могут ускорить получение модели на всех этапах: постановка задачи, подготовка данных, обучение и развертывание в продакшен.
Читать дальше →
Всего голосов 44: ↑44 и ↓0+44
Комментарии9

Apache Kafka и потоковая обработка данных с помощью Spark Streaming

Время на прочтение9 мин
Количество просмотров33K
Привет, Хабр! Сегодня мы построим систему, которая будет при помощи Spark Streaming обрабатывать потоки сообщений Apache Kafka и записывать результат обработки в облачную базу данных AWS RDS.

Представим, что некая кредитная организация ставит перед нами задачу обработки входящих транзакций «на лету» по всем своим филиалам. Это может быть сделано с целью оперативного расчета открытой валютой позиции для казначейства, лимитов или финансового результата по сделкам и т.д.

Как реализовать этот кейс без применения магии и волшебных заклинаний — читаем под катом! Поехали!


(Источник картинки)
Читать дальше →
Всего голосов 16: ↑16 и ↓0+16
Комментарии6

Feature Engineering, о чём молчат online-курсы

Время на прочтение7 мин
Количество просмотров25K


Sherlock by ThatsWhatSheSayd


Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.


Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →
Всего голосов 55: ↑52 и ↓3+49
Комментарии11

Дифференцируемое программирование

Время на прочтение10 мин
Количество просмотров13K


С четырьмя параметрами я могу задать слона, а с пятью я могу заставить его шевелить хоботом.
– John Von Neumann

Идея «дифференцируемого программирования» очень популярна в мире машинного обучения. Для многих не ясно, отражает ли этот термин реальный сдвиг в том, как исследователи понимают машинное обучение, или это просто (еще один) ребрендинг «глубокого обучения». В этом посте разъясняется, что нового дает дифференцируемое программирование (или ∂P) в таблице машинного обучения.


Самое главное, дифференцируемое программирование — это сдвиг, противоположный направлению глубокого обучения; от все более сильно параметризованных моделей к более простым, которые в большей степени используют структуру проблемы.


Далее мы пролистаем полотно неинтересного текста, захотим узнать, что такое автодифференцирование и даже популяем из катапульты!

Читать дальше →
Всего голосов 23: ↑23 и ↓0+23
Комментарии8

Жизненный цикл ML в боевых условиях

Время на прочтение16 мин
Количество просмотров13K
В реальном внедрении ML само обучение занимает от силы четверть усилий. Остальные три четверти — подготовка данных через боль и бюрократию, сложный деплой часто в закрытом контуре без доступа в интернет, настройка инфраструктуры, тестирование и мониторинг. Документы на сотни листов, ручной режим, конфликты версий моделей, open source и суровый enterprise — все это ждет data scientist’а. Но такие «скучные» вопросы эксплуатации ему не интересны, он хочет разработать алгоритм, добиться высокого качества, отдать и больше не вспоминать.

Возможно, где-то ML внедряется легче, проще, быстрее и одной кнопкой, но мы таких примеров не видели. Все, что выше — опыт компании Front Tier в финтехе и телекоме. О нем на HighLoad++ рассказал Сергей Виноградов — эксперт в архитектуре высоконагруженных систем, в больших хранилищах и тяжелом анализе данных.


Всего голосов 21: ↑19 и ↓2+17
Комментарии2

Что упускают хакеры при взломе банка на PHDays

Время на прочтение3 мин
Количество просмотров5.8K


Банк из года в год становится особенной сущностью для итогов «Противостояния» на PHDays. В 2017 хакеры смогли вывести из банка больше денег, чем в нем было. В 2018 году успешность финальной атаки на банк при отключенном нами антифроде (по замыслу организаторов) обеспечила победу одной из команд.

Ежегодно системы защиты банка в виртуальном городе F отражают тысячи попыток вывода денег со счетов «мирных» жителей, но каждый раз эти попытки скорее напоминают брутфорс на банковский API, чем попытку провести операцию в обход антифрод-системы, о наличии которой знает каждая команда атаки.

Какие тенденции можно заметить при сравнении атакующих и «законопослушных граждан» на The Standoff – тема этой небольшой заметки. Она же является скромной подсказкой нападающей стороне, хотя, быть может, она не будет прочитана в эти напряженные последние дни подготовки всех участников :)
Читать дальше →
Всего голосов 27: ↑26 и ↓1+25
Комментарии0

Создание Dataflow шаблона для стриминга данных из Pub/Sub в BigQuery на базе GCP с помощью Apache Beam SDK и Python

Время на прочтение9 мин
Количество просмотров8.3K

image


В данный момент занимаюсь задачей стриминга (и преобразования) данных. В некоторых кругах
такой процесс известен как ETL, т.е. извлечение, преобразование и загрузка информации.


Весь процесс включает в себя участие следующих сервисов Google Cloud Platform:


  • Pub/Sub — сервис для realtime стриминга данных
  • Dataflow — сервис для преобразования данных (может
    работать как в realtime так и в batch режиме)
  • BigQuery — сервис для хранения данных в виде таблиц
    (поддерживает SQL)
Читать дальше →
Всего голосов 13: ↑13 и ↓0+13
Комментарии2

Нейронные сети с нуля. Обзор курсов и статей на русском языке, бесплатно и без регистрации

Время на прочтение5 мин
Количество просмотров217K
На Хабре периодически появляются обзоры курсов по машинному обучению. Но такие статьи чаще добавляют в закладки, чем проходят сами курсы. Причины для этого разные: курсы на английском языке, требуют уверенного знания матана или специфичных фреймворков (либо наоборот не описаны начальные знания, необходимые для прохождения курса), находятся на других сайтах и требуют регистрации, имеют расписание, домашнюю работу и тяжело сочетаются с трудовыми буднями. Всё это мешает уже сейчас с нуля начать погружаться в мир машинного обучения со своей собственной скоростью, ровно до того уровня, который интересен и пропускать при этом неинтересные разделы.

В этом обзоре в основном присутствуют только ссылки на статьи на хабре, а ссылки на другие ресурсы в качестве дополнения (информация на них на русском языке и не нужно регистрироваться). Все рекомендованные мною статьи и материалы я прочитал лично. Я попробовал каждый видеокурс, чтобы выбрать что понравится мне и помочь с выбором остальным. Большинство статей мною были прочитаны ранее, но есть и те на которые я наткнулся во время написания этого обзора.

Обзор состоит из нескольких разделов, чтобы каждый мог выбрать уровень с которого можно начать.
Для крупных разделов и видео-курсов указаны приблизительные временные затраты, необходимые знания, ожидаемые результаты и задания для самопроверки.


Читать дальше →
Всего голосов 39: ↑34 и ↓5+29
Комментарии12

Какой язык программирования выбрать для работы с данными?

Время на прочтение12 мин
Количество просмотров77K


У начинающего специалиста по данным (data scientist) есть возможность выбрать один из множества языков программирования, который поможет ему быстрее освоить данную науку.

Тем не менее, никто точно не скажет вам, какой язык программирования лучше всего подходит для этой цели. Ваш успех как специалиста в данной области будет зависить от множества факторов и сегодня мы постараемся их рассмотреть, а в конце статьи вы сможете проголосовать за тот язык программирования, который вы считаете наиболее подходящим для работы с данными.
Читать дальше →
Всего голосов 23: ↑15 и ↓8+7
Комментарии70

Пример решения задачи кредитного скоринга c помощью связки python+pandas+scikit-learn

Время на прочтение12 мин
Количество просмотров81K

Введение


Добрый день, уважаемые читатели.
Недавно, бродя по просторам глобальной паутины, я наткнулся на турнир, который проводился банком ТКС в начале этого года. Ознакомившись с заданиями, я решил проверить свои навыки в анализе данных на них.
Начать проверку я решил с задачи о скоринге (Задание №3). Для ее решения я, как всегда, использовал Python с аналитическими модулями pandas и scikit-learn.
Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии8

Анализ тональности текстов с помощью сверточных нейронных сетей

Время на прочтение11 мин
Количество просмотров57K


Представьте, что у вас есть абзац текста. Можно ли понять, какую эмоцию несет этот текст: радость, грусть, гнев? Можно. Упростим себе задачу и будем классифицировать эмоцию как позитивную или как негативную, без уточнений. Есть много способов решать такую задачу, и один из них — свёрточные нейронные сети (Convolutional Neural Networks). CNN изначально были разработаны для обработки изображений, однако они успешно справляются с решением задач в сфере автоматической обработки текстов. Я познакомлю вас с бинарным анализом тональности русскоязычных текстов с помощью свёрточной нейронной сети, для которой векторные представления слов были сформированы на основе обученной Word2Vec модели.

Статья носит обзорный характер, я сделал акцент на практическую составляющую. И сразу хочу предупредить, что принимаемые на каждом этапе решения могут быть неоптимальными. Перед прочтением рекомендую ознакомиться с вводной статьей по использованию CNN в задачах обработки естественных языков, а также прочитать материал про методы векторного представление слов.
Читать дальше →
Всего голосов 36: ↑35 и ↓1+34
Комментарии9

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность

Специализация

Data Scientist
Lead