Pull to refresh
8
0
Владимир Михнович @kypexin

Data scientist

Send message
И главный вопрос, раз уж интрига раскрыта.

Вы пишете про «business-critical» и «отказоустойчивость», и в общем-то и так понятно, что риалтаймовая система такого плана должна иметь достаточно жёсткий SLA. А потом вдруг — «публичная облачная платформа». Как одно с другим вообще вяжется? Или подразумевается, что вы у той платформы покупаете гарантированный минимум ресурсов и подписываете соответствующие SLA по производительности и отказоустойчивости? А как же тогда заявленная стоимость сервиса «на порядки дешевле»?

И другое. Как вы собираетесь уговорить мерчантов отдавать данные о своей платёжной истории куда-то в публичный облачный сервис? Всё понятно, что данные неперсонифицированные, 152-ФЗ соблюдается и так далее, но поверьте, мерчанты даже в таком случае особо не разбегаются отдавать наружу такие данные, там как минимум интересная финансовая информация в цифрах. Для мерчанта идеально, когда такие данные вообще не покидают его собственную эко-систему (то есть антифрод работает внутри неё, например на их же мощностях), возможно некоторые пойдут на то, чтобы отдавать такие данные на ваши серверы как провайдера антифрод-системы, и то при соответствующих NDA-соглашениях и т.д. Но в публичное облако?! Этот вопрос в первую очередь не о надёжности облачных сервисов, а о психологии мерчантов и агрегаторов.
Следующий вопрос, опять же извиняюсь, если забегаю вперёд.
Вот например антифрод-система отклонила транзакцию на основе логики модели внутри неё. А есть ли механизм для того, чтобы понять конкретную причину такого решения? Грубо говоря, как понять, что именно с операцией не так? Какие признаки и параметры операции оказались наиболее значимыми в процессе принятия решения о её запрете?
Дмитрий, присоединяюсь к первому комментатору с вопросом: проектируемая антифрод-система может по результату анализа транзакции отвечать только «да» или «нет» (разрешить или пропустить транзакцию)? Какие-то ещё ответы в неё заложены?
Экранирование или перехват СМС всё-таки пока что технически достаточно непростая задача, но к сожалению уже в недалёком будущем это станет реальностью. Гораздо больше мошеннических действий совершается сейчас путём замены (несанкционированного перевыпуска) или клонирования сим-карты, а также с помощью социальной инженерии — попросту, выманивания у клиентов одноразовых кодов/паролей.
Ну вот и посмотрим! :)
Безусловно в штате должен быть тот, кто управляет антифрод-системой, никакой искусственный интеллект работу живых аналитиков не заменит. Но! В случае ахтунга не нужно «писать быдлоколд и согласовывать со сторонней организацией», а достаточно добавить в антифрод-систему новые данные и новые правила по новому типу мошенничества руками управляющего ей штатного эксперта / аналитика. Даже в сложных случаях это вопрос максимум нескольких часов. Антифрод от SiftScience, который был упомянут в предыдущем комментарии (и большинство других промышленных коммерческих антифрод-систем), собственно примерно так и устроен.
Например, посмотрите схему эквайринга в этой статье — там чуть больше пояснений по операциям.
Я вот тоже сначала вспомнил было про SiftScience, но давайте дождёмся продолжения статьи! Мне самому ужасно интересно, может быть нас ожидает что-то революционное :)

PS маски 6/4 по понятным причинам недостаточно для однозначной идентификации карты, а вот шифрованного номера карты в виде уникального токена — достаточно вполне.
Штрафы налагают платёжные системы, у которых есть специальные программы по контролю уровня фрода (Global Merchant Chargeback Monitoring Program у Visa и Global Merchant Audit Program), которые устанавливают допустимые уровни по количеству и суммам мошеннических транзакций и чарджбэков. Превысил и не принял меры — штраф и санкции.
Можно. Но какое отношение это имеет к PCI DSS? :)
Отчасти потому, что наличие 3DS само по себе сильно снижает риск пролетания фрода по ворованным картам (украсть номер карты можно, украсть кнему ещё и 3DS пароль, если он постоянный, уже сложнее). И отчасти потому, что за пролетевший фрод будет ответственным тот, кто провёл операцию без 3DS (банк, ПС, мерчант...). Если все провели по 3DS — то скорее всего попал владелец карты.
Я думаю, это исключительно пережитки прошлого. Кому-то лень переделывать формочки :)
Дмитрий, и ещё один вопрос. Вы совершенно справедливо упомянули PCI DSS, который неизбежен там, где используются банковские карты. Но так ли необходимо самой антифрод-системе находиться внутри PCI-DSS периметра?
Дмитрий, спасибо за статью. Здорово, что тут есть люди, занимающиеся исследованием в области антифрода. С интересом жду продолжения, а пока у меня пара вопросов по первой части.

  • Вы упомянули эксперта и data scientist как членов комнады разработки антифрод-системы. Если с архитектором, программистом и проджектом всё более-менее понятно, то какие роли на ваш взгляд у первых двух? Как они между собой взаимодействуют и как «делят поле»? Кто чем занимается?
  • «Доступна antifraud-система будет как web-сервис» — не терпится заранее узнать, какая целевая аудитория будет у предполагаемого решения? Банки, платёжные системы, агрегаторы, мерчанты? Прошу прощения, если забегаю вперёд.


Спасибо.
Вы говорите о каких-то конкретных «сложных и навороченных» антифрод-системах или же абстрактно? Очень интересно выслушать мнение, это негативный опыт работы с каким-то промышленным решением или чьей-то собственной внутренней разработкой?
Аналитик, он же Data Analyst — в принятой иерархии (условно назовём это так) предыдущая ступень. То есть это человек, который отвечает на конкретные вопросы на основе конкретных наборов данных. А data scientist это ступень следующая, в широком смысле это уже больше исследователь, как правильно написали ниже, т.е. в частности тот, кто как раз добывает новые знания из данных.
Александр, большое спасибо за обстоятельную и интересную статью. Я долго созревал написать свои мысли на эту тему и наконец собрал их все вместе :)

Как только я прошлом году начал плотно изучать тему больших данных и машинного обучения, то обнаружил два довольно разных подхода к тому, как вырастить в себе data scientist. В какой-то момент я изучил практически все материалы сайта datasciencecentral.com и с большим интересом прочитал книгу его основателя Vincent Granville «Developing Analytic Talent: becoming a data scientist», после чего мне просто хотелось застрелиться :) поскольку data scientist по версии Винсента как раз и есть пресловутый unicorn, единорог, эдакий «универсальный солдат», который на высшем уровне разбирается во всех перечисленных областях одновременно. Я далеко не слабак, но тут даже у меня самооценка и вера в себя как-то немного упали :)

С другой же стороны, есть замечательный ресурс по машинному обучению machinelearningmastery.com, и его автор-исполнитель Jason Brownlee придерживается примерно противоположной точки зрения, просто пара цитат:

You do not need to learn linear algebra before you get started in machine learning, but at some time you may wish to dive deeper.

You do not need to get a degree in machine learning to get started or make progress in the field of machine learning

В целом, у Джейсона совершенно прямолинейный подход: изучите теоретические основы, поймите, какие вообще есть инструменты и как их правильно применять, и вперёд, к решению практических задач, а всё остальное уже подтянется за этим. И честно говоря, такой подход лично для меня гораздо более вдохновляющий, и именно этот сайт (а также общение с Джейсоном по переписке) и был своего рода «волшебным пинком» для меня, когда я буквально не понимал, с чего начинать и за что хвататься.

Про ШАД я уже писал свои мысли на одном из форумов на Coursera, поэтому позволю себе просто процитировать себя же (можно соглашаться, можно нет):

Это отличные материалы, но они к сожалению далеко не для начинающих. ШАД предъявляет довольно высокие входные требования и это ни для кого не секрет; я когда-то сам очень хотел пойти учиться в ШАД (тем более что сам работаю в Яндексе), но потом понял, что без интенсивной теоретической подготовки я просто не сдам входной экзамен (и то, что я закончил Бауманку 17 лет назад, в этом деле мне сейчас мало поможет, к сожалению). У меня есть ощущение, что в ШАД приходят в основном учиться вчерашние студенты мехматов и бауманок, у кого ещё головы светлые и есть желание продолжать учёбу и научную работу. Для них это хорошая перспектива. И мои друзья, которые там работают, это в целом подтверждают.

То есть, я считаю, что курсы Воронцова и аналогичные хоть и прекрасны, но далеко не всем под силу. Может быть, для многих будет проще только очень верхнеуровнево изучить/освежить в памяти теоретические основы, но при этом потратить больше усилий и времени именно на решение практических задач.

И второй важный момент, который хотелось бы отметить. Мне кажется, все перечисленные вами умения и знания, безусловно полезные сами по себе, мало что означают без того, чтобы их обладатель был экспертом в какой-то конкретной предметной области. Опять же возвращаемся к нашим единорогам: я могу быть экспертом в области атифрода, мой товарищ — специалист в области предиктивной аналитики оттока клиентов, а ещё кто-то — гуру анализа тональности текстов и майнинга соцсетей. Как мне кажется, мы не должны быть взаимозаменяемыми! Каждый специалист представляет ценность как эксперт и гуру именно в своей области, зато уж в ней ему нет равных. Резюмируя: важно не только изучить теорию, технологии, инструменты и алгоритмы, но и чётко понимать для себя, для решения каких именно задач ты будешь всё это применять и какая область для тебя ближе, где ты являешься экспертом и специалистом.

Вот только вчера я наткнулся на статью «Do You Really Need a Unicorn?», которая практически слово в слово созвучна мои мыслям. Один из тезисов в ней на мой взгляд очень простой и очень правильный:

The field of data science has just become too big and too diverse for any one individual to master all its disciplines. This is like trying to find a single medical doctor who can cure cancer, deliver babies, diagnose tropical diseases, and perform open heart surgery. The era of specialization is upon us.

То есть, проходит время «универсальных солдат» и единорогов в области Data Science, область стала слишком большой для того, чтобы один человек мог быть совершенным во всех её составляющих, data scientists становятся более узко-специализированными в своих экспертных областях и занимаются тем, что умеют и знают лучше всего.

И чуть-чуть конкретики напоследок. В дополнение к перечисленным вами курсам я бы хотел всем порекомендовать онлайн-курс Statistical Learning от Stanford. Я как раз сейчас его заканчиваю и могу сказать, что он прекрасно сочетается с Machine Learning от Andrew Ng. Он упорядочивает именно теоретические знания и закрепляет некий начальный математический базис для понимания алгоритмов машинного обучения, в то время как курс Andrew Ng направлен больше на практическое применение алгоритмов в реальных задачах. До конца сессии правда осталось всего две недели, но материалы курса (видео-лекции и слайды) всегда доступны здесь.

Спасибо что дочитали до конца! :)
Понял вас. Возможно придётся дополнить статью, чтобы восстановить справедливость по отношению к Элекснету :)
Правда, вопросов к антифроду процессинга Ариуса в таком случае это всё равно не снимает.
Спасибо за разъяснения, это многое объясняет.
То есть, получается, что первым способом операция пополнения процессится через Ариус, а вторым — через шлюз Альфы?
Ваш комментарий другими словами означает следующее: «У Элекснета полностью отсутствует собственная антифрод-система и оценка рискованности транзакции целиком перекладывается на банк-эмитент используемой карты». Мягко говоря, это не так. Вы представляете, сколько бы уже пролетело ворованных карт без 3DS в принципе или карт некрупных банков без толкового антифрода?

И более того, у Альфы лимиты по суммам и ограничения по географии могут настраиваться самим клиентом через Альфа.Клик для каждой карты отдельно, и лично у меня таковые ограничения вообще отключены. Т.е. Альфа мне без проблем позволяет совершать по моим картам как оффлайновые, так и онлайновые платежи из любой точки мира. С чего бы ей вдруг тут запретить пополнение Элекснета? Да и приведённые мной тексты ошибок однозначно Альфе не принадлежат, особенно вторая ошибка про «BIN country».

Information

Rating
Does not participate
Location
Таллин, Эстония, Эстония
Date of birth
Registered
Activity