• Машинное обучение в микрофинансах: строим скоринговую модель для клиентов с пустой кредитной историей

    Нет кредитной истории — не дают кредиты, не дают кредиты — нет кредитной истории. Замкнутый круг какой-то. Что делать? Давайте разбираться.


    Привет! Меня зовут Марк, я data scientist в компании Devim. Недавно мы запустили модель для скоринга заемщиков МФК “До Зарплаты”, у которых отсутствует кредитная история. Хочу поделиться опытом поиска данных, особенностями конструирования и интерпретации признаков.


    Читать дальше →
  • ООП в языке R (часть 1): S3 классы

    • Tutorial

    R — это объектно ориентированный язык. В нём абсолютно всё является объектом, начиная от функций и заканчивая таблицами.


    В свою очередь, каждый объект в R относится к какому-либо классу. На самом деле, в окружающем нас мире ситуация примерно такая же. Мы окружены объектами, и каждый объект можно отнести к классу. От класса зависит набор свойств и действий, которые с этим объектом можно произвести.


    image

    Читать дальше →
  • Майнинг 2.0 и р106-100 как доступная GPGPU под float и deep learning

      Доброго времени суток, дорогие Хабровчане! Немного расскажу про майнинг на видеокартах и как еще можно с пользой использовать майнинговые видеокарты р106-100.
      Хейтеры, проходите мимо. Всем остальным — если увидите разумное зерно — можете и плюс поставить.

      Про майнинг я узнал достаточно давно, году вероятно еще в 2015-м, но серьезно обратил внимание в середине 2018-го год когда как раз видеокарты GTX 1060 6 Gb стоили по 25 тысяч в магазинах близ расположенного города и в общем был как сейчас принято говорить «большой хайп» на эту тему. Но уже тогда многие умные люди предрекали не просто спад, а грядущий обвал курсов как криптовалют так и цен на видеокарты. Уже тогда прогнозировали, что те-же GTX 1060 будут продавать по 6 тысяч майнеры когда доходность упадет и придет время платить кредиты на которые многие собирали свои фермы.
      Продолжение истории под катом
    • Озвучивание прошлого. Руководство для историков по преобразованию данных в звук

      • Перевод
      Мне надоело смотреть на прошлое. Есть много руководств по воссозданию внешнего облика исторических артефактов, но часто мы забываем, что это творческий акт. Возможно, мы слишком привязаны к своим экранам, слишком много значения придаём внешнему облику. Давайте вместо этого попробуем услышать что-то из прошлого.

      Богатая литература по археоакустике и звуковым ландшафтам помогает воссоздать звук места, каким он был (например, см. Виртуальный Собор Святого Павла или работу Джеффа Вейча по древней Остии). Но мне интересно «озвучить» сами данные. Я хочу определить синтаксис для представления данных в виде звука, чтобы эти алгоритмы можно было использовать в исторической науке. Друкер сказал знаменитую фразу, что «данные» — это на самом деле не то, что дано, а скорее то, что захвачено, трансформировано, то есть 'capta'. При озвучивании данных я буквально воспроизвожу прошлое в настоящем. Поэтому на передний план выходят допущения и преобразования этих данных. Полученные звуки являются «деформированным исполнением», которое заставляет по-новому услышать современные пласты истории.

      Я хочу услышать смысл прошлого, но знаю, что это невозможно. Тем не менее, когда я слышу инструмент, то могу физически представить музыканта; по отзвукам и резонансам могу различить физическое пространство. Я чувствую бас, могу двигаться в ритме. Музыка охватывает моё тело, всё воображение. Ассоциации со слышанными ранее звуками, музыкой и тонами создают глубокий темпоральный опыт, систему воплощённых взаимоотношений между мной и прошлым. Визуальность? У нас так давно существуют визуальные представления о прошлом, что эти грамматики почти потеряли художественную выразительность и перформативный аспект.
      Читать дальше →
    • Об исследовании нестационарных процессов

        Общеизвестно, что большинство временных рядов, с которыми приходится иметь дело исследователю, являются нестационарными, и их анализ ощутимо сложнее, чем изучение стационарных процессов. Поскольку интерес к вейвлетам, похоже, пошел на убыль, полезно обсудить некоторые иные «нестационарные» инструменты, пригодные, в первую очередь, для оценки мгновенных частот, а также для оценки мгновенных спектров.

        В первую очередь есть смысл вспомнить об «аналитическом сигнале». Ниже «An-моделью» именуются как раз нахождение мгновенных импеданса и мощности тестового сигнала после достройки его мнимой частью (сдвинутой по фазе на π/2).

        Но не всегда есть возможность возиться с преобразованием Гилберта. Ранее уже упоминалось об авторегрессионном способе спектрального оценивания, пригодном для работы с короткими последовательностями. Под «AR-моделью» здесь будет подразумеваться исследование коротких (из 5 сэмплов) перекрывающихся фрагментов исходного сигнала с целью определения коэффициентов авторегрессии 2-го порядка, нахождение по ним «полюсов» модели и т.д.

        image
        Читать дальше →
        • +16
        • 2,5k
        • 3
      • Data Science Digest (May 2019)



          Хабр, привет!

          В прошлом выпуске я рассказывал, что для дайджеста запустил Telegram-канал, а сегодня хочу поделиться новостью, что также завел для него страницы в facebook, twitter, LinkedIn. Приглашаю всех присоединяться к ним.

          Кроме этого сегодня мы опубликовали дайджест на Product Hunt, кто знает, что это — те в курсе, что необходимо делать ;)

          А пока предлагаю свежую подборку материалов под катом.
          Читать дальше →
        • ok.tech: Data Толк



            UPD Презентации участников мероприятия доступны по ссылке

            13 июня приглашаем всех, кто работает с данными, в московский офис Одноклассников, на ok.tech: Data Толк. Вместе с коллегами из OK.ru, Mail.ru Group, ivi.ru, Яндекс.Такси и других технологических компаний обсудим вопросы эволюции хранилищ и баз данных, поговорим о достоинствах и недостатках разных подходов к хранению данных, а также как эти подходы влияют на удобство разных команд по взаимодействию с данными.

            Мероприятие пройдет в формате открытой дискуссии между спикерами и аудиторией, поэтому готовьте свои вопросы и не стесняйтесь их задавать. Модератором мероприятия будет Алексей Чернобровов.

            Зарегистрироваться на мероприятие.

            Под катом тезисы выступлений и расписание.
            Читать дальше →
          • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

            Подробнее
            Реклама
          • Десятки тысяч закупок, прозрачных как стекло: распутываем клубок

              Наводить порядок в закупках крупного банка непросто. Особенно когда они разведены по двум независимым комплексным системам ERP и СЭД. При объединении ВТБ и ВТБ24 у нас также произошло объединение информационных систем, и теперь единый процесс закупок проходит через них. Что делать? На помощь пришел Process Mining — одна из самых интересных технологий исследования, анализа и мониторинга бизнес-процессов. Но при этом и весьма непростая в применении.


              Process Mining — это подход к анализу бизнес-процессов с использованием передовых технологий в области сбора и обработки данных. Мы видели много дорогих, крупных проектов, где за анализы процессов брались с помощью Process Mining. Несмотря на то, что проекты эти доводили до конца, в 80% случаев полученные красивые схемы не работали. Но грустная статистика нас не испугала, и распутывать свой клубок процессов мы тоже решили через Process Mining. Подробности под катом.
              Читать дальше →
            • Подборка датасетов для машинного обучения

                Привет, читатель!

                Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

                Меньше слов, больше данных.

                image

                Подборка датасетов для машинного обучения:


                Читать дальше →
                • +62
                • 26,9k
                • 4
              • Исследование: СМИ идут за контентом в Телеграм-каналы

                  В вебе только и разговоров, что о Телеграм-каналах.


                  Однако, ещё никто не оценил численно: какое влияние оказывают Телеграм-каналы на СМИ? Сегодня мы попытаемся это исправить — и сделаем первый шаг в анализе связки медиа и Телеграма.


                  Ключевой вопрос исследования:


                  Какую роль играют Telegram-каналы в формировании медиаповестки?

                  Для оценки будем использовать следующий подход: соберем датасет новостей и оценим, какая часть приходится на Телеграм-каналы. Здесь мы собрали для анализа 67 тысяч постов медузы и проанализировали их источники и ссылки.


                  Начнем с интересного: новости на Медузе имеют специально выделенный "официальный" источник, а также в тексте присутствуют ссылки на другие источники, назовем их здесь "неофициальными".


                  Начнем с новостей, где источником указан Телеграм: официально (синий график) и в тексте (красный) — разница пятикратная. Как мы видим, медуза только начала официально и вообще в принципе ссылаться на Телеграм. Тренд: количество Телеграм-новостей растет: как в виде официального источника, так и в виде ссылок!



                  Данные: для воспроизведения результатов и дальнейших исследований выложены в открытый доступ: датасет (67к исходных текстов статей) и CSV c метаинформацией. См. методологию сбора и код в предыдущей статье по анализу Медузы.


                  Под катом:


                  • Анализ — Телеграм vs Facebook (и vs Twitter).
                  • Где находится Телеграм среди других ньюсмейкеров и источников?
                  • Как растет влияние Телеграма?
                  • На какие каналы чаще всего ссылаются?
                  • Что из всего этого можно вывести?
                  Читать дальше →
                • Ищем свободное парковочное место с Python

                  • Перевод
                  image

                  Я живу в хорошем городе. Но, как и во многих других, поиск парковочного места всегда превращается в испытание. Свободные места быстро занимают, и даже если у вас есть своё собственное, друзьям будет сложно к вам заехать, ведь им будет негде припарковаться.

                  Поэтому я решил направить камеру в окно и использовать глубокое обучение, чтобы мой компьютер сообщал мне, когда освободится место:

                  image

                  Это может звучать сложно, но на самом деле написать рабочий прототип с глубоким обучением — быстро и легко. Все нужные составляющие уже есть — нужно всего лишь знать, где их найти и как собрать воедино.

                  Поэтому давайте немного развлечёмся и напишем точную систему уведомлений о свободной парковке с помощью Python и глубокого обучения
                  Читать дальше →
                • Моя численная проверка гипотезы «Абсолютных курсов»

                  • Tutorial
                  Привет, Хабр!

                  Мне показалась интересной данная публикация: Получаем абсолютные курсы из парных кросс-курсов валют и я захотел проверить возможность найти этот аааабсолютный курс валюты через численное моделирование, вообще отказавшись от линейной алгебры.



                  Результаты получились интересными.
                  Читать дальше →
                • Получаем абсолютные курсы из парных кросс-курсов валют


                    Проект: “Абсолютный курс валют”


                    Введение


                    О проекте


                    Проект “Абсолютный курс валют” занимается анализом парных валютных курсов, выделением из них абсолютных валютных курсов и их анализом.


                    В рамках проекта получена методика преобразования от парных курсов к абсолютным валютным курсам. Для этого определена абсолютная валюта ABS. Курсы всех имеющихся валют выражаются в отношении к ABS.


                    В проекте исследуются свойства абсолютных курсов. Исследуются различные применения абсолютных курсов валют.

                    Читать дальше →
                  • Почему вам стоит участвовать в хакатонах



                      Примерно полтора года назад я начал участвовать в хакатонах. За этот временной промежуток я успел принять участие в более чем 20 мероприятиях различного масштаба и тематик в Москве, Хельсинки, Берлине, Мюнхене, Амстердаме, Цюрихе и Париже. Во всех мероприятиях я занимался анализом данных в том или ином виде. Мне нравится приезжать в новые для себя города, налаживать новые контакты, придумывать свежие идеи, реализовывать старые задумки за короткий промежуток времени и адреналин во время выступления и оглашения результатов.

                      Данный пост — первый из трех постов на тематику хакатонов, в нем я расскажу, что такое хакатоны, почему вам стоит начать участвовать в хакатонах. Второй пост будет о темной стороне данных мероприятий — про то как организаторы делали ошибки при проведении, и к чему они привели. Третий пост будет посвящен ответам на вопросы про около-хакатонную тематику.
                      Читать дальше →
                      • +41
                      • 19,6k
                      • 9
                    • О разложении многоканального отклика системы по «псевдособственным» формам колебаний

                        Обклеенный десятками датчиков «объект исследований» при натурных динамических испытаниях (например, при исследовании виброактивности транспортного средства) легко обеспечивает нас большим объемом полученных данных, но вот что с ними делать, зачастую не очень-то ясно. То же самое — при симуляционом моделировании динамических процессов систем с большим количеством степеней свободы.

                        Это может быть не совсем понятно тем, кто не сталкивается с проблемой регулярно, но — отсматривать соответствующую анимацию процесса, стохастического во времени и пространстве, как правило, почти бессмысленно. Где сломается или почему так трясет — обычно «не видно». Что придумывали кроме анимации, ниже расскажу, а порекомендую вот что.

                        Путем элементарнешей процедуры можно получить и сами пространственные «формы» колебаний, причем именно реально проявляющиеся в данных условиях нагружения, и интенсивности их проявления (дисперсии; при желании — и сами процессы).

                        Исходный
                        многоканальный
                        процесс

                        image
                        Разложение
                        image
                        image
                        image


                        Рис.1 Разложение многоканального отклика по псевдоформам. «Струна в вязкой среде»(см.рис.2)

                        Читать дальше →
                        • +15
                        • 2,1k
                        • 2
                      • Как я нейронку в «динозаврика» играть учил

                        Вступление


                        Одним обычным днём я сидел в интернете, вдруг его отключили. Вспомнив про старую пасхалку от Google, а именно про бегающего динозаврика на странице ошибки. Изучая машинное обучение и вспомнив проект Mari/O, я решил сделать что-то похожее, хотелось чтобы искусственная нейронная сеть научилась играть в «Динозаврика» на уровне реального человека.

                        image

                        Для выполнения поставленной цели было решено использовать Генетические алгоритмы, то есть заставить динозавров ‘Эволюционировать’.

                        Генетический алгоритм


                        Так что такое этот генетический алгоритм?

                        Генети́ческий алгори́тм — это алгоритм поиска, используемый для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе. Является разновидностью эволюционных вычислений, с помощью которых решаются оптимизационные задачи с использованием методов естественной эволюции, таких как наследование, мутации, отбор и кроссинговер. Отличительной особенностью генетического алгоритма является акцент на использование оператора «скрещивания», который производит операцию рекомбинации решений-кандидатов, роль которой аналогична роли скрещивания в живой природе.

                        image
                        Читать дальше →
                      • Что такое автоматизированное машинное обучение (AutoML)

                        Что такое автоматизированное машинное обучение (AutoML) и
                        собирается ли оно лишить специалистов по данным (Data Scientists) работы?


                        С того момента как стали появляться инструменты автоматизированного машинного обучения (AutoML), такие как Google AutoML, эксперты обсуждают вопрос — готовы ли они к полной корпоративной интеграции и применению. В описании инструментов AutoML утверждается, что каждый может взять на себя роль «исследователя данных» (data scientist), способного создавать готовые для промышленного применения модели машинного обучения без традиционно необходимого технического образования.



                        Хотя, безусловно, верно, что автоматизированные процессы машинного обучения меняют способы, с помощью которых предприятия могут выполнять задачи анализа данных, технология еще не готова оставить специалистов по данным без работы. Одно из главных утверждений технологии заключается в том, что автоматически созданные модели имеют схожее качество и производятся в кратчайшие сроки по сравнению с эквивалентной моделью, созданной группой исследователей данных.


                        Хотя модели AutoML создаются быстрее, они эффективны только в том случае, если проблема, которую они ищут, является постоянной и повторяющейся. Большинство моделей AutoML работают хорошо и достигают постоянного качества в этих условиях; но чем сложнее проблемы с данными, тем больше требуется вмешательство специалиста, чтобы понять, что запустила система AutoML, и превратить ее в нечто полезное. Чтобы понять некоторые из этих ограничений, давайте рассмотрим процесс AutoML более подробно.


                        Читать дальше →
                      • Как ускорить работу с API на языке R с помощью параллельных вычислений, на примере API Яндекс.Директ (Часть 2)

                        • Tutorial

                        В прошлой статье я рассказал о том, что такое многопоточность, и привёл примеры её реализации на языке R при работе с API Яндекс.Директ с помощью пакетов doSNOW, doParallel и конструкции foreach.


                        Данная статья является продолжением, но может быть рассмотрена как автономное руководство по многопоточности в R. К её написанию меня подтолкнули комментарии полученные к первой части (тут отдельная благодарность Alexey_mosc, SatCat, Ananiev_Genrih), в которых мне привели ряд пакетов, представляющих более современный подход к реализации многопоточности в R, о них далее и пойдёт речь.


                        Многопоточность

                        Читать дальше →
                        • +10
                        • 1,7k
                        • 8
                      • Как начать применять R в Enterprise. Пример практического подхода

                          Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
                          Вся презентация в pdf формате.


                          Почему этот вопрос актуален?


                          Бизнес-кейсы различны, техническая суть одинакова


                          • Аналитика работы колл-центра
                          • Аналитика продаж, включая прогнозы
                          • Антифрод системы
                          • Business process mining
                          • Различные аудиты (технические, финансовые)
                          • Складские и логистические задачи
                          • Activity-based costing
                          • Business-process monitoring
                          • Log-based аналитика
                          • Capacity management
                          • Текстовая аналитика (e-mail, service-desk)
                          • "Гибкие" дашборды и отчеты
                          • "интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
                          • ...

                          Является продолжением предыдущих публикаций.

                          Читать дальше →
                          • +10
                          • 2,1k
                          • 7

                        Самое читаемое