• Осваиваем компьютерное зрение — 8 основных шагов

      Привет, читатель.

      Для тебя уже не является новостью тот факт, что все на себе попробовали маски старения через приложение Face App. В свою очередь для компьютерного зрения есть задачи и поинтереснее этой. Ниже представлю 8 шагов, которые помогут освоить принципы компьютерного зрения.

      image

      Прежде, чем начать с этапов давайте поймём, какие задачи мы с вами сможем решать с помощью компьютерного зрения. Примеры задач могут быть следующими:

      Читать дальше →
    • 5 главных алгоритмов сэмплинга

      • Перевод


      Работа с данными — работа с алгоритмами обработки данных.


      И мне приходилось работать с самыми разнообразными на ежедневной основе, так что я решил составить список наиболее востребованных в серии публикаций.


      Эта статья посвящена наиболее распространённым способам сэмплинга при работе с данными.

      Читать дальше →
      • +13
      • 6,6k
      • 1
    • Семь раз отмерь, один раз внедри BI инструмент

        Не так давно я столкнулся с задачей по переходу на новую BI-систему для нашей компании. Поскольку мне пришлось погрузиться довольно глубоко и основательно в данный вопрос, я решил поделиться с уважаемым сообществом своими мыслями на этот счет.

        image
        На просторах интернета есть немало статей на эту тему, но, к моему большому удивлению, они не ответили на многие мои вопросы по выбору нужного инструмента и были несколько поверхностны. В рамках 3 недель тестирования мы опробовали 4 инструмента: Tableau, Looker, Periscope/Sisense, Mode analytics. Про эти инструменты в основном и пойдет речь в данной статье. Сразу оговорюсь, что предложенная статья — это личное мнение автора, отражающее потребности небольшой, но очень быстро растущей IT-компании :)

        Несколько слов о рынке


        Сейчас на рынке BI происходят довольно интересные изменения, идёт консолидация, крупные игроки облачных технологий пытаются укрепить свои позиции путем вертикальной интеграции всех аспектов работы с данными (хранение данных, обработка, визуализация). За последние несколько месяцев произошло 5 крупных поглощений: Google купил Looker, Salesforce купил Tableau, Sisense купил Periscope Data, Logi Analytics' купил Zoomdata, Alteryx купил ClearStory Data. Не будем дальше погружаться в корпоративный мир слияний и поглощений, стоит лишь отметить, что можно ожидать дальнейших изменений как в ценовой, так и в протекционистской политике новых обладателей BI-инструментов (как недавно нас обрадовал инструмент Alooma, вскоре после покупки их компанией Google, они перестают поддерживать все источники данных, кроме Google BigQuery :) ).
        Читать дальше →
      • Подборка рабочих примеров обработки данных

          Привет, читатель.

          По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

          Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

          + бонус в конце статьи — крутой курс от ФПМИ МФТИ.

          image

          Итак, давайте приступим.

          Подборка датасетов с рабочими примерами обработки данных:


          Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

          Примеры обработки:

          Читать дальше →
        • Как выглядят банки изнутри



          Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией.

          В качестве источника данных — главная бухгалтерская книга банка. Используя теорию графов, выделяем всех его клиентов в качестве узлов, а операции по счёту используем как ребра. Сумма операции, в таком случае, будет являться весом ребра.
          Читать дальше →
        • Извлечение данных при машинном обучении

          • Перевод
          Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.


          Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

          Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.
          Читать дальше →
        • Как резидентные прокси помогают в бизнесе: реальный кейс использования Infatica в сфере Data Mining



            В нашем блоге мы не только пишем о технологиях обеспечения приватности, но и рассказываем о реальном применении сервиса Infatica для решения бизнес-задач. Сегодня речь пойдет о применении сервиса резидентных прокси в сфере Data Mining.
            Читать дальше →
            • +11
            • 1,3k
            • 2
          • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

            Подробнее
            Реклама
          • Белый шум рисует черный квадрат

              Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»

              Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»


              Рис. Белый шум (файл взят из сети, размер 448х235).

              По этому вопросу рассуждал так:

              1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
              2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?

              Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
              Читать дальше →
            • Книга «Машинное обучение для бизнеса и маркетинга»

                image Наука о данных становится неотъемлемой частью любой маркетинговой деятельности, и эта книга является живым портретом цифровых преобразований в маркетинге. Анализ данных и интеллектуальные алгоритмы позволяют автоматизировать трудоемкие маркетинговые задачи. Процесс принятия решений становится не только более совершенным, но и более быстрым, что имеет большое значение в постоянно ускоряющейся конкурентной среде.

                «Эта книга — живой портрет цифровых преобразований в маркетинге. Она показывает, как наука о данных становится неотъемлемой частью любой маркетинговой деятельности. Подробно описывается, как подходы на основе анализа данных и интеллектуальных алгоритмов способствуют глубокой автоматизации традиционно трудоемких маркетинговых задач. Процесс принятия решений становится не только более совершенным, но и более быстрым, что важно в нашей постоянно ускоряющейся конкурентной среде. Эту книгу обязательно должны прочитать и специалисты по обработке данных, и специалисты по маркетингу, а лучше, если они будут читать ее вместе.» Андрей Себрант, директор по стратегическому маркетингу, Яндекс.
                Читать дальше →
              • ok.tech: Data Толк #2



                  7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2. В этот раз мероприятие будет посвящено образованию в Data Science. Сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области Data Science. Кто-то считает, что без университетского образования стать специалистом по анализу данных невозможно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции, что хороший специалист по данным — это тот, кто постоянно практикуется и использует разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему.

                  Мероприятие пройдет в формате дискусси между спикерами. В этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, DigitalOctober) и Виктор Кантор (Mail.ru Group, Data Mining in Action). Мы приглашаем всех, кому интересна тема образования в Data Science присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах — приходите и расскажите, что это вам дало. Считаете, что без PhD в анализе данных нельзя — приходите и расскажите почему. Считаете, что специалист по данным должен уметь писать в прод — приходите, обсудим.

                  → Регистрация на меропритие

                  Под катом мнения экспертов и расписание.
                  Читать дальше →
                • Галерея лучших блокнотов по ML и Data Science

                    Привет, читатель.

                    Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

                    image

                    Итак, приступим.

                    Вводные курсы в Jupyter Notebook


                    Читать дальше →
                    • +27
                    • 22,6k
                    • 7
                  • Собаку съел на нейронных сетях

                      Вот видишь ты на улице пёсика. Ты всегда видишь на улице пёсиков. Вот кто-то вообще их не замечает и не имеет хлопот, вот нет этих душевных терзаний, и вообще можно считать, что им на улице норм. Но ты же! И заметил, и глаза у тебя на мокром месте, такой думаешь: «пёсик. уаа, такой миленький, взял бы но не могу. Но вот прям точно, но никак». И пошёл такой дальше. Но пофотал его, погладил.


                      Вот таким добрым малым нужно кидать нам в систему геопозицию животинки на данный момент и пару фото.
                      Читать дальше →
                    • Как мы обучили нейронную сеть классифицировать шурупы

                        Нейронная сеть может опознать котика на фотографии, найти диван, улучшить видеозапись, нарисовать картинку из щенят или простого наброска. К этому мы уже привыкли. Новости о нейросетях появляются почти каждый день и стали обыденными. Компании Grid Dynamics поставили задачу не обыденную, а сложную — научить нейросеть находить специфический шуруп или болт в огромном каталоге интернет-магазина по одной фотографии. Задачка сложнее, чем найти котика.



                        Проблема интернет-магазина шурупов — в ассортименте. Тысячи или десятки тысяч моделей. У каждого шурупа свое описание и характеристики, поэтому на фильтры нет надежды. Что делать? Искать вручную или искать в гипермаркете на полках? В обоих случаях это потеря времени. В итоге клиент устанет и пойдет забивать гвоздь. Чтобы помочь ему, воспользуемся нейросетью. Если она может находить котиков или диваны, то пусть занимается чем-то полезным — подбирает шурупы и болты. Как научить нейросеть подбирать для пользователя шурупы быстро и точно, расскажем в расшифровке доклада Марии Мацкевичус, которая в компании Grid Dynamics занимается анализом данных и машинным обучением.
                        Читать дальше →
                      • Как купить авиабилет максимально дешево или ударим мониторингом по динамическому ценообразованию

                          image

                          Как максимально выгодно купить авиабилет?

                          Любой более-менее продвинутый пользователь Сети знает такие варианты как

                          • покупать заранее
                          • искать маршруты с пересадкой
                          • hidden-city ticketing
                          • мониторить чартерные рейсы
                          • искать в режиме инкогнито браузера
                          • использовать мильные карты авиакомпаний, всяческие бонусы и промо-коды

                          Полный список лайфхаков как-то делал Тинькофф-Журнал, не буду повторяться

                          А теперь ответьте на вопрос — как часто вы попадали в ситуации когда покупали авиабилет, а потом он стал стоить дешевле?
                          Читать дальше →
                        • Построение анимационного линейного графика скользящего среднего в R. Получение данных через NBA API

                            Продолжим анализировать баскетбольные данные с помощью R.


                            В отличие от прошлой статьи, носившей исключительно развлекательный характер, графики, которые будут построены в данной заметке, могут быть интересны с точки зрения анализа игры команды походу сезона.


                            А строить мы будем графики скользящего среднего для трёх видов рейтинга команд НБА: атакующего, оборонительного и net-рейтинга (т.е. разницы между первыми двумя). В двух словах о них. Атакующий и оборонительный рейтинги — это количество очков, набранных/пропущенных командой за 100 владений. NET рейтинг — это их разница также на сто владений. Кому интересно узнать о них более подробно, могут прочитать глоссарий на сайте basketball-reference. Там есть формула расчёта, которую я тоже реализовал с помощью R, но так пока и не опубликовал статью об этом.

                            Читать дальше →
                            • +11
                            • 1,2k
                            • 1
                          • Что я узнал о машинном обучении, поработав в 12 стартапах

                            • Перевод
                            Всем привет.

                            Поработав в 12 стартапах в сфере машинного обучения, я сделал восемь полезных выводов о продуктах, данных и людях.

                            Все стартапы были из разных сфер (финтех, биотехнологии, здравоохранение, технологии обучения) и на разных этапах: и на этапе pre-seed, и на этапе приобретения крупной компанией. Менялась и моя роль. Я был стратегическим консультантом, главой отдела анализа данных, заваленный делами штатным сотрудником. Все эти компании старались создать хороший продукт, и многим это удалось.

                            За время работы я пришел к таким выводам:

                            Продукт важнее ИИ


                            Эти стартапы разрабатывают продукты, а не изучают искусственный интеллект. Меня, как убежденного математика, сначала больше интересовало машинное обучение и создание новых методов и алгоритмов.

                            Вскоре я понял, что даже точные модели машинного обучения не ценны сами по себе. Ценность ИИ и машинного обучения напрямую зависит от ценности продукта, в котором они используются. Цель стартапа – научиться создавать продукты, основанные на машинном обучении.

                            При таком подходе иногда выясняется, что машинное обучение – не самый эффективный инструмент. Иногда дело не в поставленной задаче, а в процессе решения. Даже в таких ситуациях полезно обратиться к ученым: они используют научный, основанный на данных подход. Тем не менее, не тратьте время на ИИ там, где нужно исправить процесс.
                            Читать дальше →
                            • +15
                            • 16,8k
                            • 7
                          • Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019

                              Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.

                              image
                              Читать дальше →
                            • Организуем ML-проект с помощью Ocean

                                image


                                Вступление


                                За годы разработки ML- и DL-проектов у нашей студии накопились и большая кодовая база, и много опыта, и интересные инсайты и выводы. При старте нового проекта эти полезные знания помогают увереннее начать исследование, переиспользовать полезные методы и получить первые результаты быстрее.


                                Очень важно, чтобы все эти материалы были не только в головах разработчиков, но и в читаемом виде на диске. Это позволит эффективнее обучить новых сотрудников, ввести их в курс дела и погрузить в проект.


                                Конечно, так было не всегда. Мы столкнулись с множеством проблем на первых этапах


                                • Каждый проект был организован по-разному, особенно если их инициировали разные люди.
                                • Недостаточно отслеживали, что делает код, как его запустить и кто его автор.
                                • Не использовали виртуализацию в должной степени, зачастую мешая своим коллегам установкой существующих библиотек другой версии.
                                • Забывались выводы, сделанные по графикам, которые осели и умерли в горé jupyter-тетрадок.
                                • Теряли отчеты по результатам и прогрессу в проекте.

                                Для того, чтобы эти проблемы решить раз и навсегда, мы решили, что нужно работать как над единой и правильной организаций проекта, так и над виртуализацией, абстракцией отдельных компонентов и переиспользуемостью полезного кода. Постепенно весь наш прогресс в этой области перерос в самостоятельный фреймворк — Ocean.


                                Вишенка на торте — логи проекта, которые агрегируются и превращаются в красивый сайт, автоматически собранный с помощью выполнения одной команды.


                                В статье мы расскажем на маленьком искусственном примере, из каких частей состоит Ocean и как его использовать.

                                Читать дальше →
                              • Топ-13 библиотек Scala для анализа данных

                                • Перевод

                                Последнее время язык Scala стал обширно применяться специалистами Data Science. Он приобрел популярность в основном благодаря появлению Spark, который написан на Scala. На практике, часто на этапе исследования анализ и создание модели выполняются в Python, а затем реализуются в Scala, поскольку этот язык больше подходит для production.


                                Мы подготовили подробный обзор наиболее интересных библиотек, используемых для реализации задач машинного обучения и data science в Scala. Часть из них используется в нашей образовательной программе "Анализ данных на Scala".


                                Для удобства все представленные в рейтинге библиотеки были разделены на 5 групп: анализ данных и математика, NLP, визуализация, машинное обучение и прочее.

                                Читать дальше →
                              • Сэмплирование и точность вычислений

                                  Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.


                                  Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.


                                  В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

                                  Читать дальше →
                                  • +13
                                  • 3,9k
                                  • 4

                                Самое читаемое