• QVD-файлы — что внутри, часть 3

      В первой статье о структуре QVD-файла я описал общую структуру и достаточно подробно остановился на метаданных, во второй — на хранении колонок (символов). В этой статье я опишу формат хранения информации о строках, подытожу, расскажу о планах и достижениях.


      Итак (вспоминаем) QVD-файл соответствует реляционной таблице, в QVD файле таблица хранится в виде двух косвенно связанных частей:


      Таблицы символов (термин мой) содержат уникальные значения каждой колонки исходной таблицы. О них я рассказывал во второй статье.


      Таблица строк содержит строки исходной таблицы, каждая строка хранит индексы значений колонки (поля) строки в соответствующей таблице символов. Именно об этои и будет эта статья.

      Читать дальше →
    • 10 фич для ускорения анализа данных в Python

      • Перевод

      Источник

      Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала свои самые любимые и сделала из них эту статью. Какие-то из советов ниже уже известны многим, а какие-то появились совсем недавно. Так или иначе, я уверена, они точно не будут лишними, когда вы в очередной раз приступите к проекту по анализу данных.


      1. Профилирование Pandas Dataframe


      Профилирование помогает лучше понять наши данные, и пакет Pandas Profiling создан как раз для этого. Библиотека даст возможность просто и быстро выполнить разведочный анализ Pandas Dataframe. Обычно в таких случаях в качестве первого шага используются функции df.describe() и df.info(), но они сообщают мало и плохо справляются с большими наборами данных. Одна строка кода с использованием Pandas Profiling, напротив, выведет много информации в интерактивном HTML-отчете.


      Вот что вычисляется для заданного набора данных:


      Статистика выводимая Pandas Profiling.

      Установка


      pip install pandas-profiling
      или
      conda install -c anaconda pandas-profiling

      Использование


      Давайте используем набор данных о пассажирах Титаника, чтобы продемонстрировать возможности профайлера.

      Читать дальше →
      • +14
      • 9,9k
      • 6
    • Армия троллей



        Есть тролли обыкновенные. Они развлекаются в комментариях к новостям и статьям, развлекают народ и обогащают эмоциями дискуссии, чаще милые и безобидные. Они сами по себе и действуют в своих интересах. А есть другие, которые выступают под флагами неведомых сил, их влечет блеск золота, они беспощадны и готовы крушить все на своем пути. Их целое полчище… стихия, управляемая чужими интересами.

        Платный троллинг (вики)
        Платный троллинг — действия организованных групп интернет-пользователей, за денежное вознаграждение занимающихся формированием общественного мнения в определённом направлении и манипуляциями общественным мнением в Интернете. Используются обычно в политических целях, зачастую правительствами, и имеют разные названия в зависимости от страны или организации, которую представляют

        Далее речь пойдет о троллях, действующих в чужих интересах, и чаще всего в интересах государств. Их цель — пустить пыль в глаза и сформировать ложное общественное мнение на острые события. Такой троллинг развивается во многих странах. В статье Bloomberg Россию называют мастером спорта в этом деле, ключевым экспортером данной тактики и родиной троллинга.

        Под катом особенности российских троллей и их цифровой след на платформе Twitter
        Читать дальше →
      • Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

        Выбор места для нового филиала — ответственное решение. Ошибка может стоить дорого, особенно в капиталоемких отраслях. Чаще всего такие решения принимаются менеджментом экспертно: на основе знания города, отрасли, предыдущего опыта.

        В статье я расскажу о том, как аналитика может помочь в принятии таких решений. Как собрать информацию о населении, ценах на недвижимость и сделать интерактивные визуализации. Зависит ли кол-во клиентов от расстояния до филиала, года постройки дома, стоимости недвижимости.

        Население города с точностью до дома



        Читать дальше →
      • Краудсорсинг в ML Boot Camp. Считаем mIOU без картинок для новой задачи от Одноклассников

          Привет! Лето — жаркое. Организаторы «айтишных» чемпионатов много сидели на солнце, сгорели и схватили удар, но главное — собрали новую задачу для очередного (уже девятого) контеста на платформе ML Boot Camp. Чемпионат пройдёт онлайн в течение месяца.


          Сейчас на платформе зарегистрировано более 10 тысяч специалистов. Часто бывает, что задачи, которые на ней появляются, не всем по зубам (богам Kaggle в том числе). Для чего мы это делаем? Нужно развиваться и пробовать, причем на реальных данных, а не синтетическом булшите. Победы придут со временем.

          Задача, которую хотим предложить вам решить в этом соревновании, отличается от всех предыдущих. Тема задачи — это детектирование объектов на изображениях. Формулировка задачи подразумевает, что в наборе данных будут картинки, но, что забавно, их нет. И это не петабайты данных. И даже не гигабайты.
          Читать дальше →
          • +38
          • 3,6k
          • 1
        • Доверяй, но проверяй! Как проверить свою модель с помощью облака IBM (Watson OpenScale)

            Watson OpenScale

            Проблема доверия предсказаниям, сделанных моделями машинного обучения, становится все более и более актуальна. Чем существеннее решение, принимаемое на основании этого предсказания, тем меньше доверия. Вызвано это в первую очередь тем, что далеко не всегда понятно, что же повлияло на конечное решение, не было ли смещения в исходных данных, на которых обучалась модель, и не сделал ли разработчик ошибки при расчете параметров. Проверить всё это вручную на практике не представляется возможным, поэтому зачастую руководству легче не внедрять ИИ вообще.

            А что, если автоматизировать этот процесс?

            Представляем Watson OpenScale – облачное решение, позволяющее не только контролировать качество ваших моделей, но и отслеживать наличие предвзятости в предсказаниях, обнаруживать и устранять их причины.

            Расскажем что это такое, и где научиться с ним работать.
            Читать дальше →
            • +11
            • 1,4k
            • 1
          • Как мы создали систему оповещения о ядерной угрозе, или как я обучил нейросеть на заголовках Хабра

              Заголовок статьи может показаться странным и это неспроста — он прекрасен именно тем, что написал его не я, а LSTM-нейросеть (а точнее его часть перед "или").



              (схема LSTM взята из Understanding LSTM Networks)


              И сегодня мы разберёмся, как можно генерировать заголовки статей Хабра (и в принципе сам текст можно генерировать этой же нейро-архитектурой). Весь код доступен для запуска онлайн в notebooks от Гугла. Данные, как всегда, открыты на github.


              А вот здесь можно запустить уже обученную модель на GPU от Гугла (бесплатно и без смс) и собственно погенерить заголовки.

              Читать дальше →
            • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

              Подробнее
              Реклама
            • QVD-файлы — что внутри, часть 2

                В первой статье о структуре QVD файла я описал общую структуру и достаточно подробно остановился на метаданных. В этой статье я опишу формат хранения информации о колонках, поделюсь своим опытом трактовки этих данных.


                Итак (вспоминаем) QVD файл соответствует реляционной таблице, которая, как известно состоит из строк. Каждая строка таблицы в свою очередь состоит из колонок (или полей), причем строки имеют одинаковую структуру, которая может быть описана, например, SQL оператором (create table).


                В QVD файле таблица хранится в виде двух косвенно связанных частей:


                Таблицы символов (термин мой) содержат уникальные значения каждой колонки исходной таблицы. Именно о них пойдет речь ниже.


                Таблица строк содержит строки исходной таблицы, каждая строка хранит индексы значений колонки (поля) строки в соответствующей таблице символов. О таблице строк более подробно я расскажу в третьей части этой серии.

                Читать дальше →
              • Что нового у AWS: DATA API, Kinesis Data Analytics, S3 Path

                  DATA API для Amazon Aurora Serverless


                  Как работает подключение к традиционной базе данных? Вы открываете соединение, используете его для обработки одного или нескольких запросов SQL или других операторов, а затем закрываете соединение. Вы, вероятно, использовали клиентскую библиотеку, специфичную для вашей операционной системы, языка программирования и базы данных. В какой-то момент вы поняли, что создание соединений занимало много времени и занимало память на ядре базы данных.
                  Читать дальше →
                • О применении параметрических методов спектрального оценивания в радиолокации — метод MUSIC. Дополнение к статье

                    Попалась мне неплохая статья, про метод спектрального оценивания, который отлично подходит для короткого сигнала из суммы слабозашумленных гармоник. (-копия) Возможно, мои комментарии помогут читателю вникнуть в суть метода. Что немного огорчило, так это не до конца реализованные возможности метода. Метод применен для радиолокации — для быстрого определения направления на приходящие сигналы (угла θ) с последующей целью автоматической, надо понимать, адаптации системы. Но — численного определения этого угла автор не производит (причем по контексту это странно), хотя это определение вполне возможно. Имеем только красивые графики, по которым, получается, системе надо еще «ползать» и «ползать», определяя количество и расположение максимумов, что не совсем хорошо.

                    image
                    Иллюстрация автора упомянутой статьи
                    Читать дальше →
                  • Решаем задачи на принятие решений на основе данных


                    Сейчас многие и очень многие люди (обычно их называют аналитиками, но в целом это может быть какая угодно специальность) готовят различные красивые таблицы и графики, на основании которых в идеале должны приниматься важные решения.

                    Понятия, которые начинаются со слов Data Driven, сейчас на слуху.

                    Но не всегда решения принимаются действительно на основе данных. А иногда с принятием решений есть объективные проблемы.

                    Материалов о том, как хорошие данные генерировать, хранить и красиво подавать достаточно.
                    Всем желающим немного поупражняться именно в принятии решений на основе кое-как полученных и кое-как оформленных данных — добро пожаловать под кат.
                    Читать дальше →
                  • Применение Oracle Database для Технического анализа рынков

                      Эта статья про Oracle Database, PL/SQL, SQL, MATCH_RECOGNIZE, MODEL clause, aggregate и pipelined functions.

                      В качестве функциональной области использован Технический анализ (ТА) рынков. Сначала небольшая поверхностная вводная о торговле на рынках, потом — расчёты.

                      Технический анализ — совокупность инструментов прогнозирования вероятного изменения цен на основе закономерностей изменений цен в прошлом. Теоретически, Технический анализ применим на любом рынке. Но наибольшее распространение Технический анализ получил на высоколиквидных свободных рынках, например, на биржах.

                      image

                      Разработано много SQL-операторов, процедур и графиков. Часть — ниже, полностью код — на GitHub по ссылке внизу статьи.
                      Читать дальше →
                    • QVD файлы — что внутри

                        QlikView и его младший брат QlikSense — замечательные BI инструменты, достаточно популярные у нас в стране и "за рубежом". Очень часто эти системы сохраняют "промежуточные" результаты своей работы — данные, которые визуализируют их "дашборды" — в так называемые "QVD файлы". Часто QVD файлы используются в качестве основного хранилища в многоэтапных ETL процессах, построенных на базе Qlik. И тогда у некоторых (у меня, например, — я занимаюсь в компании вопросами инженерии данных) возникает вопрос — можно ли и как воспользоваться этими данными без QlikView/QlikSense? Или другой — а что там и правильно ли "оно" посчиталось?


                        QVD — это формат файла, оптимизированный для работы QlikView/QlikSense (чтение из запись информации этими приложениями в файлы такого формата происходит существенно быстрее, чем в файлы любого другого формата). Структура этого файла недокументирована и покрыта "мраком проприетарности", практически не существует приложений, которые способны работать такими файлами (читать и тем более писать). В этой серии статей я поделюсь своим опытом и полученными практическими познаниями: я знаю, как устроен QVD, умею напрямую и быстро его читать и в него писать.


                        Кому будет интересна данная информация: в первую очередь тем, кто работает с QlikView/QlikSense, а также тем, кто (как и я) хотел бы воспользоваться данными, хранящимися в QVD файлах. Ну и, конечно, всем любознательным.

                        Читать дальше →
                      • Программное ядро бортовой киберинфраструктуры унифицированного ударного истребителя F-35

                          Обзор ключевых компонентов «автономной информационной системы логистики» (ALIS) унифицированного ударного истребителя F-35. Подробный разбор «блока обеспечения боевого применения» и четырёх его ключевых компонентов: 1) человеко-системный интерфейс, 2) исполнительно-контролирующая система, 3) бортовая иммунная система, 4) система авионики. Некоторые сведения относительно программно-аппаратного обеспечения истребителя F-35 и относительно инструментария, который используется для его бортового программного обеспечения. Приведёно сравнение с более ранними моделями боевых истребителей, и также указаны перспективы для дальнейшего развития армейской авиации.


                          Читать дальше →
                        • Машинное обучение в микрофинансах: строим скоринговую модель для клиентов с пустой кредитной историей

                          Нет кредитной истории — не дают кредиты, не дают кредиты — нет кредитной истории. Замкнутый круг какой-то. Что делать? Давайте разбираться.


                          Привет! Меня зовут Марк, я data scientist в компании Devim. Недавно мы запустили модель для скоринга заемщиков МФК “До Зарплаты”, у которых отсутствует кредитная история. Хочу поделиться опытом поиска данных, особенностями конструирования и интерпретации признаков.


                          Читать дальше →
                        • ООП в языке R (часть 1): S3 классы

                          • Tutorial

                          R — это объектно ориентированный язык. В нём абсолютно всё является объектом, начиная от функций и заканчивая таблицами.


                          В свою очередь, каждый объект в R относится к какому-либо классу. На самом деле, в окружающем нас мире ситуация примерно такая же. Мы окружены объектами, и каждый объект можно отнести к классу. От класса зависит набор свойств и действий, которые с этим объектом можно произвести.


                          image

                          Читать дальше →
                        • Майнинг 2.0 и р106-100 как доступная GPGPU под float и deep learning

                            Доброго времени суток, дорогие Хабровчане! Немного расскажу про майнинг на видеокартах и как еще можно с пользой использовать майнинговые видеокарты р106-100.
                            Хейтеры, проходите мимо. Всем остальным — если увидите разумное зерно — можете и плюс поставить.

                            Про майнинг я узнал достаточно давно, году вероятно еще в 2015-м, но серьезно обратил внимание в середине 2018-го год когда как раз видеокарты GTX 1060 6 Gb стоили по 25 тысяч в магазинах близ расположенного города и в общем был как сейчас принято говорить «большой хайп» на эту тему. Но уже тогда многие умные люди предрекали не просто спад, а грядущий обвал курсов как криптовалют так и цен на видеокарты. Уже тогда прогнозировали, что те-же GTX 1060 будут продавать по 6 тысяч майнеры когда доходность упадет и придет время платить кредиты на которые многие собирали свои фермы.
                            Продолжение истории под катом
                          • Озвучивание прошлого. Руководство для историков по преобразованию данных в звук

                            • Перевод
                            Мне надоело смотреть на прошлое. Есть много руководств по воссозданию внешнего облика исторических артефактов, но часто мы забываем, что это творческий акт. Возможно, мы слишком привязаны к своим экранам, слишком много значения придаём внешнему облику. Давайте вместо этого попробуем услышать что-то из прошлого.

                            Богатая литература по археоакустике и звуковым ландшафтам помогает воссоздать звук места, каким он был (например, см. Виртуальный Собор Святого Павла или работу Джеффа Вейча по древней Остии). Но мне интересно «озвучить» сами данные. Я хочу определить синтаксис для представления данных в виде звука, чтобы эти алгоритмы можно было использовать в исторической науке. Друкер сказал знаменитую фразу, что «данные» — это на самом деле не то, что дано, а скорее то, что захвачено, трансформировано, то есть 'capta'. При озвучивании данных я буквально воспроизвожу прошлое в настоящем. Поэтому на передний план выходят допущения и преобразования этих данных. Полученные звуки являются «деформированным исполнением», которое заставляет по-новому услышать современные пласты истории.

                            Я хочу услышать смысл прошлого, но знаю, что это невозможно. Тем не менее, когда я слышу инструмент, то могу физически представить музыканта; по отзвукам и резонансам могу различить физическое пространство. Я чувствую бас, могу двигаться в ритме. Музыка охватывает моё тело, всё воображение. Ассоциации со слышанными ранее звуками, музыкой и тонами создают глубокий темпоральный опыт, систему воплощённых взаимоотношений между мной и прошлым. Визуальность? У нас так давно существуют визуальные представления о прошлом, что эти грамматики почти потеряли художественную выразительность и перформативный аспект.
                            Читать дальше →
                          • Об исследовании нестационарных процессов

                              Общеизвестно, что большинство временных рядов, с которыми приходится иметь дело исследователю, являются нестационарными, и их анализ ощутимо сложнее, чем изучение стационарных процессов. Поскольку интерес к вейвлетам, похоже, пошел на убыль, полезно обсудить некоторые иные «нестационарные» инструменты, пригодные, в первую очередь, для оценки мгновенных частот, а также для оценки мгновенных спектров.

                              В первую очередь есть смысл вспомнить об «аналитическом сигнале». Ниже «An-моделью» именуются как раз нахождение мгновенных импеданса и мощности тестового сигнала после достройки его мнимой частью (сдвинутой по фазе на π/2).

                              Но не всегда есть возможность возиться с преобразованием Гилберта. Ранее уже упоминалось об авторегрессионном способе спектрального оценивания, пригодном для работы с короткими последовательностями. Под «AR-моделью» здесь будет подразумеваться исследование коротких (из 5 сэмплов) перекрывающихся фрагментов исходного сигнала с целью определения коэффициентов авторегрессии 2-го порядка, нахождение по ним «полюсов» модели и т.д.

                              image
                              Читать дальше →
                              • +16
                              • 2,5k
                              • 3
                            • Data Science Digest (May 2019)



                                Хабр, привет!

                                В прошлом выпуске я рассказывал, что для дайджеста запустил Telegram-канал, а сегодня хочу поделиться новостью, что также завел для него страницы в facebook, twitter, LinkedIn. Приглашаю всех присоединяться к ним.

                                Кроме этого сегодня мы опубликовали дайджест на Product Hunt, кто знает, что это — те в курсе, что необходимо делать ;)

                                А пока предлагаю свежую подборку материалов под катом.
                                Читать дальше →

                              Самое читаемое