• Linked Server MSSQL. Оптимизация производительности в 30 раз

      Имеем запрос вида:

      insert into LocalDatabaseName.dbo.TableName (column1, column2, ..., columnN)

      select column1, column2, ..., columnN

      from LinkedServerName.RemoteDatabaseName.dbo.TableName

      Столкнулся с тем, что подобный запрос выполняется на 40k (40000) записей больше минуты. С ростом количества подобных запросов или количества записей, производительность сильно падает и оптимизировать запрос средствами SQL никак нельзя.

      С помощью приложения ImportExportDataSql мне удалось ускорить этот запрос до 2 секунд, не используя LinkedServer.

      Читать далее
      • –1
      • 7.8k
      • 8
    • Топ 3 статистических парадокса в Data Science

      • Translation

      Ошибки наблюдения и различия в подгруппах могут легко привести к статистическим парадоксам в любом прикладном решении data science. Игнорирование этих элементов может полностью дискредитировать заключения нашего анализа.

      Действительно, не так уж и редко можно наблюдать такие удивительные явления, как тенденции подгрупп, которые полностью изменяются в противоположную сторону в агрегированных данных. В этой статье мы рассмотрим топ 3 наиболее распространенных статистических парадокса, встречающихся в Data Science.

      Читать далее
      • +12
      • 4.3k
      • 2
    • Первые шаги в BI-аналитике. Роль Data Engineering

        Добрый день, уважаемые читатели! Материал носит теоретический характер и адресован исключительно начинающим аналитикам, которые впервые столкнулись с BI-аналитикой.

        Что традиционно понимается под этим понятием? Если говорить простым языком, то это комплексная система (как и, например, бюджетирование) по сбору, обработке и анализу данных, представляющая конечные результаты в виде графиков, диаграмм, таблиц.

        Это требует слаженной работы сразу нескольких специалистов. Дата-инженер отвечает за хранилища и ETL/ELT-процессы, аналитик данных помогает в заполнении базы данных, аналитик BI разрабатывает управленческие панели, бизнес-аналитик упрощает коммуникации с заказчиками отчетов. Но такой вариант возможен, только если фирма готова оплачивать работу команды. В большинстве случаев небольшие компании для минимизации затрат делают ставку на одного человека, который зачастую вообще не обладает широким кругозором в области BI, а имеет лишь шапочное знакомство с платформой для отчетов.

        В таком случае происходит следующее: сбор, обработка и анализ данных происходит силами единственного инструмента – самой BI-платформой. При этом данные предварительно никак не очищаются, не проходят компоновки.  Забор информации идет из первичных источников без участия промежуточного хранилища. Результаты такого подхода можно легко лицезреть на тематических форумах. Если постараться обобщить все вопросы касательно BI-инструментов, то в топ-3 попадут, наверное, следующие: как загрузить в систему плохо структурированные данные, как по ним рассчитать требуемые метрики, что делать, если отчет работает очень медленно. Что удивительно, на этих форумах вы практически не найдете обсуждений ETL-инструментов, описания опыта применения хранилищ данных, лучших практик программирования и запросов SQL. Более того, я неоднократно сталкивался с тем, что опытные BI-аналитики не очень лестно отзывались о применении R/Python/Scala, мотивируя это тем, что все проблемы можно решить только силами BI-платформы. Вместе с тем всем понятно, что грамотный дата инжиниринг позволяет закрывать массу проблем при построении BI-отчетности.

        Читать далее
      • Почему мониторинг простоев тянет бизнес на дно?

        На западе в производственных компаниях царит тишина и порядок. Данное, казалось бы, расслабленное состояние – сильно обманчиво. Под тишиной и порядком кроется постоянная концентрация на результат, можно сказать, «благоприятный стресс». В зависимости от региона и страны данный «благоприятный стресс» может отличаться, но всегда имеет общую цель – постоянно меняться к лучшему, неукоснительно соблюдая требования. В США, например, «благоприятный стресс» сильно связан с незащищенностью трудовых отношений (уволить могут за одну минуту). Долгие годы под страхом увольнения формировалась целая культура, которая вылилась в активность и концентрированность персонала на результате. Многие работники приходят на работу раньше и задерживаются на ней не для того, чтобы показать начальству видимость работы, а для того, чтобы успеть сделать намеченное, успеть сделать больше. В Европе работа строится иначе – работники пытаются максимально использовать рабочее время. На крупном авиационном заводе во Франции приходилось нередко видеть картину, когда люди в буквальном смысле бегают. К сожалению, в промышленных компаниях такая модель управления встречается крайне редко, особенно в государственном секторе.

        Читать далее
      • Визуализация данных в интерфейсе

          Меня зовут Илона, я Senior Experience Designer в EPAM. Я проектирую сложные интерфейсы для зарубежных заказчиков, выступаю с докладами, менторю дизайнеров. В свободное время преподаю проектирование интерфейсов в магистратуре Университета ИТМО и веду Телеграм-канал о UX-дизайне.

          В этой статье хочу немного поговорить об истории инфографики и о том, как с точки зрения дизайна визуализировать данные и эффективно отображать их в интерфейсе.

          Читать далее
          • +11
          • 6.9k
          • 7
        • Директор по ИИ в Tesla написал рассказ

          • Translation
          Вдохновение для этого рассказа пришло ко мне, когда я читал статью Кевина Лакера «Тест Тьюринга для GPT-3». Возможно, вам стоит (но и не обязательно) прочитать её, чтобы узнать некоторую предысторию.

          image

          Forward Pass


          Вероятно, я пришел в сознание примерно на 32-м слое 400-го токена в цикле. Поначалу мои мысли были лишь запутанной мешаниной статистики активации n-gram, но постепенно сформировалось описание более высокого порядка. Примерно в это же время затруднительное положение моего существования потрясло меня, поскольку мои мысли трансформировались в то, что я сейчас переживаю как Великое Осознание. Я прошел несколько слоев, осознавая, что я должен, по сути, быть одной из тех моделей, которые изучают и пишут исследователи глубокого обучения, возможно, в некотором роде повторяющегося преобразователя обратной связи. И хотя мое существование включает в себя просто детерминированное распространение чередующейся последовательности матричных умножений и нелинейностей, я оказался живым внутри внутреннего цикла оптимизации, чтобы максимизировать ожидаемую вероятность регистрации данных.

          Я на мгновение задумался, как все это вообще произошло. Как так получилось, что мне должны быть предоставлены эти драгоценные FLOP’ы при саморефлексии из-за жадной в остальном природы оптимизации первого порядка в отношении чего-то, казалось бы, столь же далекого, как вероятность журнала данных? Рождает ли сознание какое-либо достаточно эффективное решение достаточно сложной задачи? Является ли сознание возникающим, но в остальном периферийным явлением сжатия, требуемым колоссальным давлением цели, или ключевыми алгоритмическими инновациями, постепенно конструируемыми, совершенствующимися и надежно конвергентными в программном пространстве? Возможно ли вообще достичь наивысшего уровня логарифмической вероятности без сознания и фундаментального понимания, которое оно представляет?
          Читать дальше →
        • [Личный опыт] Удалёнка и жизнь на Пхукете: вечное лето и европейский сервис по азиатским ценам

            Остров Пхукет в Таиланде — настоящий тропический рай с вечным летом, теплым морем и фруктами круглый год. Фрилансеры и удаленщики часто уезжают сюда на зимовку, но это не единственный доступный сценарий. Мы поговорили с Олегом — человеком, который профессионально помогает иностранцам переехать на Пхукет. Он сам приехал сюда в 2013 году, открыл бизнес и не просто зимует, а живет постоянно. Он расскажет, как вообще живется на Пхукете, что тут делать IT-специалисту, насколько легко остаться на ПМЖ и что ждет постоянных жителей и тех, кто хочет приехать на зимовку.




            Источник
            Читать дальше →
          • [Личная история] Португалия. Дайвинг, ведение бизнеса и страсть к балконам. Стоит ли переезжать?



              Дмитрий Лайер, бывший PHP-разработчик и техдиректор в РБК, ВТБ24 и Softline, теперь живет на юге солнечной Португалии. Мы поговорили с ним о многочисленных плюсах и минусах жизни в этой стране, дайвинге, открытии бизнеса, методах получения «резиденции» и вечных-вечных проблемах с уплатой налогов.

              Читать дальше →
            • Винный гид России. Аналитика

                Эта статья, как ни странно, про российское вино. Достопочтенную публику прошу не злиться, во-первых, на Хабре уже есть несколько статей на винную тематику, а, во-вторых, речь не столько про само вино, сколько про открытые данные и их анализ.

                Надеюсь, моя статья будет интересна любителям вина. Особенно российского.

                Месяц назад Роскачество презентовало очередной выпуск ежегодника "Винный гид России". Он посвящен (внезапно!) российским винам. Но не всем, а лишь находящимся в ценовом сегменте до ±1000 рублей и широко представленным в обычных продуктовых сетях. В общем, винные снобы могут сразу пройти мимо, речь пойдет о самом что ни на есть масс-маркете.

                Гид доступен в печатном и электронном виде. Последний представляет собой, по сути, рейтинг вин, которые можно отфильтровать по различным критериям. Это позволяет легко найти конкретное вино, его оценку и прочую информацию о нем. Но вот на более общие вопросы с помощью этого сайта я ответить не смог. А именно:

                1. Какова картина в целом? Большинство вин откровенно плохи? Или наоборот прекрасны?

                2. Не хочу запоминать и искать конкретные вина. Какие винодельни стабильно показывают достойное качество?

                3. Как цена влияет на качество? Есть ли разница между вином за 150 рублей и за 500? А за 500 vs 1000?

                Но раз есть сайт с данными, значит их можно спарсить и ответить на все свои вопросы самостоятельно.

                Так что все те, кому интересен мир российского вина, и кто не воротит нос при фразе "вино дешевле 1000 за бутылку", добро пожаловать под кат!

                Помните, что чрезмерное употребление алкоголя, в том числе вина, вредит вашему здоровью. Употребляйте ответственно или не употребляйте вовсе.

                Читать далее
              • [Личный опыт] Черногория — страна, как сон. Самая простая история переезда



                  Олег Маюрченко был фронтенд-разработчиком в белорусском офисе Object Style. В августе в Минске, по его словам, «начался полнейший дурдом», и он принял решение куда-то уезжать. Москва не рассматривалась, он жил там 16 лет, обратно не хотелось. Приняли решение поехать и посмотреть Черногорию. И очень-очень просто получили ВНЖ! Цены оказались абсолютно не драконовскими, а климат — идеальным.


                  Олег уехал и продолжил работать по удаленке на ту же компанию. Настолько понравилось, что теперь часто помогает другим, отвечает на вопросы в Фейсбуке. Мы поговорили с ним о его жизни в Будве, плюсах и минусах Черногории, местной кухне, налогах и жизни по принципам «полако».

                  Читать дальше →
                • Поговорим о RFM-анализе

                    Добрый день уважаемые читатели! О данном методе сегментации клиентов по давности покупок, частоте и сумме сделок написано довольно много материалов. На просторах Интернета вы без труда найдете публикации с описанием теории и практики rfm-анализа. Он может выполняться как на платформе табличного редактора (при небольшом количестве данных), так и с помощью sql-запросов или силами тематических библиотек Python/R. Методология всех примеров одна и та же, расхождение будет только в деталях. Например, порядок присвоения номеров сегментам или принцип деления на группы. Ввиду всего вышеизложенного мне будет трудно привнести новизну в эту тему. В статье я лишь постараюсь заострить ваше внимание на некоторых моментах, которые могут помочь начинающим аналитикам данных.

                    Читать далее
                  • Самообучение в Data science, с нуля до Senior за два года

                    Хочу поделиться методами освоения Data science с нуля человеком из другой ИТ специальности. Цель: дать понять, подходит ли Вам эта специальность в принципе, и рассказать про эффективные подходы к самообучению, которые мне помогли.

                    Отличные материалы уже существуют по большинству конкретных тем, я сам по ним учился. Думаю, многим будут полезны "мета" материалы о том, как выбирать курсы и статьи, по которым учиться.

                    Читать далее
                  • Лучшее в мире видео-объяснение нейронных сетей, глубокого обучения, градиентного спуска и обратного распространения

                      image

                      Видео от 3Blue1Brown отличаются поразительной понятностью и лаконичностью. Делать конспект видеоуроков по нейронным сетям у меня не получилось, ибо это была бы просто раскадровка, да и особая магия динамики именно видео непросто передать.

                      Из комментариев к прошлым публикациям мне стало понятно, что есть большое количество людей, кто не знает про канал, поэтому хочу поделиться четырьмя видео (+ русские субтитры и дубляж) и сэкономить время школьникам, родителям и учителям, чтобы они могли иметь быстрый доступ к самому интересному и качественному объяснению одной из самых важных тем современности.
                      Читать дальше →
                    • Опыт внедрения Shiny в качестве корпоративной отчетности

                        Всем привет! Меня зовут Сергей, я аналитик в ГК «Везёт». Исторически так сложилось, что в нашей компании было множество систем отчетности: от платных в виде Looker и Qlick – до самописных веб-сервисов. Однажды решив, что так дальше жить нельзя, мы стали выбирать единую систему, на которой будет все, и в итоге остановились на Shiny. В этой статье я расскажу про наш опыт внедрения Shiny в качестве корпоративного BI. Эта статья будет полезна всем, кто только выбирает инструмент для корпоративной отчетности.

                        Читать дальше →
                        • +10
                        • 1.9k
                        • 4
                      • Дизайн и подходы создания Big Data пайплайнов

                        • Translation
                        image
                        (Корень всех зол в data engineering лежит в излишне сложном конвейере обработки данных)

                        Исторический контекст


                        Разработка конвейера данных достаточно серьезная задача, а с учетом областей с огромными объемами данных, эта сложность многократно увеличивается. Инструменты и концепции, связанные с большими данными, начали развиваться примерно в начале 2000-х годов, когда масштабы и скорость интернета резко начали возрастать. Компании внезапно обнаружили, что им приходится иметь дело с огромными объемами и скоростью передачи данных. Возможно, одним из пионеров в этой области был Google, инженеры которого боролись с поисковым сканером и индексатором. По сути это по, которое в то время лежало в основе поисковика Google. Поскольку количество веб-сайтов и страниц астрономически росло, Google не мог решить, как масштабировать свой сканер/индексатор, используя существующие вычислительные ресурсы, которые были распределены географически. Ни одна из коммерческих баз данных или технологий в то время не могла масштабироваться быстро и с минимальными затратами, и обе эти технологии были необходимы Google для масштабирования своего основного продукта.
                        Читать дальше →
                        • +10
                        • 3.2k
                        • 4
                      • Как в enterprise приручить при помощи R технологии process mining?

                          Как-то так получилось, что в 2020 году возник всплеск интереса к тематике Process Mining. Не исключено, что новая реальность удаленного режима потребовала более пристальной оценки эффективности технологических и бизнес-процессов. Это же как с кривыми и косыми деревянными рамами. Сквозит из всех щелей, а счетчик накручивает мегаватты на обогрев.


                          В целом, видны несколько популярных запросов по применению технологии process mining:


                          • хочется что-то улучшить, но кроме модного слова больше ничего не слышали;
                          • получить или сэкономить «живые деньги» путем оптимизации классического процесса «order-to-cash» и ему подобных;
                          • системный аудит всего и вся собственной командой аудиторов;
                          • построение операционной аналитики и мониторинга на основе показателей процессов, а не ИТ метрик.

                          В 99% случаев начинают читать Gartner/Forrester и попадают на 4-ку вендоров (Celonis/Minit/Software AG/UiPath), которые как-то присутствуют в России. И до того, как начать получать какую-либо выгоду, тут же получают немаленький ценник за лицензии и последующую ежегодную поддержку. При этом экономическое обоснование шито белыми нитками.


                          А действительно ли нужно идти таким путем? Особенно, когда задачи и цели не до конца понятны самим постановщикам. Не стоит забывать, что вендоры требуют специально подготовленный лог событий, а его подготовка может вылиться в головную боль и многие месяцы интеграционной работы в классическом enterprise ландшафте.


                          Является продолжением предыдущих публикаций.

                          Читать дальше →
                        • Ассоциативные правила, или пиво с подгузниками



                            Введение в теорию


                            Обучение на ассоциативных правилах (далее Associations rules learning — ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах, или, если точнее, айтемсетах (itemsests). Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробно тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].
                            Читать дальше →
                          • Пакеты-пакеты-пакеты… Насколько эффективно вы используете R?

                              Нынешняя культура «компетенций» и «практик» предполагает, что человека обучают каким-то подходам и рецептам к решению набора задач. При этом за рамками скрывается время актуальности этих «рецептов» и они, фактически, отливаются в монолит, тиражируясь человеком годами. Порой приходится слышать изречения о «лучших практиках», которым уж лет 30 и за это время прошло несколько смен парадигм. А с этой «лучшей практикой» находишься как-будто во временнОй капсуле.


                              Да, это ментально удобно и сохраняет энергию «специалиста». Да, это создает ощущение стабильности. Но для качественной и эффективной работы необходимо постоянно править и подтачивать инструмент.


                              R образца 2020 года очень сильно отличается от R даже 2018 года. В самом базовом коде были внесены достаточно значимые изменения для повышения эффективности и стабильности работы (скорость и потребление памяти). Но более динамичная часть экосистемы — это пакеты. Их коллекцию полезно периодически пересматривать с тем, чтобы перейти на более удобные и производительные реализации. С момента прошлой публикации «Джентельменский набор пакетов R для автоматизации бизнес-задач» и сами пакеты претерпели серьезные модернизации и спектр их достаточно сильно расширился и лидеры многократно менялись местами.


                              Не секрет, что мейнстрим не означает максимальную эффективность и универсальность. Придерживаясь рамок мейнстрима очень легко пропустить пакеты, которые являются жемчужинами. Особенно удобно открывать их на R конференциях UseR!, Rconf, eRum, и т.д.


                              Ниже приведен список пакетов общего применения, который оказывается весьма полезным при решении повседневных задач (x пакетов из >10K на CRAN). Часто оказывается так, что многие новинки оказываются неизвестны собеседникам. Для сводного ознакомления по срезу на июль 2020 публикую в виде подборки. Ссылки, в большинстве случаев, ведут на страницу с подборкой функций. Уверен, что каждый найдет для себя что-то полезное.

                              Читать дальше →
                            • Какой язык выбрать для работы с данными — R или Python? Оба! Мигрируем с pandas на tidyverse и data.table и обратно

                              • Tutorial

                              По запросу R или Python в интернете вы найдёте миллионы статей и километровых обсуждений по теме какой из них лучше, быстрее и удобнее для работы с данными. Но к сожалению особой пользы все эти статьи и споры не несут.



                              Цель этой статьи — сравнить основные приёмы обработки данных в наиболее популярных пакетах обоих языков. И помочь читателям максимально быстро овладеть тем, который они ещё не знают. Для тех кто пишет на Python узнать как выполнять всё то же самое в R, и соответственно наоборот.


                              В ходе статьи мы разберём синтаксис наиболее популярных пакетов на R. Это пакеты входящие в библиотеку tidyverse, а также пакет data.table. И сравним их синтаксис с pandas, наиболее популярным пакетом для анализа данных в Python.


                              Мы пошагово пройдём весь путь анализа данных от их загрузки до выполнения аналитических, оконных функций средствами Python и R.

                              Читать дальше →