• Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая

      В части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.

      Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».

      Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
      Открытие, в среднем, — 30 сек.
      Сохранение – 22 сек.

      Первый этап начинается с определения статистических показателей датасета.

      Таблица 1. Статпоказатели датасета

      Читать дальше →
    • Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 1. Теоретическая

        1. Исходные данные


        Очистка данных – это одна из проблем стоящих перед задачами анализа данных. В этом материале отразил наработки, решения, которые возникли в результате решения практической задачи по анализу БД при формировании кадастровой стоимости. Исходники здесь «ОТЧЕТ № 01/ОКС-2019 об итогах государственной кадастровой оценки всех видов объектов недвижимости (за исключением земельных участков) на территории Ханты-Мансийского автономного округа — Югры».

        Рассматривался файл «Сравнительный модель итог.ods» в «Приложение Б. Результаты определения КС 5. Сведения о способе определения кадастровой стоимости 5.1 Сравнительный подход».

        Таблица 1. Статпоказатели датасета в файле «Сравнительный модель итог.ods»
        Общее количество полей, шт. — 44
        Общее количество записей, шт. — 365 490
        Общее количество символов, шт. — 101 714 693
        Среднее количество символов в записи, шт. — 278,297
        Стандартное отклонение символов в записи, шт. — 15,510
        Минимальное количество символов в записи, шт. — 198
        Максимальное количество символов в записи, шт. — 363

        2. Вводная часть. Базовые нормы


        Занимаясь анализом указанной БД сформировалась задача по конкретизации требований к степени очистки, так как, это понятно всем, указанная БД формирует правовые и экономические последствия для пользователей. В процессе работы оказалось, что особо никаких требований к степени очистки больших данных не сформировано. Анализируя правовые нормы в этом вопросе пришел к выводу, что все они сформированы от возможностей. То есть появилась определенная задача, под задачу комплектуются источники информации, далее формируется датасет и, на основе создаваемого датасета, инструменты для решения задачи. Полученные решения являются реперными точками в выборе из альтернатив. Представил это на рисунке 1.
        Читать дальше →
      • Высшее образование vs компетенция. Особое мнение судьи Конституционного Суда РФ о состоянии высшего образования

          Илон Маск (Elon Reeve Musk) по видеоконференции (youtube трекер 11:25) в процессе участия в бизнес-форуме «Дело за малым!», Краснодар 18-19.10.2019 сказал (перевод отсюда):
          «Мне кажется, что образование в России — очень хорошее. И мне кажется, что в России много талантов и много чего интересного, с точки зрения технологий».
          С другой стороны судья Конституционного суда Арановский К.В. в особом мнении в Постановление Конституционного Суда Российской Федерации делу о проверке конституционности положений пунктов 1 и 2 статьи 3 Закона Российской Федерации «О занятости населения в Российской Федерации» в связи с жалобой гражданина М.В.Чайковского, 8 октября 2019 года высказался очень критично:
          «Тогда можно будет, наверное, заново обсудить, насколько профессиональное образование сертифицирует доступ к профессиям и следует ли связывать с дипломами осуществление тех или иных прав».
          При этом Арановский К.В. мотивирует связанность этих конституционных прав с условиями:
          «Если бы профессиональное образование уверенно гарантировало квалификацию обладателей дипломов, то в конституционно-правовом балансе интересов и ценностей это имело бы иной, вероятно, вес, который дал бы больше оснований поддержать авторитет диплома, чтобы обладание им было условием осуществления свободы труда и связанных с нею прав».
          Как видно из высказывания Арановского К.В. существует прямая связь с профессиональной сертификацией и объемом прав человека. А такая связь, подтвержденная позицией судьи Конституционного суда, может быть аргументом для усиления позиции в случае инициации судебных процессов при защите прав автора. Этот аспект попробую раскрыть в данном материале.

          Актуальность позиции судьи можно подтвердить словами успешного человека с другого конца света Джека Ма (Ма Юнь, Jack Ma):
          «Через 20-30 лет наши дети просто не смогут выжить с образованием, которое мы им даем» (англ.).
          Читать дальше →
        • Первые три дня жизни поста на Хабре

            Каждый автор переживает за жизнь своей публикации, после опубликования смотрит статистику, ждет и беспокоится за комментарии, желает, чтобы публикация набрала хотя бы среднее число просмотров. У Хабра эти инструменты кумулятивные и поэтому достаточно сложно представить, как публикация автора начинает свою жизнь на фоне других публикаций.

            Как известно, основная масса публикаций набирает просмотры в первые три дня. Чтобы представить, как живет публикация, я отследил статистику и представил механизм мониторинга и сравнения. Данный механизм будет применен к этой публикации и все смогут посмотреть, как это работает.

            Первым этапом была собрана статистика о динамике публикаций за три первых дня жизни поста. Для этого анализировал потоки читателей, по публикациям за 28 сентября в период их жизни с 28 сентября по 1 октября 2019 г. путем фиксирования количества просмотров через различные промежутки времени в этот период. Первая диаграмма представлена на рисунке ниже, она получена в результате согласования динамики просмотров по времени.

            Как можно посчитать из диаграммы, среднее число просмотров публикации через 72 часа при степенной функции аппроксимации составит ориентировочно 8380 просмотров.


            Рис. 1. Распределение просмотров по времени, для всех публикаций.
            Читать дальше →
          • Треугольник Паскаля vs цепочек типа «000…/111…» в бинарных рядах и нейронных сетях

              Серия «Белый шум рисует черный квадрат»



              История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:


              Рис. 1.

              По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

              Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.


              Рис. 2.

              Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.


              Рис. 3.

              Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
              Читать дальше →
              • +17
              • 3,5k
              • 5
            • Белый шум рисует черный квадрат. Часть 2. Решение

                В первой публикации рассказывалось о том, что есть подзабытая теорема Эрдёша-Реньи, из которой следует, что в случайном ряде, длины N, с вероятностью близкой к 1 существует подряд из одинаковых значений длиной $\log_2{N}$. Указанное свойство случайной величины можно использовать для ответа на вопрос: «После обработки больших данных, подчиняется ли остаточный ряд закону случайных чисел или нет?»

                Ответ на такой вопрос определялся не на основании тестов соответствия нормальности распределения, а на основании свойств самого остаточного ряда.
                Читать дальше →
              • Белый шум рисует черный квадрат

                  Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»

                  Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»


                  Рис. Белый шум (файл взят из сети, размер 448х235).

                  По этому вопросу рассуждал так:

                  1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
                  2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?

                  Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
                  Читать дальше →
                • Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных

                    Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как улыбнуться, ниже, на картинке, результат опроса Всероссийского центра изучения общественного мнения (ВЦИОМ).


                    Полюбопытствовал как сейчас используют вопросы с качественными оценками и обнаружил, что ВЦИОМ, ФОМ, Левада-Центр используют, в основном, трехдиапазонную шкалу (плохо/норма/хорошо). В случаях более детальных вопросов, шкала увеличивается до 5-6 единиц, но редко.



                    Тогда, на сегодняшний день, складывается ситуация, в которой социологи уходят от многоуровневой шкалы качественных оценок и стараются использовать трехуровневую. И если социология умеет из этого выворачиваться, то при анализе приличных объемов данных, необходимость использования качественных оценок становится усложняющим фактором и снижает надежность результатов. Так как разграничить, например, понятия: «прекрасная квартира» и «отличное жилье» практически невозможно, а с учетом ответа, одного из персонажей «Двенадцати стульев»: «Кому и кобыла невеста», многопересекаемость качеств выходит за разумные пределы.
                    Читать дальше →
                  • Шум в больших данных. Анализ на основе энтропии информации

                      Попалась задача под названием «Квартет Энскомба (Анскомба)» (англ.версия).

                      На рисунке 1 представлено табличное распределение 4 случайных функций (взято из Википедии).

                      image
                      Рис. 1. Табличное распределение четырех случайных функций

                      На рисунке 2 представлены параметры распределения этих случайных функций

                      image
                      Рис. 2. Параметры распределений четырех случайных функций

                      И их графики на рисунке 3.

                      image
                      Рис. 3. Графики четырех случайных функций

                      Проблема различения этих функций решается достаточно просто, путем сопоставления моментов высших порядков и их нормированных показателей: коэффициента асимметрии и коэффициента эксцесса. Данные показатели представлены на рисунке 4.
                      Читать дальше →
                    • Искусственный интеллект – на каждый ответ будет задан вопрос

                      Искусственный интеллект в речевых экспертных системах развивается в направлении чат-ботов. Бесспорно, это понятное всем направление развития. Проблем, при его формировании, безусловно, много, это видно из презентаций разработчиков. Они неплохо рассказывают о своих достижениях, о тех проблемах, которые им удалось решить, но хотелось бы и увидеть проблемы, которые им не удалось решить.

                      Посмотрим на все эти проблемы с теории информации. Информация — сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации (ГОСТ 7.0-99).
                      Читать дальше →