Articles / Profile of Sistemaalex / Habr

Александр Еськов @Sistemaalex^{read⁠-⁠only}

Специалист

Profile Publications 44Comments 184Bookmarks 47

Sistemaalex Jul 18 2019 at 02:43

Белый шум рисует черный квадрат

3 min

11K

Big Data*Data Mining*Algorithms*Mathematics*Open data*

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»

Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»

Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:

Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?

Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.

Читать дальше →

+16

Sistemaalex Jul 7 2019 at 03:37

Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных

2 min

3.2K

Big Data*Internet marketing*Mathematics*Semantics*

Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как улыбнуться, ниже, на картинке, результат опроса Всероссийского центра изучения общественного мнения (ВЦИОМ).

Полюбопытствовал как сейчас используют вопросы с качественными оценками и обнаружил, что ВЦИОМ, ФОМ, Левада-Центр используют, в основном, трехдиапазонную шкалу (плохо/норма/хорошо). В случаях более детальных вопросов, шкала увеличивается до 5-6 единиц, но редко.

Тогда, на сегодняшний день, складывается ситуация, в которой социологи уходят от многоуровневой шкалы качественных оценок и стараются использовать трехуровневую. И если социология умеет из этого выворачиваться, то при анализе приличных объемов данных, необходимость использования качественных оценок становится усложняющим фактором и снижает надежность результатов. Так как разграничить, например, понятия: «прекрасная квартира» и «отличное жилье» практически невозможно, а с учетом ответа, одного из персонажей «Двенадцати стульев»: «Кому и кобыла невеста», многопересекаемость качеств выходит за разумные пределы.

Читать дальше →

Sistemaalex Jul 5 2019 at 00:02

Шум в больших данных. Анализ на основе энтропии информации

4 min

Big Data*Data Mining*Algorithms*Data visualization*Open data*

Попалась задача под названием «Квартет Энскомба (Анскомба)» (англ.версия).

На рисунке 1 представлено табличное распределение 4 случайных функций (взято из Википедии).

Рис. 1. Табличное распределение четырех случайных функций

На рисунке 2 представлены параметры распределения этих случайных функций

Рис. 2. Параметры распределений четырех случайных функций

И их графики на рисунке 3.

Рис. 3. Графики четырех случайных функций

Проблема различения этих функций решается достаточно просто, путем сопоставления моментов высших порядков и их нормированных показателей: коэффициента асимметрии и коэффициента эксцесса. Данные показатели представлены на рисунке 4.

Читать дальше →

Sistemaalex Jun 29 2019 at 15:41

Искусственный интеллект – на каждый ответ будет задан вопрос

5 min

3.9K

Artificial Intelligence

From sandbox

Искусственный интеллект в речевых экспертных системах развивается в направлении чат-ботов. Бесспорно, это понятное всем направление развития. Проблем, при его формировании, безусловно, много, это видно из презентаций разработчиков. Они неплохо рассказывают о своих достижениях, о тех проблемах, которые им удалось решить, но хотелось бы и увидеть проблемы, которые им не удалось решить.

Посмотрим на все эти проблемы с теории информации. Информация — сведения, воспринимаемые человеком и (или) специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации (ГОСТ 7.0-99).

Читать дальше →

+11

1 2