Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

MediascopeTeam 29 мар 2022 в 09:47

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

6 мин

6.3K

Блог компании MediascopeData Mining * Big Data * Математика * Машинное обучение *

Если вы проводите панельные исследования, то обязательно столкнетесь с одним из главных вызовов – набрать выборку достаточного размера, которая будет достоверно отражать важные для исследования параметры генеральной совокупности. Набрать большую и качественную, а значит несмещенную выборку с применением оффлайн-рекрутмента дорого и проблематично. Однако существует альтернативный вариант – это онлайн-рекрутмент, который давно зарекомендовал себя как максимально быстрый, простой и дешевый способ привлечь респондентов для различных исследований. В то же время выборки, набранные в интернете, являются неслучайными и, как правило, искажены по ряду параметров, даже если процедура рекрутирования была хорошо спланирована. В этой статье мы расскажем о методе Propensity Score Adjustment, который применили для коррекции смещений и улучшения данных, полученных на онлайн-панелях. Этот алгоритм помогает калибровать (уточнять) вклад респондентов, набранных в панель онлайн.

Читать

IvanWiz 28 мар 2022 в 08:46

Причина и следствие

13 мин

6.4K

Блог компании МегаФонBig Data * Data Mining * Статистика в IT

Из песочницы

Мы привыкли, что Machine Learning предоставляет нам большое количество предиктивных методов, которые с каждым годом предсказывают события лучше и лучше. Деревья, леса, бустинги, нейронные сети, обучение с подкреплением и другие алгоритмы машинного обучения позволяют предвидеть будущее все более отчетливо. Казалось бы, что нужно еще? Просто улучшать методы и тогда мы рано или поздно будем жить в будущем так же спокойно, как и в настоящем. Однако не все так просто.

Когда мы рассматриваем бизнес задачи, мы часто сталкиваемся с двумя моментами. Во-первых, мы хотим понять что к чему относится и что с чем связано. Нам важна интерпретация. Чем сложнее модели мы используем, тем более нелинейные они. Тем больше они похожи на черную коробку, в которой очень сложно выявить связи, понятные человеческому разуму. Все же мы привыкли мыслить довольно линейно или близко к тому. Во-вторых, мы хотим понять - если мы подергаем вот эту "ручку", изменится ли результат в будущем и насколько? То есть, мы хотим увидеть причинно-следственную связь между нашим целевым событием и некоторым фактором. Как сказал Рубин - без манипуляции нет причинно следственной связи. Мы часто ошибочно принимаем обыкновенную корреляцию за эту связь. В этой серии статей мы сконцентрируемся на причинах и следствиях.

Но что не так с привычными нам методами ML? Мы строим модель, а значит, предсказывая значение целевого события мы можем менять значение одного из факторов - одной из фич и тогда мы получим соответствующее изменение таргета. Вот нам и предсказание. Все не так просто. По конструкции, большинство ML методов отлично выявляют корреляцию между признаком и таргетом, но ничего не говорят о том, произошло ли изменение целевого события именно из-за изменения значения фичи. То есть, ничего не говорят нам о том - что здесь было причиной, а что следствием.

KatrinDynev 16 мар 2022 в 10:43

Разбор задачи Титаник на Kaggle (Baseline)

6 мин

25K

Data Engineering * Data Mining * Python *

Из песочницы

В статье я покажу как искать зависимости и проверять гипотезы. Мы познакомимся с данными и реализуем предсказание на основе одной логики=)

i_shutov 5 мар 2022 в 16:49

Новая Rеальность

2 мин

84K

R * Python * Data Mining *

Анекдот

Буквально за неделю ИТ ландшафт изменился до неузнаваемости. Каждый день появляются новости об уходе или «приостановке работы» той или иной международной ИТ компании. Одномоментно кончились серверные мощности. И если кто-то прикупил с запасом (что делали достаточно редко), то тот оказался молодцом. Стиль работы надо экстренно и радикально менять. Если раньше можно было полгода играть в RFI, потом полгода в RFP, потом полгода бюджетировать, то теперь все схлопнулось до «одного дня» и не на кого возложить ответственность, вендоры исчезли.

Ситуация стабилизируется, но время стабилизации и новая конфигурация пока неизвестны. Очевидно, что новая конфигурация будет отличаться от той, что была последние лет 10-20.

Читать дальше →

-16

199

Novolene 3 мар 2022 в 11:05

Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР

10 мин

110K

Блог компании HFLabsАнализ и проектирование систем * Data Mining * Открытые данные * Хранение данных *

Технотекст 2022

1 сентября 2021 года ФНС перестала обновлять свой адресный справочник в формате ФИАС. Относительно новый ГАР внезапно стал единственным государственным адресный реестром, доступным общественности. Рассказываем, что из себя представляет новый справочник и чем он отличается от ФИАС.

+19

salaxieb 1 мар 2022 в 07:53

Что новенького по сущностям? Новости последней конференции EMNLP

9 мин

1.8K

Блог компании ДомкликData Mining * Natural Language Processing *

В ноябре 2021 проходила конференция EMNLP — одно из главных мероприятий для тех, кто занимается NLP. Хоть команде Домклик и не удалось провести отвязную неделю в Доминикане, я и мои коллеги смогли поучаствовать в конференции удалённо. Как рассказывают сами организаторы, претенденты на участие со всего мира весь 2021 год присылали свои статьи. Из 1500 полученных работ отобрали около 400, чтобы допущенные участники сделали десятиминутную видеопрезентацию. В итоге зрители в течение пяти дней непрерывно и концентрированно получают информацию о том, куда продвинулась наука обработки естественного языка.

Спектр тем огромен, просмотреть и понять все презентации тяжело физически. В этой статье мы подготовили для вас обзор работ только по распознаванию именованных сущностей (NER) и извлечению связей (RE).

+46

E_BEREZIN 25 фев 2022 в 10:55

Цифровая трансформация цементного завода (ч.7): цифровой помощник оператора

15 мин

4.2K

Data Mining * Управление разработкой * Data Engineering * 1С *

Туториал

Технотекст 2022

Вы часто доверяете своей интуиции и внутренним ощущениям? А как научить систему действовать интуитивно, полагаясь только на неактуальные данные? Об этом и не только, на реальных примерах, далее в статье...

Читать статью >>

sveta_pavlos 21 фев 2022 в 11:09

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

5 мин

Natural Language Processing * IT-компанииData Mining * Data Engineering * Big Data *

Из песочницы

Боязнь новых технологий и чувство дискомфорта перед ними у людей происходит повсеместно. Тридцать, а то и двадцать лет назад трудно себе было представить современного здорового и образованного человека, зарабатывающего через интернет, продажей каких-либо товаров или услуг. Сегодня подобная тенденция с каждым годом всё больше набирает обороты. Роботы заменяют человека во всем, но, независимо от функции всё-таки имеют четкое предназначение — помощь, комфорт и удобство. В данном случае, проявление заботы робототехникой может стать явным плюсом в наборе его основных характеристик — автономности, интеллектуальности и самостоятельности. Но, увы, тут же появляется опасность разработки такого дизайн-продукта, который может быть воспринят людьми как «отдельное социальное существо», практически равный член общества и участник коммуникационного процесса жизнедеятельности человека. В случае повсеместного распространения подобных роботов по миру, люди будут вынуждены налаживать отношения с ними и находить новые способы осваивания коммуникационных процессов в разных сферах жизнедеятельности.

-3

i_shutov 21 фев 2022 в 06:47

Неравный join

7 мин

Big Data * Data Mining * Python * R *

Победитель Технотекст 2022

«Неравный брак», В. Пукирев, 1862 г.

Задача объединения табличных представлений очень часто встречается как в аналитике, так и в разработке (БД). Существует несколько различных типов слияний, фактически, это операции над множествами. Не будем погружаться в детали, на эту тему написано множество книг, семинаров, публикаций. Посмотрим на эти механизмы в преломлении практических задач. Будем смотреть по нарастающей сложности и пытаться решить их на «офисном» ноутбуке, не привлекая бесконечные мощности больших данных или реляционные БД.

Является продолжением серии предыдущих публикаций.

Читать дальше →

rawoak 17 фев 2022 в 10:00

Парсим NFT транзакции на OpenSea

15 мин

13K

Открытые данные * Big Data * Data Mining * Python *

Туториал

Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.

В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.

selesnow 17 фев 2022 в 08:50

Работа с API на языке R, введение в пакет httr2

7 мин

4.2K

Data Mining * Проектирование API * R * Data Engineering *

Туториал

Перевод

Цель этой статьи - показать вам основы httr2.

httr2 - переосмысленная реализация пакета httr, т.е. интерфейс для работы с HTTP запросами на языке R.

Из статьи вы узнаете, как создавать и отправлять HTTP-запросы и работать с полученными HTTP-ответами. httr2 разработан для точного сопоставления с базовым протоколом HTTP, который я объясню по мере продвижения. Для получения дополнительных сведений я также рекомендую ознакомиться со статьёй "An overview of HTTP" от MDN.

eavprog 17 фев 2022 в 06:07

Связанность мировой экономики через абсолютные валютные курсы

3 мин

2.2K

Python * Data Mining * Монетизация IT-систем *

Туториал

Recovery Mode

В курсе анализа данных есть методика исследования зависимостей между данными через корреляцию Пирсона. Корреляция тем выше чем ряды данных более связаны между собой. И наоборот. Не плохо было бы применить эту технику к валютам и посмотреть на взаимосвязи между ними. Но, если применять корреляцию к парным курсам, то получим оценку связей только между парными курсами. Зависимостей между отдельными валютами не получится.

-2

kucev 16 фев 2022 в 08:00

ML и консенсус между людьми: берём от обоих подходов лучшее

5 мин

1.2K

Машинное обучение * Искусственный интеллектData Mining * Big Data *

Перевод

Введение в категоризацию классификаций

У вас были когда-нибудь проблемы с поиском товара в продуктовом магазине? Например, вы могли искать замороженный картофель фри в отделе замороженных завтраков, но на самом деле он находился в отделе замороженных овощей. Или вы искали соевый соус в отделе азиатской еды, а он находился в отделе приправ.

Одна из самых больших трудностей для розничных магазинов и торговых площадок — создание каталога путём категоризации миллионов продуктов в сложную систему из тысяч категорий, также называемых классификациями (taxonomies). В реальных магазинах подробная категоризация нужна для логичного упорядочивания стеллажей. В эпоху электронной коммерции и цифровых торговых площадок правильная категоризация обеспечивает множество преимуществ, в том числе улучшенные поисковые рекомендации, более подходящие предложения товаров на замену, а также более строгое соблюдение региональных и федеральных требований.

Категоризация классификаций сложна не только из-за существования в мире бесчисленного количества продуктов, образующих глубоко вложенные иерархические категории, но и из-за постоянно меняющейся природы классификаций. Невозможно найти одного специалиста в предметной области, понимающего весь каталог достаточно хорошо для того, чтобы категоризировать каждый отдельный товар, а процесс обучения команды специалистов недостаточно быстр и масштабируем по современным стандартам. Более того, входные данные никогда не идеальны, и из-за отсутствия информации иногда невозможно понять, относится ли продукт к конкретной классификации.

Читать дальше →

KalininAlexander 13 фев 2022 в 17:34

Граф знаний LinkedIn’s Economic Graph и его Star2Vec-эмбеддинги

5 мин

2.8K

Big Data * Data Mining * Алгоритмы * Искусственный интеллектМашинное обучение *

Технотекст 2022

Из песочницы

В этой публикации я представляю поверхностный обзор статьи от исследователей LinkedIn «Representation Learning in Heterogeneous Professional Social Networks with Ambiguous Social Connections». В указанной статье частично представлена структура графа знаний LinkedIn’s Economic Graph и относительно подробно описан метод обучения эмбеддингов Star2Vec. Я попытаюсь объяснить основные этапы построения векторных представлений, что называется "на пальцах".

Т. к. это лишь поверхностный обзор, от читателя требуются следующие познания:

1. Skip-gram и его адаптация под графы (word2veс, LINE, DeepWalk);

2. общие понятия о графах знаний.

Поехали!

i_shutov 10 фев 2022 в 18:54

Лущим веб с помощью R

6 мин

R * Python * Data Mining *

Кадр из мультфильма «Раз горох, два горох», 1981, Союзмультфильм

Сбор исходных данных встречается во многих задачах, связанных с аналитикой. Веб тоже нередко выступает источником. Вероятность попасть на полностью готовый и причесанный источник почти близка к нулю. Всегда приходится что-то делать, чтобы эти данные получить и привести в порядок. Ободряет то, что если в браузере видна нужная информация, то тем или иным способом ее можно оттуда выцарапать. В самом худшем случае — перефотографировать.

Ниже три непридуманные истории, объединенные одной целью — достать информацию из открытого источника. Весь код написан «на салфетке», имеет сугубо иллюстративный и развлекательный характер.

Является продолжением серии предыдущих публикаций.

Читать дальше →

eavprog 9 фев 2022 в 17:09

Рейтинг стабильности мировых валют на основе их абсолютных курсов

2 мин

18K

Python * Data Mining * Монетизация IT-систем *

Туториал

Recovery Mode

Понятие стабильности для валют в основном в экономике характеризуется качественным образом. Да и как говорить о числовой стабильности валюты раз существуют только парные валютные курсы. И если мы попытаемся применить какую либо статистическую функцию к этому парному курсу, то это все равно не даст нам знания о каждой валюте отдельно от другой. В проекте Абсолютный валютный курс предложена методика получения абсолютных курсов для каждой валюты в отношении к абсолютной валюте. Таким образом появляется возможность исследовать отдельные валюты без отношения к другой. Более того это исследование можно проводить в численном виде. В настоящей статье дается числовое определение волатильности для валют.

-1

i_shutov 5 фев 2022 в 13:12

Рефакторинг Shiny приложений

10 мин

2.7K

Data Mining * R * Проектирование и рефакторинг *

Кадр из фильма «Формула любви», 1984

В жизненном цикле любого эксплуатируемого ПО наступает фаза, когда накопившийся набор изменений (CR) ложится неподъемным грузом на первичную архитектуру и вот тут наступает пора рефакторинга. Много книг понаписано на эту тему, есть специфика для различных языков. Ниже затронем только отдельные аспекты, которые могут оказаться полезным применительно к RStudio Shiny приложениям. Это ряд практических методов, трюков и нюансов, накопившихся при рефакторинге, как правило, чужого Shiny кода.

«Aliena nobis, nostra aliis» — Ежели один человек построил, другой завсегда разобрать сможет.

Это было в фильме, в первоисточнике несколько по-другому. Фраза Публилия Сира «Aliena nobis, nostra plus aliis placent» переводится как «Чужое нам, наше же в основном другим нравится».
Но кузнец Степан все равно дело говорит.

Является продолжением серии предыдущих публикаций.

Читать дальше →

+10

perevalov_a 3 фев 2022 в 19:12

Проблема многоязычности Question Answering over Knowledge Graphs и новый датасет QALD-9-Plus, способный её решить

6 мин

1.9K

Data Mining * Искусственный интеллектМашинное обучение *

Для разнородных групп пользователей (прим. язык, возраст), возможность одинаково эффективно взаимодействовать с веб-приложениями является одним из важнейших факторов такого понятия как "доступность" (англ. Accessibility). Это относится и к системам автоматического ответа на вопросы с использованием графов знаний (англ. Knowledge Graph Question Answering, KGQA), которые обеспечивают доступ к данным Семантической паутины (англ. The Semantic Web) через интерфейс на естественном языке. В ходе работы над такой темой, как многоязычная доступность KGQA-систем, мы с коллегами выявили несколько наиболее острых проблем. Одной из которых является отсутствие многоязычных бенчмарков для KGQA.

В этой статье мы улучшаем один из самых популярных бенчмарков для KGQA -- QALD-9, путем создания эталонных переводов вопросов из исходного датасета на 8 различных языков (немецкий, французский, русский, украинский, белорусский, армянский, башкирский, литовский). Одним из самых важных аспектов является то, что переводы были предоставленны и провалидированы носителями соответствующего языка. Пять из этих языков - армянский, украинский, литовский, башкирский и белорусский - насколько нам известно, никогда ранее не рассматривались в рамках KGQA-систем. А два языка (башкирский и белорусский) рассматриваются ЮНЕСКО как "находящиеся под угрозой исчезновения". Мы назвали новый расширенный датасет "QALD-9-plus". Датасет доступен онлайн.

kucev 3 фев 2022 в 08:04

Четыре урока о создании инструментов для машинного обучения

6 мин

2.3K

Машинное обучение * Искусственный интеллектNatural Language Processing * Data Mining * Big Data *

Перевод

Мне хотелось бы поделиться с вами одними из самых удивительных выводов о том, как создавать оснастку для машинного обучения, что необходимо для движения вперёд и почему в будущем ИИ гораздо большую роль будут играть специалисты в предметных областях.

На протяжении прошлого года Humanloop создавала новый вид инструмента для обучения и внедрения моделей natural language processing (NLP). Мы помогали командам юристов, сотрудников службы поддержки, маркетологов и разработчиков ПО быстро обучать способные понимать речь ИИ-модели, а затем мгновенно их использовать. Начали мы с применения активного обучения, чтобы снизить потребность в аннотированных данных, но при этом поняли, что требуется гораздо больше.

На самом деле нам был необходим новый набор инструментов и рабочих процессов, изначально спроектированных для решения сложных задач работы с ИИ. Ниже мы расскажем о том, чему научились.

Читать дальше →

PythonAnalyst 31 янв 2022 в 15:23

Анализ эффективности вакцинации в России и США

11 мин

7.5K

Data Mining * Big Data * Машинное обучение * Data Engineering *

Recovery Mode

К настоящему моменту накопилось досточно данных для выполнения заявленного анализа. Будут использованы данные за октябрь, ноябрь и декабрь 2021 года, поскольку эти месяцы как содержат российский эпид. сезон, так и являются однородными с точки зрения штамма вируса: в обеих странах в этот период был распространен Дельта- вариант. Данные для анализа взяты из официальных источников России и США.

221

1 2 ...

29 30

32 33 ...

109 110

Data Mining *

Как работать со смещениями онлайн-панелей: методы и ML-алгоритмы коррекции

Причина и следствие

Разбор задачи Титаник на Kaggle (Baseline)

Новая Rеальность

Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР

Что новенького по сущностям? Новости последней конференции EMNLP

Цифровая трансформация цементного завода (ч.7): цифровой помощник оператора

Восходящие тренды. Дизайн как инструмент восприятия информации между машиной и человеком

Неравный join

Парсим NFT транзакции на OpenSea

Работа с API на языке R, введение в пакет httr2

Связанность мировой экономики через абсолютные валютные курсы

ML и консенсус между людьми: берём от обоих подходов лучшее

Введение в категоризацию классификаций

Ближайшие события

Граф знаний LinkedIn’s Economic Graph и его Star2Vec-эмбеддинги

Лущим веб с помощью R

Рейтинг стабильности мировых валют на основе их абсолютных курсов

Рефакторинг Shiny приложений

Проблема многоязычности Question Answering over Knowledge Graphs и новый датасет QALD-9-Plus, способный её решить

Четыре урока о создании инструментов для машинного обучения

Анализ эффективности вакцинации в России и США

Вклад авторов