Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

Syurmakov 15 авг 2019 в 16:52

Применение машинного обучения и Data Science в промышленности

22 мин

67K

Блог компании VKPython*Data Mining*Big Data*Искусственный интеллект

Перевод

Хабр, привет. Перевел пост, который идёт строго (!) в закладки и передаётся коллегам. Он со списком блокнотов и библиотек ML и Data Science для разных отраслей промышленности. Все коды на Python, и размещены на GitHub. Они будут полезны как для расширения кругозора, так и для запуска своего интересного стартапа.

Отмечу, что если среди читателей есть желающие помочь, и добавить в любую из подотраслей подходящий проект, пожалуйста, свяжитесь со мной. Я их добавлю в список. Итак, давайте начнём изучение списка.

Читать дальше →

+65

PlayItToDeath 22 ноя 2018 в 14:15

Data Science проект от исследования до внедрения на примере Говорящей шляпы

25 мин

30K

Блог компании Open Data SciencePython*Data Mining*Машинное обучение*Искусственный интеллект

Месяц назад Лента запустила конкурс, в рамках которого та самая Говорящая Шляпа из Гарри Поттера определяет предоставивших доступ к социальной сети участников на один из четырех факультетов. Конкурс сделан неплохо, звучащие по-разному имена определяются на разные факультеты, причем схожие английские и русские имена и фамилии распределяются схожим образом. Не знаю, зависит ли распределение только от имен и фамилий, и учитывается ли как-то количество друзей или другие факторы, но этот конкурс подсказал идею этой статьи: попробовать с нуля обучить классификатор, который позволит распределять пользователей на различные факультеты.

Читать дальше →

+65

jandevel 6 мар 2018 в 13:59

Коэффициент Джини. Из экономики в машинное обучение

17 мин

124K

Блог компании Open Data SciencePython*Data Mining*Математика*Машинное обучение*

Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики. Казалось бы, что общего между этими двумя событиями? Всё просто, их последствия нашли широкое применение в области машинного обучения. И если датасет «Титаник» в представлении не нуждается, то об одной замечательной статистике, впервые опубликованной в труде итальянского учёного, мы поговорим поподробней. Сразу хочу заметить, что статья не имеет никакого отношения к коэффициенту Джини (Gini Impurity), который используется в деревьях решений как критерий качества разбиения в задачах классификации. Эти коэффициенты никак не связаны друг с другом и общего между ними примерно столько же, сколько общего между трактором в Брянской области и газонокосилкой в Оклахоме.

Коэффициент Джини (Gini coefficient) — метрика качества, которая часто используется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Именно она широко применяется в задачах банковского кредитования, страхования и целевом маркетинге. Для полного понимания этой метрики нам для начала необходимо окунуться в экономику и разобраться, для чего она используется там.

Читать дальше →

+65

oe24 22 ноя 2011 в 15:56

Facebook подтвердила предположение о шести рукопожатиях

1 мин

17K

Data Mining*

Миланский университет и Facebook окончили исследование о теории шести рукопожатиях. За основу брался социальный граф Facebook. Были исследованы все аккаунты Facebook. В итоге получилось, что двух любых людей отделяют не 6, а 4,74 уровня связи.
И в США, кстати, количество звеньев меньше — 4,37 (по статистике более половины американцев старше 13 лет пользуются Facebook).
«Даже если взять самого территориально удаленного пользователя Facebook в сибирской тундре или перуанских джунглей, друг вашего друга, вероятно, знает друга их друга» — так отмечают исследователи.
Три года назад Microsoft провела аналогичное исследование на 242 миллионах пользователей MSN, написавших хоть одно сообщение за месяц. Их результат тогда был равен 6,6.
А вот исследование аудитории ВКонтакте, которое сделал shuttie, показывает, что этот результат в более локализованной сети — меньше, 5.65 пользователей.

+65

Milfgard 30 мар 2020 в 09:54

Сценарии заражения в конкретных городах на основе датасета передвижения людей по России

17 мин

56K

Блог компании Туту.руData Mining*Здоровье

^{Статистика для Москвы в сценарии «люди стараются сидеть по домам, нет авиасообщения» — к ноябрю модель показывает 5 миллионов переболевших. Это ограниченный прогноз на основе неполных данных, ниже будут детали. За ноль принято 22 марта.}

В мире было создано несколько моделей распространения инфекции, но ни одна не подходила нормально для России, либо опиралась на плотность населения без правильного графа перемещений людей. Почему? Потому что либо он получается так сложно, что вы окосеете его согласовывать, либо ни у кого в одном месте этого датасета просто нет.

Кроме нас.

Туту.ру с радостью делится данными с журналистами уже 16 лет (огромная часть новостей в духе «Заметен аномальный спрос на Анталию» — это нарезка наших информационных витрин). Но мы исторически никогда не раскрывали сами данные по перемещениям людей целыми блоками.

Мы собрали датасет передвижений людей по России за апрель 2019 и передали его в сообщество Open Data Science. Если вы их не знаете — это объединение преимущественно русских дата-сайнтистов (но со всего мира), которое перерабатывает открытые данные на полезные модели. Некоммерчески.

Ниже выводы, таблица с прогнозом по каждому крупному городу, сам датасет (если вы хотите попробовать с ним что-то сделать). Про то, как работает модель и какая математика и ограничения лежат внутри, расскажет ODS через пару часов. И выложит исходники. UPD: вот.

Читать дальше →

+64

pskryuchkov 1 июл 2018 в 11:40

На переднем крае науки: анализ статей arxiv.org

11 мин

25K

Data Mining*Визуализация данных*Физика

Из песочницы

Моя специальность — физика конденсированного состояния. Разумеется, в процессе погружения в нее требуется изучать много научных статей, однако на разбор хотя бы одной может уйти немало времени. На arxiv в разделе cond-mat публикуется более тысячи статей в месяц. Складывается ситуация, когда многие исследователи, особенно начинающие, не обладают целостным видением своей области науки. Описанный в этой статье инструмент резюмирует содержимое базы научных статей и призван ускорить работу с литературой.

Читать дальше →

+64

Skolopendriy 15 янв 2018 в 14:00

Парсим мемы в питоне: как обойти серверную блокировку

26 мин

101K

Блог компании Open Data SciencePython*Программирование*Data Mining*Открытые данные*

Туториал

Новогодние праздники — прекрасный повод попрокрастинировать в уютной домашней обстановке и вспомнить дорогие сердцу мемы из 2k17, уходящие навсегда, как совесть Electronic Arts.

Однако даже обильно сдобренная салатами совесть иногда просыпалась и требовала хоть немного взять себя в руки и заняться полезной деятельностью. Поэтому мы совместили приятное с полезным и на примере любимых мемов посмотрели, как можно спарсить себе небольшую базу
данных, попутно обходя всевозможные блокировки, ловушки и ограничения, расставленные сервером на нашем пути. Всех заинтересованных любезно приглашаем под кат.

Читать дальше →

+64

dimview 30 авг 2013 в 17:35

Бутстрап, или прикладная статистика почти без формул

4 мин

83K

Data Mining*Алгоритмы*Математика*

Из песочницы

В институтах студентов учат интегрировать аналитически, а потом обнаруживается, что на практике интегралы почти все считают численными методами. Ну или по крайней мере проверяют таким образом аналитическое решение.

В статистике тоже есть нечестный метод, который позволяет получить примерный ответ на многие практические вопросы без анализа, грубой компьютерной силой: бутстрап (англ. bootstrap). Придумал и опубликовал его в 1979 году Брэдли Эфрон.

Простой пример

+64

kruegger 11 апр 2019 в 14:03

Профессиональная деформация дата саентистов

14 мин

36K

Блог компании Open Data ScienceData Mining*Карьера в IT-индустрииНаучно-популярноеМозг

“Если в ваших руках молоток, все вокруг кажется гвоздями”

Как практикующие дата саентисты мы занимаемся анализом данных, их сбором, очисткой, обогащением, строим и обучаем модели окружающего мира, основываясь на данных, находим внутренние взаимосвязи и противоречия между данными, порою даже там, где их нет. Безусловно такое погружение не могло не сказаться на нашем видении и понимании мира. Профессиональная деформация присутствует в нашей профессии точно также, как и в любой другой, но что именно она нам приносит и как влияет на нашу жизнь?

Давайте посмотрим.

+63

dmitrybugaychenko 1 фев 2019 в 16:10

Краткая история одной «умной ленты»

4 мин

6.6K

Блог компании VKБлог компании ОКData Mining*Big Data*Машинное обучение*

Социальные сети — это один из наиболее востребованных на сегодняшний день интернет-продуктов и один из основных источников данных для анализа. Внутри же самих социальных сетей самой сложной и интересной задачей в сфере data science по праву считается формирование ленты новостей. Ведь для удовлетворения всё возрастающих требований пользователя к качеству и релевантности контента необходимо научиться собирать информацию из многих источников, вычислять прогноз реакции пользователя и балансировать между десятками конкурирующих метрик в А/Б-тесте. А большие объемы данных, высокие нагрузки и жесткие требования к скорости ответа делают задачу ещё интереснее.

Читать дальше →

+63

iggisv9t 19 фев 2018 в 14:18

Визуализация данных для киноманов: скрапим рекомендации фильмов и делаем интерактивный граф

11 мин

29K

Блог компании Open Data SciencePython*Data Mining*Визуализация данных*Машинное обучение*

Туториал

Однажды я наткнулся на интерактивную карту lastfm и решил обязательно сделать подобный проект для фильмов. Под катом история о том, как собрать данные, построить граф и создать своё интерактивное демо на примере данных с кинопоиска и imdb. Мы рассмотрим фреймворк для скрапинга Scrapy, пробежимся по методам визуализации больших графов и разберёмся с инструментами для интерактивного отображения больших графов в браузере.

Читать дальше →

+63

khud 25 авг 2017 в 14:42

Data Science: Про любовь, имена и не только

13 мин

29K

Блог компании ОКData Mining*Big Data*Машинное обучение*

Из песочницы

Что значит имя? Роза пахнет розой,
Хоть розой назови ее, хоть нет.

• Шекспир "Ромео и Джульетта" (пер. Пастернака)

Ромео и Джульетта

Данная статья не может служить поводом для выражения нетолерантности или дискриминации по какому-либо признаку.

В этой статье я расскажу о том, что несмотря на то, каким бы странным это не казалось для образованного человека, вероятность быть одинокой/одиноким зависит от имени. То есть, по сути, мы поговорим про любовь и отношения.

Это примерно все равно, что сказать: вероятность быть сбитым машиной, если тебя зовут Сережа, выше, чем если бы тебя звали Костя! Звучит довольно дико, не правда ли? Ну, как минимум, ненаучно. Однако социальные сети сделали возможным сравнительно просто проверить приведенное выше утверждение.

Подробно мы рассмотрим только девушек, а про мужчин поговорим в самом конце. Более того, я не ставлю своей целью установить причину происходящего или даже выдвинуть какую-то сколько угодно серьезную гипотезу, а хочу лишь рассказать о своих наблюдениях и фактах, которые можно измерить.

Читать дальше →

+63

Syurmakov 19 мая 2019 в 19:23

Подборка датасетов для машинного обучения

6 мин

143K

Python*Data Mining*Машинное обучение*Искусственный интеллект

Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.

Читать дальше →

+62

natekin 18 мая 2017 в 13:49

Открытый курс машинного обучения. Тема 10. Градиентный бустинг

18 мин

293K

Блог компании Open Data ScienceData Mining*Алгоритмы*Математика*Машинное обучение*

Всем привет! Настало время пополнить наш с вами алгоритмический арсенал.

Сегодня мы основательно разберем один из наиболее популярных и применяемых на практике алгоритмов машинного обучения — градиентный бустинг. О том, откуда у бустинга растут корни и что на самом деле творится под капотом алгоритма — в нашем красочном путешествии в мир бустинга под катом.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →

+62

UtrobinMV 22 сен 2022 в 12:21

Как создать переводчик, который переводит лучше, чем Google Translate

8 мин

27K

Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*Data Engineering*

Туториал

Cезон Data Mining

Помню, как еще в школе на Basic я писал программу-переводчик. И это было то время, когда ты сам составлял словарь, зашивал перевод каждого слова, а затем разбивал строки на слова и переводил каждое слово в отдельности. В то время я, конечно же, не мог и представить, как сильно продвинутся технологии, и программы-переводчики станут в основе использовать механизмы глубокого обучения с архитектурой трансформера и блоками внимания.

В этот раз я решил окунуться немного в прошлое и сделать то, что хорошо сделать тогда у меня не получилось.

+61

Kircore 10 авг 2020 в 06:12

Анализ данных из последнего слива Intel

48 мин

36K

Информационная безопасность*Data Mining*Производство и разработка электроники*

Я порылся в 20 гигабайтах слитых данных с незащищённого CDN интела в поисках интересного и оценки серьёзности этой утечки.

КДПВ. Прототип ноутбука на Tiger Lake.

Краткое резюме

Большая часть слитой информации предназначена для OEM/ODM разработчиков и производителей, но заинтересует энтузиастов, исследующих BIOS и недокументированные режимы работы процессоров Intel. В них нет внутренней интеловской документации, критичной к обнародованию, или способной раскрыть секретные разработки. Также здесь не найти информации о неизвестных ранее уязвимостях.

Читать дальше →

+61

yorko 29 мар 2018 в 14:50

О машинном обучении, истории и жизни с Дмитрием Ветровым

22 мин

24K

Блог компании Open Data ScienceData Mining*Машинное обучение*

В рамках открытого курса по машинному обучению мы продолжаем общаться с заметными представителями этой области. Нашими первыми собеседниками были Александр Дьяконов, Константин Воронцов и Евгений Соколов, см. видео в YouTube-канале курса. В этот раз мы пообщались с Дмитрием Ветровым.

Читать дальше →

+61

alatobol 7 мар 2018 в 00:09

Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

11 мин

43K

Блог компании ОКData Mining*Обработка изображений*Big Data*Машинное обучение*

Распознаванием лиц в 2018 году никого не удивишь – каждый студент, может, даже школьник, его делал. Но всё становится немного сложнее, когда у вас не датасет на 1 млн пользователей, а:

330 миллионов пользовательских аккаунтов;
ежедневно заливается 20 млн пользовательских фотографий;
максимальное время на обработку одного фото не должно превышать 0.2 сек;
ограниченные объемы оборудования для решения задачи.

В этой статье мы поделимся опытом разработки и запуска системы распознавания лиц на пользовательских фотографиях в социальной сети Одноклассники и расскажем про все ”от А до Я”:

математический аппарат;
техническую реализацию;
результаты запуска;
и акцию StarFace, которую мы использовали для PR-а нашего решения.

Распознавание лиц Одноклассников в деталях

+61

madrugado 26 янв 2018 в 13:58

Главные достижения в области обработки естественного языка в 2017 году

10 мин

20K

Блог компании Московский физико-технический институт (МФТИ)Блог компании Open Data ScienceData Mining*Математика*Машинное обучение*

Перевод

Всем привет. Сразу поделим аудиторию на две части — тех, кто любит смотреть видео, и тех, кто, как я, лучше воспринимает тексты. Чтобы не томить первых, запись моего выступления на Дата-Ёлке:

Там есть все основные моменты, но формат выступления не предполагает подробного рассмотрения статей. Любители ссылок и подробных разборов, добро пожаловать под кат.

Читать дальше →

+61

KGolubev 23 ноя 2017 в 10:04

Диагностика промышленных электродвигателей и генераторов по спектру потребляемого тока и предотвращение аварий

9 мин

41K

Блог компании КРОКIT-инфраструктура*Data Mining*

Анализатор спектра тока

Представьте себе ТЭЦ с турбинами, скажем, 50–60-х годов выпуска. Это примерно половина мощностей нашей страны. Там есть огромные насосы с электродвигателями и такие же огромные генераторы, которые тоже суть электродвигатели, только «перевёрнутые». У них нет встроенной телеметрии, и диагностируются они методами последовательных обходов. Это было нормальным на конец 70-х, но не сегодня.

На ТЭЦ, на крупных буровых, на насосных станциях и во множестве других мест, где отказ электродвигателя или генератора обходится очень дорого, как правило, есть специальные люди, которые имеют огромный опыт обслуживания конкретно этого экземпляра оборудования. Например, там может быть дедушка, который по звуку запуска определяет состояние движка. Или мужик-нос, который умеет обнюхивать насос так, что чувствует даже малейшие утечки масла.

Современная диагностика делается немного иначе — в основном по вибродатчикам. Проблема вибродатчиков в том, что их нужно поставить на железку, а железка на той же буровой или подлодке не очень-то доступна. Поэтому мы очень живо исследовали тему изучения снятия данных с движка путём снятия информации с питающего контура. Электромагнитное поле передаёт куда больше информации, которую раньше считали шумом. Теперь его можно анализировать.

Читать дальше →

+61

1 2 3 4 5

7 8 ...

91 92

Data Mining *

Применение машинного обучения и Data Science в промышленности

Data Science проект от исследования до внедрения на примере Говорящей шляпы

Коэффициент Джини. Из экономики в машинное обучение

Facebook подтвердила предположение о шести рукопожатиях

Истории

Сценарии заражения в конкретных городах на основе датасета передвижения людей по России

На переднем крае науки: анализ статей arxiv.org

Парсим мемы в питоне: как обойти серверную блокировку

Бутстрап, или прикладная статистика почти без формул

Профессиональная деформация дата саентистов

Краткая история одной «умной ленты»

Визуализация данных для киноманов: скрапим рекомендации фильмов и делаем интерактивный граф

Data Science: Про любовь, имена и не только

Подборка датасетов для машинного обучения

Подборка датасетов для машинного обучения:

Ближайшие события

Открытый курс машинного обучения. Тема 10. Градиентный бустинг

Как создать переводчик, который переводит лучше, чем Google Translate

Анализ данных из последнего слива Intel

Краткое резюме

О машинном обучении, истории и жизни с Дмитрием Ветровым

Щи, или Распознавание 330 млн лиц на скорости 400 фото / сек

Главные достижения в области обработки естественного языка в 2017 году

Диагностика промышленных электродвигателей и генераторов по спектру потребляемого тока и предотвращение аварий

Вклад авторов

Работа