Data Mining *

Глубинный анализ данных

a-pichugin 7 мая 2018 в 07:10

Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско

9 мин

13K

Блог компании New Professions LabBig Data * Data Mining * Python * Машинное обучение *

Во время своей недавней поездки в Сан-Франциско я встретился с выпускниками нашей программы «Специалист по большим данным», эмигрировавшими в США — Евгением Шапиро (Airbnb) и Игорем Любимовым (ToyUp), а также с Артемом Родичевым (Replika), нашим партнером. Ребята рассказали массу интересных вещей: зачем Airbnb выкладывает свои проекты в open-source; как устроена Replika — нейросетевой чат-бот, способный стать твоим другом; про миссию стартапов Кремниевой Долины и предпринимательскую экосистему.

Читать дальше →

+27

astromid 6 мая 2018 в 19:29

SmartMailHack. Решение 1-го места в задаче классификации логотипов

7 мин

6.7K

Data Mining * Python * Машинное обучение *

Из песочницы

Две недели назад закончился проходивший в офисе Mail.Ru Group хакатон для студентов SmartMailHack. На хакатоне предлагался выбор из трех задач; статья от победителей во второй задаче уже есть на хабре, я же хочу описать решение нашей команды, победившей в первой задаче. Все примеры кода будут на Python & Keras (популярный фреймворк для deep learning).

Читать дальше →

+40

Mahpella 26 апр 2018 в 14:33

SmartMailHack. История победителей в задаче Name Entity Recognition

7 мин

6.9K

Блог компании VKМашинное обучение * Python * Data Mining *

Из песочницы

На прошедших выходных (20-22 апреля) в офисе Mail.ru Group прошел студенческий хакатон по машинному обучению. Хакатон объединил студентов разных ВУЗов, разных курсов и, что самое любопытное, разных направлений: от программистов до безопасников.

От Почты Mail.ru было предоставлено три задачи:

Распознавание и классификация логотипов компаний. Эта задача полезна в антиспаме для определения фишинговых писем.
Определение по тексту письма, какие из его частей относятся к определенным категориям. Задача распознавания именованных сущностей (Named Entity Recognition, NER)
Реализация последней задачи не регламентировалась. Необходимо было придумать и сделать прототип новой полезной функции для Почты. Критериями оценки являлись полезность, качество реализации, применение ML и хайповость фичи.

Читать дальше →

+34

MarkVice 25 апр 2018 в 12:44

Блокировки Роскомнадзора в деле Telegram дошли до майнинг-пулов

1 мин

36K

Data Mining * IT-инфраструктура * Криптография *

О ситуации с Telegram наслышаны почти все жители России. Из-за «войны» Роскомнадзора и Telegram страдают и многие другие сервисы, которые все мы в какой-то степени привыкли использовать. Репрессии добрались даже до таких гигантов, как Google и Amazon: проблемы в работе этих ресурсов наблюдаются в десятках различных городов нашей страны и по сей день.

Однако, специалисты надзорного ведомства теперь пошли еще дальше и заблокировали IP-адреса некоторых майнинговых пулов. Речь идет об IP-адресах таких крупнейших платформ, как ViaBTC, Antpool, BTC.com и Bitcoin.com. Все эти адреса оказались недоступны на территории РФ. В специальном документе Генпрокуратуры говорится о том, что Роскомнадзор вправе ограничить доступ к любому IP-адресу, если на сайте усматриваются призывы к массовым беспорядкам и «прочая экстремистская информация».

Читать дальше →

+15

mkot 24 апр 2018 в 01:42

10000 лайков

3 мин

22K

Data Mining * Машинное обучение *

В самом начале января coin и я бродили по холодным и дождливым улицам Лондона и говорили о технологиях, жизни и чём-то ещё. Я время от времени делал фотографии на свой старый Canon EOS 400D, и в какой-то момент мой друг сказал: “Вот ты фотографируешь, фотографируешь, а твои фотографии никто не лайкает”. Я не нашёл что ответить, но вернувшись домой, создал аккаунт в одной из соцсетей, где можно постить и лайкать фотографии, и составил план: за 100 дней набрать 10000 фолловеров и к концу этого срока получать 500 лайков за пост. После этого отобрал пару сотен интересных фотографий и запостил первую. И её лайкнуло только несколько человек. Этого было мало, нужно было придумать какой-то метод.

Читать дальше →

+45

snakers4 22 апр 2018 в 14:55

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

7 мин

8.6K

Обработка изображений * Машинное обучение * Python * Data Mining *

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

Представляем вам перевод статьи по ссылке и оригинальный докеризированный код. Данное решение позволяет попасть примерно в топ-100 на приватном лидерборде на втором этапе конкурса среди общего числа участников в районе нескольких тысяч, используя только одну модель на одном фолде без ансамблей и без дополнительного пост-процессинга. С учетом нестабильности целевой метрики на соревновании, я полагаю, что добавление нескольких описанных ниже фишек в принципе может также сильно улучшить и этот результат, если вы захотите использовать подобное решение для своих задач.

описание пайплайна решения

Читать дальше →

+27

apostteriori 19 апр 2018 в 14:19

Data Fest 2018: анонс и регистрация

4 мин

6.3K

Блог компании VKМашинное обучение * Визуализация данных * Data Mining * Big Data *

Друзья, приглашаем вас на пятый московский Data Fest, который состоится 28 апреля на территории дизайн-завода FLACON. Data Fest — крупнейшая бесплатная конференция для исследователей, инженеров и разработчиков, связанных с машинным обучением, анализом и обработкой данных, а также тем, что пресса любит называть AI.

Вы узнаете про AI в продуктах Mail.Ru Group и «умные» ответы в Почте Mail.Ru, как работают рекомендации и компьютерное зрение во ВКонтакте и Одноклассниках, а также машинный перевод в Alibaba и что такое Quantum Machine Learning, а также многое-многое другое!

Подробности и программа конференции

+51

onetruecolor 19 апр 2018 в 08:04

Персонализируй это. Отчёт с Avito Data Science Meetup: Personalization

2 мин

Блог компании AvitoTechData Mining * Визуализация данных * Машинное обучение * Программирование *

Всем привет! Публикуем отчёт с митапа Avito Data Science Meetup: Personalization, который проходил у нас в офисе. Участники обсуждали моделирование пользовательских предпочтений в мультимодальных данных и кластеризацию волатильных объявлений с помощью EM-алгоритма. Под катом — видеозаписи, презентации, ссылка на фотоотчёт.

+23

madrugado 10 апр 2018 в 11:00

Применение сверточных нейронных сетей для задач NLP

9 мин

66K

Блог компании Open Data ScienceМашинное обучение * Python * Natural Language Processing * Data Mining *

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети

Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

Источник

Читать дальше →

+67

modos189 30 мар 2018 в 11:54

Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне

5 мин

50K

Открытые данные * Data Mining * Big Data *

logo

Особенностью российских президентских выборов 2018 года стало то, что главным показателем теперь стал не процент за основного кандидата, а величина явки. Другим важным показателем стало рекордно высокое количество наблюдателей по всей стране. Наблюдатели были отправлены, в том числе в республики Северного Кавказа, где традиционно результаты попросту рисовались.

Президентские выборы, даже без учёта масштабной кампании по повышению явки с помощью конкурсов, местных референдумов, и административного давления, привлекают значительно больше внимания, чем парламентские выборы. Однако, проведя анализ результатов, можно продолжать замечать аномалии в результатах, хоть уже и менее выраженными на федеральном уровне.

Я провел анализ результатов как на федеральном, так и (что интереснее) региональных уровнях, а также расскажу о том, как создавал сервис для анализа выборов.

Читать дальше →

+95

758

yorko 29 мар 2018 в 11:50

О машинном обучении, истории и жизни с Дмитрием Ветровым

22 мин

24K

Блог компании Open Data ScienceData Mining * Машинное обучение *

В рамках открытого курса по машинному обучению мы продолжаем общаться с заметными представителями этой области. Нашими первыми собеседниками были Александр Дьяконов, Константин Воронцов и Евгений Соколов, см. видео в YouTube-канале курса. В этот раз мы пообщались с Дмитрием Ветровым.

Читать дальше →

+61

p0b0rchy 27 мар 2018 в 06:49

Пойди туда, не знаю куда: по следам конференции SmartData

7 мин

3.1K

Блог компании JUG Ru GroupМатематика * Алгоритмы * Data Mining * Big Data *

Конференций, связанных с AI / ML / data science в последнее время и у нас стало довольно много. Организаторы до сих пор ищут форматы, концепции конференций меняются, но состав спикеров повторяется процентов на 50.

Задача поиска формата стояла и перед программным комитетом SmartData. Задача эта довольно размытая. Кто тот человек, который занимается анализом и / или обработкой данных, что ему интересно? От участников конференции мы получили частичные ответы на эти вопросы, но данных хочется больше. В связи с этим хочу поделиться тем представлением об идеальном мире, которое сложилось на данный момент, и пригласить читателей к дискуссии в комментариях. Помогите сделать такую конференцию, на которую вам потом самим захочется сходить.

Кроме вопросов о ваших интересах и задачах, за кликом вас ждут две ранее не публиковавшиеся видеозаписи выступлений с первой конференции, технический приём написания текстов на Хабр и один забавный факт о беспилотных автомобилях.

И кое-что ещё

+26

Trevil 22 мар 2018 в 11:02

ComputerVision и с чем его едят

7 мин

12K

Блог компании FUNCORPОбработка изображений * Машинное обучение * Алгоритмы * Data Mining *

С развитием компьютерных мощностей и появлением множества технологий обработки изображений всё чаще стал возникать вопрос: а можно ли научить машину видеть и распознавать образы? Например, отличать кошку от собаки или даже бладхаунда от бассета? О точности распознавания говорить не приходится: наш мозг несравнимо быстрее может понять, что перед нами, при условии, что раньше мы получили достаточно сведений об объекте. Т.е. даже видя только часть собаки, мы можем с уверенностью сказать, что это собака. А если ты — собаковод, то легко определишь и породу собаки. Но как научить машину различать их? Какие существуют алгоритмы? А можно ли обмануть машину? (Спойлер: конечно можно! Точно так же, как и наш мозг.) Попробуем осмыслить все эти вопросы и по возможности ответить на них. Итак, приступим.

Читать дальше →

+24

Danov 21 мар 2018 в 12:22

Встречаем Windows Machine Learning — WinML

7 мин

15K

Проектирование API * Data Mining * Дизайн игр * Машинное обучение * Windows *

Искусственный интеллект и машинное обучение — две хайповые тенденции последних лет. Необходимые для AI&ML объемы вычислений обычно выполняются в ЦОДах на специальном высокопроизводительном и энергоэффективном оборудовании (например, серверах с TPU). Эволюция циклична, и маятник качнулся обратно, в сторону вычислений на периферийных устройствах, таких как ПК, планшеты и IoT. В частности, это приведет к повышению скорости реакции устройств на голосовые команды и повысит комфортность общения с персональными ассистентами.

WinML — это новый набор API-интерфейсов, который позволит разработчикам использовать все возможности любого устройства Windows 10 для вычислений предварительно обученных моделей машинного обучения и загруженных в приложение в формате Open Neural Network Exchange (ONNX).

+10

a-pichugin 20 мар 2018 в 10:23

Обзор первого дня Data Science Weekend 2018. Практика машинного обучения, новый подход к соревнованиям и многое другое

10 мин

Блог компании New Professions LabBig Data * Data Mining * Python * Машинное обучение *

Привет, Хабр! 2-3 марта на Мансарде наших партнёров, компании Rambler&Co, прошел уже традиционный Data Science Weekend, на котором было множество выступлений специалистов в области работы с данными. В рамках этой статьи расскажем вам о самых интересных моментах первого дня нашей конференции, когда все внимание было уделено практике использования алгоритмов машинного обучения, управлению коллективами и проведению соревнований в области Data Science.

Читать дальше →

+17

ffriend 19 мар 2018 в 09:42

Про вероятности

11 мин

45K

Data Mining *

Туториал

(source)

Иногда мне приходится рассказывать другим людям как работает машинное обучение и, в частности, нейронные сети. Обычно я начинаю с градиентного спуска и линейной регрессии, постепенно переходя к многослойным перцептронам, автокодировщикам и свёрточным сетям. Все понимающе кивают головой, но в какой-то момент кто-нибудь прозорливый обязательно спрашивает:

А почему так важно, чтобы переменные в линейной регрессии были независимы?

или

А почему для изображений используются именно свёрточные сети, а не обычные полносвязные?

"О, это просто", — хочу ответить я. — "потому что если бы переменные были зависимыми, то нам пришлось бы моделировать условное распределение вероятностей между ними" или "потому что в небольшой локальной области гораздо проще выучить совместное распределение пикселей". Но вот проблема: мои слушатели ещё ничего не знают про распределения вероятностей и случайные переменные, поэтому приходится выкручиваться другими способами, объясняя сложнее, но с меньшим количеством понятий и терминов. А что делать, если попросят рассказать про батч нормализацию или генеративные модели, так вообще ума не приложу.

Так давайте не будем мучить себя и других и просто вспомним основные понятия теории вероятностей.

Читать дальше →

+29

temujin 16 мар 2018 в 14:55

R — значит регрессия

8 мин

83K

Data Mining * Open source * R * Математика *

Туториал

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин — Машинного Обучения и Больших Данных. Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии. Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале — уметь отличить сигнал от шума.

Регрессия

Для этой цели мы будем использовать язык программирования и среду разработки R, который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Читать дальше →

+15

alexanderkuk 14 мар 2018 в 13:12

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

12 мин

90K

Data Mining * Natural Language Processing * Python * Искусственный интеллектМашинное обучение *

В 2020 году библиотека Natasha значительно обновилась, на Хабре опубликована статья про актуальную версию. Чтобы использовать инструменты, описанные в этом тексте, установите старую версию библиотеки pip install natasha<1 yargy<0.13.

Раздел про Yargy-парсер актуален и сейчас.

Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:

Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.

Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Python. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.

Год назад Дима Веселов начал проект Natasha. С тех пор код был значительно доработан. Natasha была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.

Natasha — это аналог Томита-парсера для Python (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.

В статье показано, как использовать готовые правила из Natasha и, самое главное, как добавлять свои с помощью Yargy-парсера.

Читать дальше →

+85

AGrin 13 мар 2018 в 10:06

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

15 мин

14K

Машинное обучение * Python * Data Mining * Big Data *

Туториал

Из песочницы

Сейчас анализ данных все шире используется в самых разных, зачастую далеких от ИТ, областях и задачи, стоящие перед специалистом на ранних этапах проекта радикально отличаются от тех, с которыми сталкиваются крупные компании с развитыми отделами аналитики. В этой статье я расскажу о том, как быстро сделать полезный прототип и подготовить простой API для его использования прикладным программистом.

Для примера рассмотрим задачу предсказания цены на трубы размещенную на платформе для соревнований Kaggle. Описание и данные можно найти здесь. На самом деле на практике очень часто встречаются задачи в которых надо быстро сделать прототип имея очень небольшое количество данных, а то и вообще не имея реальных данных до момента первого внедрения. В этих случаях приходится подходить к задаче творчески, начинать с несложных эвристик и ценить каждый запрос или размеченный объект. Но в нашей модельной ситуации таких проблем, к счастью, нет и поэтому мы можем сразу начать с обзора данных, определения задачи и попыток применения алгоритмов.

Читать дальше →

+11

daocrawler 12 мар 2018 в 23:22

Предвыборная гонка глазами поисковых роботов

2 мин

12K

Big Data * Data Mining * Исследования и прогнозы в IT *

Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.

Читать дальше →

+18

1 2 ...

27 28

30 31 ...

61 62

Data Mining *

Стартапы, чат-боты, Кремниевая долина. Интервью с российскими разработчиками в Сан-Франциско

SmartMailHack. Решение 1-го места в задаче классификации логотипов

SmartMailHack. История победителей в задаче Name Entity Recognition

Блокировки Роскомнадзора в деле Telegram дошли до майнинг-пулов

10000 лайков

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

Применяем Deep Watershed Transform в соревновании Kaggle Data Science Bowl 2018

Data Fest 2018: анонс и регистрация

Персонализируй это. Отчёт с Avito Data Science Meetup: Personalization

Применение сверточных нейронных сетей для задач NLP

Сверточные нейронные сети

Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне

О машинном обучении, истории и жизни с Дмитрием Ветровым

Пойди туда, не знаю куда: по следам конференции SmartData

ComputerVision и с чем его едят

Ближайшие события

Встречаем Windows Machine Learning — WinML

Обзор первого дня Data Science Weekend 2018. Практика машинного обучения, новый подход к соревнованиям и многое другое

Про вероятности

R — значит регрессия

Yargy-парсер и библиотека Natasha. Извлечения структурированной информации из текстов на русском языке

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

Предвыборная гонка глазами поисковых роботов

Вклад авторов