Data Mining *

Глубинный анализ данных

Статьи Посты Новости Авторы Компании

ohld 22 сен 2021 в 13:40

Как спарсить любой сайт?

6 мин

184K

JavaScript*Data Mining*Big Data*Открытые данные*Тестирование веб-сервисов*

Туториал

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность и масштабируемость.

Узнать как

+60

fafnir999 17 сен 2021 в 13:28

Как определить самый авторитетный фильм всех времен и народов

31 мин

5.7K

Python*Data Mining*

Из песочницы

Какое произведение киноискусства оставило самый большой отпечаток в современной поп культуре? Предлагаю подумать над этим вопросом некоторое время. Может быть это Апокалипсис сегодня? Или Крестный отец? А вдруг главный фильм всех времен и народов это шедевр отечественного кинематографа - фильм Викинг?

К счастью, это можно посчитать.

+21

ITSumma 17 сен 2021 в 12:17

Какой софт использует ЦРУ и АНБ для дата-майнинга

6 мин

16K

Блог компании ITSummaПоисковые технологии*Data Mining*Big Data*Киберпанк

После утечки данных от Сноудена стало понятно, что АНБ собирает данные на всех граждан до совершения преступлений, а не на конкретных подозреваемых после преступления.

Аналогичную практику сбора разведданных на всех граждан до совершения преступления начали практиковать и в других странах, в том числе России. Речь идёт о длительном хранении интернет-трафика, сведений о перемещении, звонков, записей видеонаблюдения и т.д. Это очень удобно, ведь в случае необходимости найдутся улики практически на любого человека.

Разумеется, для быстрого поиска в таком огромном массиве данных требуется специальный софт.

Читать дальше →

+31

fotol 2 сен 2021 в 15:16

Как мы в SIGIR-соревновании участвовали

10 мин

2.5K

Блог компании TINKOFFData Mining*Алгоритмы*Big Data*Машинное обучение*

Летом этого года на конференции SIGIR проводился Workshop On eCommerce, посвященный прогнозам намерений и рекомендаций. По традиции к воркшопу приурочили небольшое соревнование, посвященное использованию последних наработок в области RecSys. Мы в Tinkoff.AI решили немного развеяться и поучаствовать.

Если вам интересно, как решали поставленные задачи мы и другие участники, добро пожаловать под кат.

+16

Dina_Simkina 23 авг 2021 в 09:38

Аналитики данных в Авито: ожидания и спектр задач

10 мин

18K

Блог компании AvitoTechData Mining*Визуализация данных*Карьера в IT-индустрии

Привет, я Дина Симкина, директор по аналитике Авито. Я отвечаю за то, чтобы аналитика помогала бизнесу принимать правильные решения. В статье я расскажу, кого мы в компании называем аналитиками данных и чего от них ждём в зависимости от профессионального уровня.

+19

rawoak 12 авг 2021 в 10:00

Парсинг Instagram в промышленных масштабах

28 мин

36K

Python*Data Mining*NoSQL*Администрирование баз данных*Облачные сервисы*

В декабре 2020 года, завершив работать в научном институте, я увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.

С тех пор прошло уже больше полугода, за которые я набил всевозможные шишки в данной области и написал промышленный парсер, который способен делать сотни тысяч, если не миллионы запросов в сутки.

В рамках данной статьи я хочу рассказать про путь развития своего Pet-Project в потенциально мощный и серьёзный инструмент. Впереди вас ждёт увлекательное путешествие от хранения данных в простых Json-ах на жестком диске сервера, до облачной базы данных и автоматической инициализации cron расписания запуска процессов внутри докер контейнера, поехали!

Поехали!

+13

Da7n 8 авг 2021 в 17:54

Автоматически генерируем стикеры для Телеграма из фото плакатов в интернет-магазине

4 мин

5.3K

Python*Типографика*КодобредData Mining*Алгоритмы*

Всем привет!

В этой статье я расскажу, как я автоматически генерировал 42 стикера для Телеграма на основе изображений из интернет-магазина плакатов. На сайте продаются плакаты с разными забавными надписями, но соответствующих стикеров в Телеграме нет. Попробуем сделать сами. Единственная проблема состоит в следующем: чтобы сделать один стикер, нужно скачать фотографию плаката с сайта, отделить надпись от фона в фотошопе и сохранить в нужном разрешении, чтобы она соответствовала требованиям телеграма к стикерам. Поскольку изображений 42, это муторное и трудоемкое занятие.

Давайте автоматизируем

+11

Igor_Za 30 июл 2021 в 10:12

Зачем роботам делать выбор за вас

11 мин

Блог компании СберАнализ и проектирование систем*Data Mining*Управление проектами*

Как только мы слышим про массовую персонализацию, мы сразу представляем себе тонну рекламы, которая нам не нужна. На самом деле, это история про то, как алгоритмы уронили цену для персонализации продукта. Раньше вы могли себе позволить персонального менеджера, персональные договоры и условия только для очень крупных клиентов. Сейчас это можно предложить каждому.

У вас в почте лежит бронь на отель, а в календаре деловые встречи? Вот координаты ближайших удобных мест с бизнес-ланчами, где можно провести встречи. И скидка. Железяка по нескольким метрикам вычислит деловую цель поездки и не будет предлагать вам конные прогулки вместе с билетами в кино. В идеальном варианте робот отберёт у вас выбор, но вам это понравится. Приложение вовремя подсунет кнопку для вызова такси и за день до встречи предложит услуги экспресс-глажки костюма в ближайшей химчистке. Система адаптируется к вашим паттернам и предлагает вам именно то, что лучше укладывается в ваш поведенческий профиль. Например, провести платёж по ипотеке в нужную дату с напоминанием или при снятии денег в банкомате предложить вам ровно сумму на две пинты Гиннесса, которые вы берёте в баре каждую пятницу.

+11

grumpysugar 21 июл 2021 в 11:26

Как ФБК* сами слили все данные оппозиции в открытый доступ

5 мин

121K

Информационная безопасность*Data Mining*DevOps*

Из песочницы

Привет! Здесь я хочу указать на возможную причину, почему были слиты данные зарегистрировавшихся в УГ и предупредить, что ФБК* на несколько недель в июне была открыта, как эта калитка в меме.

+187

460

empenoso 15 июн 2021 в 04:43

Гугл финанс перестал транслировать данные российских акций — что делать? (UPD: починили)

4 мин

59K

Программирование*Data Mining*API*Google API*Финансы в IT

Туториал

С 5 июня 2021 года сайт гугла, и самое главное гугл таблицы - перестали отдавать данные с Московской биржи.

При попытке получить любые котировки с префиксом MCX, например для Сбербанка, формулой из гугл таблиц =GOOGLEFINANCE("MCX:SBER") теперь всегда возвращается результат #N/A.

А при поиске любой российской бумаги на сайте Google находятся любые рынки, кроме Московской биржи.

В этой статье я рассказываю как получать в гугл таблицу биржевые данные с помощью API Московской биржи.

Google Finance давай, до свидания!

+21

cointegrated 10 июн 2021 в 02:16

Маленький и быстрый BERT для русского языка

9 мин

54K

Семантика*Программирование*Data Mining*Машинное обучение*Natural Language Processing*

Технотекст 2021

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной прикладной задаче, например, классификации комментариев или выделении в тексте имён, названий и адресов. Стандартная версия BERT довольно толстая: весит больше 600 мегабайт, обрабатывает предложение около 120 миллисекунд (на CPU). В этом посте я предлагаю уменьшенную версию BERT для русского языка – 45 мегабайт, 6 миллисекунд на предложение. Она была получена в результате дистилляции нескольких больших моделей. Уже есть tinybert для английского от Хуавея, есть моя уменьшалка FastText'а, а вот маленький (англо-)русский BERT, кажется, появился впервые. Но насколько он хорош?

+57

fartuk 3 июн 2021 в 10:25

Создание и балансировка инвестиционного портфеля с помощью ML

12 мин

23K

Блог компании Open Data ScienceData Mining*Машинное обучение*Искусственный интеллектФинансы в IT

В прошлой статье я писал про свои ML-модели для оценки отдельных компаний, но вопрос формирования итогового портфеля совсем не затрагивал. В этом посте хочу рассказать о том, как я собираю свой личный портфель, а так же поделиться сайтом, на котором реализую весь описанный в статье функционал http://stocks.ml. Дисклеймер: у автора нет экономического образования и все выводы и суждения в статье делаются на основе житейского опыта и здравого смысла.

+19

miwgan 28 мая 2021 в 13:10

Все что вы (не) хотели знать о Data Science

10 мин

66K

Блог компании СитимобилData Mining*Big Data*Машинное обучение*Карьера в IT-индустрии

Всем привет! Меня зовут Михаил Дьячков, и в Ситимобил я занимаюсь анализом данных и машинным обучением. Сегодня я хочу поговорить о Data Science: что же это вообще такое в глазах кандидатов, работодателей и экспертов; о несовпадении ожиданий, грейдах и собеседованиях, а также о том, какие задачи решают дата саентисты в Ситимобил.

Вжуууух

+18

i_shutov 29 апр 2021 в 17:19

R и работа со временем. Что за кулисами?

15 мин

4.2K

Программирование*Data Mining*Big Data*R*

Даты и время являются весьма непростыми объектами:

месяцы содержат различное число дней;
года бывают високосными и нет;
существуют различные временнЫе зоны;
часы, минуты, дни используют различные системы счисления;
и многие другие нюансы.

Далее тезисно приведены отдельные моменты, которые редко высвечиваются в документации, а также трюки, которые позволяют писать быстрый и контролируемый код.

Совсем краткое резюме для смартфоночиталей: на больших объемах данных используем только POSIXct с дробными долями секунд. Будет хорошо, понятно, быстро.

Является продолжением серии предыдущих публикаций.

Читать дальше →

+10

DanilSmith 27 апр 2021 в 14:02

Рассказываем про библиотеку для Process Mining: теперь SberPM в открытом доступе

5 мин

14K

Блог компании СберАнализ и проектирование систем*Data Mining*Управление проектами*

Process Mining – это подход к извлечению, анализу и оптимизации процессов на основе данных из так называемых журналов событий (event logs), доступных в корпоративных ИТ-системах. Являясь своеобразным мостиком между Data Mining и Process Management, он выводит исследование бизнес-процессов на принципиально новый уровень. Подробнее о том, чем полезен такой подход и как мы его применяем вот здесь .

В конце 2020 года в открытый доступ вышла разработанная Сбером python-библиотека SberPM – первая в России мультифункциональная библиотека для интеллектуального анализа процессов и клиентских путей. Ниже про то, как она устроена и как ей пользоваться.

Читать дальше →

+24

ezamyatin 13 апр 2021 в 13:37

Рекомендации друзей ВКонтакте: ML на эго-графах

7 мин

26K

Блог компании VKData Mining*Алгоритмы*Big Data*Машинное обучение*

Технотекст 2021

Дружбы — одна из важнейших механик любой социальной сети. Подавляющее большинство взаимодействий происходит между пользователями, которые дружат: мы видим и комментируем записи друг друга в лентах, заходим в список друзей, чтобы найти знакомых и написать сообщение. Именно поэтому рост социального графа так важен.

Меня зовут Женя Замятин, я работаю в команде Core ML ВКонтакте. Хочу рассказать, как устроены рекомендации, которые делают ближе пользователей самой крупной социальной сети рунета.

+13

art_pro 13 апр 2021 в 10:01

Неявные нейронные представления с периодическими функциями активации

12 мин

5.9K

Блог компании ГК ЛАНИТData Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Знакомые с нейронными сетями читатели скорее всего слышали про термин «функция активации». Такие варианты функции активации, как сигмоида, гиперболический тангенс (TanH) и ReLU (линейный выпрямитель), активно применяются в нейронных сетях и широко известны энтузиастам, занимающимся экспериментами с нейронными архитектурами. Исследователи нейронных сетей не останавливаются на достигнутом и подбирают альтернативы, позволяющие расширить границы возможностей. Один из вариантов подхода, предложенного в 2020 году, показывает выдающиеся результаты по сравнению с классическими функциями активации. Про впечатляющие отличия и пойдет речь в этой статье: на основе материала Vincent Sitzmann, Julien N. P. Martel, Alexander Bergman, David B. Lindell, Gordon Wetzstein и кода на нескольких наглядных примерах будет продемонстрировано превосходство нового метода.

+34

boristhebirb 7 апр 2021 в 18:48

Сравнение ассортимента блюд трёх ресторанов Санкт-Петербурга

7 мин

6.1K

Python*Data Mining*HTML*Визуализация данных*

Из песочницы

Мне никогда раньше не приходилось иметь дело с парсингом данных из интернета. Обычно все данные для работы (аналитик данных) приходят из выгрузок компании с использованием простого внутреннего интерфейса, либо формируются sql-запросами к таблицам напрямую из хранилища, если нужно что-то более сложное, чем “посмотреть выручку за предыдущий месяц”.

Поэтому мне захотелось освоить какой-нибудь несложный инструмент парсинга html-страниц, чтобы уметь собирать данные из интернета с помощью кода в удобной для себя IDE без привлечения сторонних инструментов.

Сайты для сбора данных были подобраны по принципу “нет блокировщика парсеров” и “из анализа этих данных может выйти что-то интересное”. Поэтому выбор пал на ассортимент блюд на доставку трёх ресторанов Санкт-Петербурга - “Токио City”, “Евразия” и “2 Берега”. У них приблизительно одна направленность кухни и похожий ассортимент, поэтому явно найдется, что сравнить.

Что из этого получилось?

+10

DanilSmith 30 мар 2021 в 14:03

Process Mining как эволюция «научного управления» — и наша открытая библиотека для анализа

8 мин

15K

Блог компании СберPython*Data Mining*Машинное обучение*Natural Language Processing*

Process Mining – это мост между Data Mining и Process Management. Это подход к извлечению, анализу и оптимизации процессов на основе данных из журналов событий (event logs), доступных в информационных системах. Мы разработали и открыли библиотеку, позволяющую быстро и достаточно просто обрабатывать данные информационных систем производства, чтобы находить узкие места и точки неэффективности.

Первой научной теорией, целью которой был анализ и оптимизация рабочих процессов, является «Научное управление». На рубеже XIX – XX веков усилиями американского исследователя Фредерика Тейлора и его единомышленников была создана теория классического менеджмента. Она основывается на положении, что существует «наилучший способ» выполнения каждой конкретной работы, и проблема низкой производительности может быть решена путем использования метода, названного «научным хронометрированием». Суть метода заключается в разделении работы на последовательность элементарных операций, которые хронометрируются и фиксируются при участии рабочих. В итоге это позволяет получить точную информацию о необходимых затратах времени на выполнение той или иной работы.

Таким образом, более 120 лет назад таким простым шагом был дан старт научному подходу к исследованию процессов. С развитием общества и технологий эволюционируют и совершенствуются подходы к анализу и оптимизации процессов: происходит переход к «Массовому производству», в основе которого лежит специализация с возможностями оптимизации сборки, компьютеризации и анализа статистки.

Современный Process Mining — это эволюция этого подхода с учётом больших данных.

Читать дальше →

+10

fartuk 29 мар 2021 в 16:15

Мои machine learning тулы для инвестирования

17 мин

35K

Блог компании Open Data ScienceData Mining*Машинное обучение*Венчурные инвестицииИскусственный интеллект

В последнее время все больше людей приходит к тому, чтобы не держать деньги под матрасом, а куда-то их инвестировать в надежде сохранить и преумножить свой капитал. Вариант с матрасом плох тем, что с повышением цен на товары и услуги(инфляция) покупательная способность денег падает и через какое-то время купить на них можно значительно меньше, чем раньше. Есть много вариантов, куда вложить деньги(недвижимость, банковский вклад, ценные металлы), но в последнее время популярным становится инвестирование в акции. Только у брокера Тинькофф Инвестиции за несколько лет число клиентов превысило 3.5 млн. В статье я постараюсь описать свой подход к выбору бумаг и поделюсь инструментами, которые для этого разрабатываю.

+53

1 2 ...

6 7

9 10 ...

58 59

Data Mining *

Как спарсить любой сайт?

Как определить самый авторитетный фильм всех времен и народов

Какой софт использует ЦРУ и АНБ для дата-майнинга

Как мы в SIGIR-соревновании участвовали

Истории

Аналитики данных в Авито: ожидания и спектр задач

Парсинг Instagram в промышленных масштабах

Автоматически генерируем стикеры для Телеграма из фото плакатов в интернет-магазине

Зачем роботам делать выбор за вас

Как ФБК* сами слили все данные оппозиции в открытый доступ

Гугл финанс перестал транслировать данные российских акций — что делать? (UPD: починили)

Маленький и быстрый BERT для русского языка

Создание и балансировка инвестиционного портфеля с помощью ML

Все что вы (не) хотели знать о Data Science

Ближайшие события

R и работа со временем. Что за кулисами?

Рассказываем про библиотеку для Process Mining: теперь SberPM в открытом доступе

Рекомендации друзей ВКонтакте: ML на эго-графах

Неявные нейронные представления с периодическими функциями активации

Сравнение ассортимента блюд трёх ресторанов Санкт-Петербурга

Process Mining как эволюция «научного управления» — и наша открытая библиотека для анализа

Мои machine learning тулы для инвестирования

Вклад авторов

Работа