Комментарии / Профиль cointegrated / Хабр

Команда, занявшая первое место, решала совершенно другую задачу.
Команда, занявшая второе место, решала одну задачу с нами, и предсказательная модель была примерно такой же, но они успели глубже уйти в описательный и объясняющий анализ
Можно посмотреть их презентации: ai-community.com/otchet_sibur_hackathon

Машинное обучение и экструдер полипропилена: история 3 места на хакатоне Сибура

cointegrated 30 мая 2018 в 13:09

Код сырой и разбросанный. Но по сути он делает примитивную вещь: берёт все пары показателей, для каждой пары считает корреляцию с разными лагами по времени, выбирает тот лаг, на котором корреляция максимальна. На граф попадают пары показателей, у которых максимальная корреляция больше порога, направление стрелочки показывет знак лага. Граф отрисовывается с помощью networkx.

habrahabr.ru → habr.com

cointegrated 30 мая 2018 в 09:10

Я правильно понимаю, что теперь свои статьи стоит писать в двух экземплярах — на русском и на английском?

Машинное обучение и экструдер полипропилена: история 3 места на хакатоне Сибура

cointegrated 30 мая 2018 в 06:31

Там тайм-аут большой, пока бесплатный аккаунт на heroku просыпается)

Машинное обучение и экструдер полипропилена: история 3 места на хакатоне Сибура

cointegrated 29 мая 2018 в 21:05

Живёшь в Новосибирске?

Нужно ли пытаться полюбить математику?

cointegrated 20 янв 2018 в 08:23

Байку в студию! :)

Как обучть мдль пнмть упртые скрщня

cointegrated 15 янв 2018 в 13:07

1) Да, с помощью словаря и перебора задача вставки букв решается проще. Но я взялся за усложнённую версию задачи, ибо:

любой словарь далёк от полного (особенно в языках типа русского с активным словообразованием), и незнакомые слова всё равно будут попадаться
если словарь очень большой, его полный обход займёт больше времени, чем beam search
раз мы всё равно запоминаем частоты для выбора альтернативных расшифровок,
почему бы не использовать их для выбора букв тоже?

2) Инверсии, повторения букв, ошибки в правописании, результаты неправильного переключения en/ru — всё это учитывается в полноценных опечаточниках (например, в поисковых системах). Я же решил, что для статьи достаточно одной фичи — остальное читатели сами могут сделать по аналогии, если захотят.

А вообще, спасибо за замечания по существу :-)

Как обучть мдль пнмть упртые скрщня

cointegrated 14 янв 2018 в 00:24

Что есть языки без гласных, осознаю. Сам, впрочем, читать газеты на иврите или арабском пока не очень умею)

Как обучть мдль пнмть упртые скрщня

cointegrated 13 янв 2018 в 21:07

Насколько я понял, вдохновивший меня вопрос преследовал эту же цель :)

Как я парсил Хабр, часть 1: тренды

cointegrated 10 янв 2018 в 11:15

Насколько я понимаю, открытых данных о доле просмотров Хабра через фидеры нет.
Можно попробовать спросить у его админов :)

Как я парсил Хабр, часть 1: тренды

cointegrated 10 янв 2018 в 11:09

sfocusov, тут есть два подхода.
Можно get-запросами тягать сырые странички, и парсить с помощью beautifulsoup — вот здесь есть пример habrahabr.ru/post/280238
А если ваши странички сложные, и там должны отрабатывать джаваскрипты, то можно использовать Selenium, чтобы управлять из питона браузером — как тут vk.com/wall-130785301_96 или тут habrahabr.ru/post/131966

Как я парсил Хабр, часть 1: тренды

cointegrated 10 янв 2018 в 06:15

Почему же не учтены? Они эквивалентны просто habrahabr.ru/post/346198

Как я парсил Хабр, часть 1: тренды

cointegrated 9 янв 2018 в 14:42

Время решает, но можно попытаться включить его как фактор) Ну или ограничиться комментариями, для которых точно известно время.

Можно ссылку на статью Ализара? :)

Как я парсил Хабр, часть 1: тренды

cointegrated 9 янв 2018 в 09:25

Не подумал :)

Как я парсил Хабр, часть 1: тренды

cointegrated 8 янв 2018 в 19:57

Добавил!

В результате тексты статей (без картинок) заняли у меня 1.5 гигабайта, комментарии с метаинформацией (автор, дата, голоса...) — ещё 3, и около сотни мегабайт — метаинформация о статьях. Такое можно полностью держать в оперативной памяти, что было для меня приятной неожиданностью.

Как я парсил Хабр, часть 1: тренды

cointegrated 8 янв 2018 в 19:16

Да, когда сам наиграюсь с ним, выложу на яндекс.диск.

1 2 3