Как стать автором
Обновить
337
0
Сергей Парамонов @varagian

Data Scientist, PhD in AI

Отправить сообщение
ок, соберу завтра — под рукой нет Мака
Видимо, у вас стоит какая-то версия QT (скорее всего 5-я), которая конфликтует с используемой в matplotlib. Гугл не дает простых решений, видимо проще всего использовать исходники на python. Если имеется pip или easy_install, то нужно установить
sudo pip install matploblib matploblib_venn argparse numpy urllib3
python hubs.py --similar easyelectronics
В идеале нужно будет сделать простой веб-интерфейс — это уже значится в списке «сделать». Но сначала хотелось, чтобы оно просто работало.
Предполагаю, вас вот эта гистограмма интересует (по оси Y процент читателей вашего блога, которые читаю хаб по Х):

Да, этакое само-сбывающееся пророчество. Но даже у самых больших по количеству просмотров статей показатели существенно ниже аудитории хабра (где-то на порядок) т.е. фактически тот кто прочитал — тому и плюшки.
Это описано вот в этой статье и к ней же прилагает тул:
habrahabr.ru/post/221087/
думаю, что тут можно сделать две вещи:
  • Простое исследование в ретроспективе: с каким результатом закончили статьи по дате публикации (день недели, время суток и тд)
  • Сложное исследование: у нас будет монитор из конца статьи (к разработке которого, я медленно, но верно подбираюсь) и тогда можно будет получить объективную статистику просмотров статей во времени — это существенно сложнее

Первое я думаю, можно сделать прямо сейчас, а для второго нужно будет сначала написать и протестировать монитор статей, а потом с месяц (минимум) собирать данные.
Ок, добавил в todo-лист.
Пока никак, а есть идеи как их отсеять?
Вас упомянули, как единственного у кого вторая часть вышла существенно лучше, чем первая :-) за выбранный срез времени (c 27го сентября 2012) и попавшего в выборку по сериям статей.
В основном экспериментировал с SVM (в одном из скриптов даже забыл отключить library(e1071); а вообще, решил настоящую часть про машинное обучение отложить для следующих статей, тут и так слишком много информации выливается на читателя).

Проблема следующая, распределение очень неравномерное, на всех данных 11 к 1 — обычный пост к туториалу, а в интересных областях и 20-30 к одному. Классификатор по умолчанию выдает .95+ accuracy, но это фальшивка, так как он просто почти всегда говорит «negative».

Классическое решение (помимо under- and oversampling) — выставить вес классам: попробовал две опции: вес 11 (т.е. обратно пропорционально их доле) и 30 (чтобы сильно перевешивать) для туториалов, 10-fold cross-validaion получается неважный ~0.7-8. Но тут возможно стоить больше экспериментировать и пробовать, поэтому решил этот вопрос отложить.

Думаю, что основные проблемы:
  1. на каждый нормальный туториал приходится туториал-точка без метки (а то и не один)
  2. бедный feature space

Задачи не тривиальные, но в принципе решаемые.
Согласен, некорректно звучит. Под «сверхъестественным» прежде всего имел ввиду что-то такое, что нельзя померить-оценить; в тексте это противопоставлялось вещам измеримым. Фальсифицируемость вводится чуть далее по тексту.
Спасибо, поправил формулировку.
На всякий, если кто-то этого не заметил, то:
За проект предполагается такая же оплата как и за verified certificate — $49.

Это цена за каждый курс и такая же за проект, за всё специализацию (по крайней мере по Data Science — 9 курсов и проект) предлагают заплатить 490 USD.
Более того, если открыть их статью, которая рассказывает историю этой задачи, то можно проследить, что первые упоминания о ней восходят аж к 1854-му году
Examiners and Moderators. Solutions of the problems and riders proposed in the Senate-House examination (Mathematics Tripos). MacMillan & Co. London, 1854.
George Biddell Airy. On the mechanical conditions of the deposit of a submarine cable. Phil. Mag. S. 4, 16:1, 1858.

Популяризация науки — это хорошо, но не стоит гнаться за сенсациями.
Интересно, а есть где-нибудь чуть более подробные описания методов?
да, стоило это прописать отдельным пунктом в голосовании: разные опции сортировки и возможность отключить сортировку.
краткий обзор литературы по imbalanced classification (если это интересовало): тут

слайды с одной из летних школ, где автор рассказывал про imbalanced classification:
части 1, 2 и 3
какие именно работы по «коммутативной алгебре», Вы имеете ввиду? Можно предоставить какие-нибудь ссылки на работы? Ни один из известных мне топовых SAT solver'ов (MiniSAT, SATzilla, ASP clasp, Zchaff, Ppfolio, MIPSat etc) ничем таким не пользуется.

Информация

В рейтинге
Не участвует
Откуда
Antwerpen, Бельгия
Дата рождения
Зарегистрирован
Активность