Видимо, у вас стоит какая-то версия QT (скорее всего 5-я), которая конфликтует с используемой в matplotlib. Гугл не дает простых решений, видимо проще всего использовать исходники на python. Если имеется pip или easy_install, то нужно установить sudo pip install matploblib matploblib_venn argparse numpy urllib3 python hubs.py --similar easyelectronics
Да, этакое само-сбывающееся пророчество. Но даже у самых больших по количеству просмотров статей показатели существенно ниже аудитории хабра (где-то на порядок) т.е. фактически тот кто прочитал — тому и плюшки.
Простое исследование в ретроспективе: с каким результатом закончили статьи по дате публикации (день недели, время суток и тд)
Сложное исследование: у нас будет монитор из конца статьи (к разработке которого, я медленно, но верно подбираюсь) и тогда можно будет получить объективную статистику просмотров статей во времени — это существенно сложнее
Первое я думаю, можно сделать прямо сейчас, а для второго нужно будет сначала написать и протестировать монитор статей, а потом с месяц (минимум) собирать данные.
Вас упомянули, как единственного у кого вторая часть вышла существенно лучше, чем первая :-) за выбранный срез времени (c 27го сентября 2012) и попавшего в выборку по сериям статей.
В основном экспериментировал с SVM (в одном из скриптов даже забыл отключить library(e1071); а вообще, решил настоящую часть про машинное обучение отложить для следующих статей, тут и так слишком много информации выливается на читателя).
Проблема следующая, распределение очень неравномерное, на всех данных 11 к 1 — обычный пост к туториалу, а в интересных областях и 20-30 к одному. Классификатор по умолчанию выдает .95+ accuracy, но это фальшивка, так как он просто почти всегда говорит «negative».
Классическое решение (помимо under- and oversampling) — выставить вес классам: попробовал две опции: вес 11 (т.е. обратно пропорционально их доле) и 30 (чтобы сильно перевешивать) для туториалов, 10-fold cross-validaion получается неважный ~0.7-8. Но тут возможно стоить больше экспериментировать и пробовать, поэтому решил этот вопрос отложить.
Думаю, что основные проблемы:
на каждый нормальный туториал приходится туториал-точка без метки (а то и не один)
Согласен, некорректно звучит. Под «сверхъестественным» прежде всего имел ввиду что-то такое, что нельзя померить-оценить; в тексте это противопоставлялось вещам измеримым. Фальсифицируемость вводится чуть далее по тексту.
Более того, если открыть их статью, которая рассказывает историю этой задачи, то можно проследить, что первые упоминания о ней восходят аж к 1854-му году
Examiners and Moderators. Solutions of the problems and riders proposed in the Senate-House examination (Mathematics Tripos). MacMillan & Co. London, 1854.
George Biddell Airy. On the mechanical conditions of the deposit of a submarine cable. Phil. Mag. S. 4, 16:1, 1858.
Популяризация науки — это хорошо, но не стоит гнаться за сенсациями.
какие именно работы по «коммутативной алгебре», Вы имеете ввиду? Можно предоставить какие-нибудь ссылки на работы? Ни один из известных мне топовых SAT solver'ов (MiniSAT, SATzilla, ASP clasp, Zchaff, Ppfolio, MIPSat etc) ничем таким не пользуется.
sudo pip install matploblib matploblib_venn argparse numpy urllib3
python hubs.py --similar easyelectronics
askubuntu.com/questions/206271/how-can-i-bypass-this-fontconfig-warning-to-edit-grub-successfully
habrahabr.ru/post/221087/
Первое я думаю, можно сделать прямо сейчас, а для второго нужно будет сначала написать и протестировать монитор статей, а потом с месяц (минимум) собирать данные.
Проблема следующая, распределение очень неравномерное, на всех данных 11 к 1 — обычный пост к туториалу, а в интересных областях и 20-30 к одному. Классификатор по умолчанию выдает .95+ accuracy, но это фальшивка, так как он просто почти всегда говорит «negative».
Классическое решение (помимо under- and oversampling) — выставить вес классам: попробовал две опции: вес 11 (т.е. обратно пропорционально их доле) и 30 (чтобы сильно перевешивать) для туториалов, 10-fold cross-validaion получается неважный ~0.7-8. Но тут возможно стоить больше экспериментировать и пробовать, поэтому решил этот вопрос отложить.
Думаю, что основные проблемы:
Задачи не тривиальные, но в принципе решаемые.
Это цена за каждый курс и такая же за проект, за всё специализацию (по крайней мере по Data Science — 9 курсов и проект) предлагают заплатить 490 USD.
Examiners and Moderators. Solutions of the problems and riders proposed in the Senate-House examination (Mathematics Tripos). MacMillan & Co. London, 1854.
George Biddell Airy. On the mechanical conditions of the deposit of a submarine cable. Phil. Mag. S. 4, 16:1, 1858.
Популяризация науки — это хорошо, но не стоит гнаться за сенсациями.
слайды с одной из летних школ, где автор рассказывал про imbalanced classification:
части 1, 2 и 3