Комментарии / Профиль varagian / Хабр

varagian 29 апр 2014 в 00:40

ок, соберу завтра — под рукой нет Мака

varagian 28 апр 2014 в 17:56

Видимо, у вас стоит какая-то версия QT (скорее всего 5-я), которая конфликтует с используемой в matplotlib. Гугл не дает простых решений, видимо проще всего использовать исходники на python. Если имеется pip или easy_install, то нужно установить
sudo pip install matploblib matploblib_venn argparse numpy urllib3
python hubs.py --similar easyelectronics

varagian 28 апр 2014 в 17:15

Вот тут про это написано:
askubuntu.com/questions/206271/how-can-i-bypass-this-fontconfig-warning-to-edit-grub-successfully

varagian 28 апр 2014 в 17:10

В идеале нужно будет сделать простой веб-интерфейс — это уже значится в списке «сделать». Но сначала хотелось, чтобы оно просто работало.

varagian 28 апр 2014 в 17:02

Предполагаю, вас вот эта гистограмма интересует (по оси Y процент читателей вашего блога, которые читаю хаб по Х):

varagian 28 апр 2014 в 16:56

Да, этакое само-сбывающееся пророчество. Но даже у самых больших по количеству просмотров статей показатели существенно ниже аудитории хабра (где-то на порядок) т.е. фактически тот кто прочитал — тому и плюшки.

varagian 28 апр 2014 в 16:54

Это описано вот в этой статье и к ней же прилагает тул:
habrahabr.ru/post/221087/

varagian 28 апр 2014 в 16:36

думаю, что тут можно сделать две вещи:

Простое исследование в ретроспективе: с каким результатом закончили статьи по дате публикации (день недели, время суток и тд)
Сложное исследование: у нас будет монитор из конца статьи (к разработке которого, я медленно, но верно подбираюсь) и тогда можно будет получить объективную статистику просмотров статей во времени — это существенно сложнее

Первое я думаю, можно сделать прямо сейчас, а для второго нужно будет сначала написать и протестировать монитор статей, а потом с месяц (минимум) собирать данные.

varagian 28 апр 2014 в 16:09

Ок, добавил в todo-лист.

varagian 26 апр 2014 в 23:02

Пока никак, а есть идеи как их отсеять?

Часть первая, а вторую часть всё равно никто не читает

varagian 18 апр 2014 в 23:10

Вас упомянули, как единственного у кого вторая часть вышла существенно лучше, чем первая :-) за выбранный срез времени (c 27го сентября 2012) и попавшего в выборку по сериям статей.

varagian 14 апр 2014 в 11:52

Портрет Хабра-tutorial

В основном экспериментировал с SVM (в одном из скриптов даже забыл отключить library(e1071); а вообще, решил настоящую часть про машинное обучение отложить для следующих статей, тут и так слишком много информации выливается на читателя).

Проблема следующая, распределение очень неравномерное, на всех данных 11 к 1 — обычный пост к туториалу, а в интересных областях и 20-30 к одному. Классификатор по умолчанию выдает .95+ accuracy, но это фальшивка, так как он просто почти всегда говорит «negative».

Классическое решение (помимо under- and oversampling) — выставить вес классам: попробовал две опции: вес 11 (т.е. обратно пропорционально их доле) и 30 (чтобы сильно перевешивать) для туториалов, 10-fold cross-validaion получается неважный ~0.7-8. Но тут возможно стоить больше экспериментировать и пробовать, поэтому решил этот вопрос отложить.

Думаю, что основные проблемы:

на каждый нормальный туториал приходится туториал-точка без метки (а то и не один)
бедный feature space

Задачи не тривиальные, но в принципе решаемые.

Что такое теория и причем тут научный метод

varagian 27 янв 2014 в 20:05

Согласен, некорректно звучит. Под «сверхъестественным» прежде всего имел ввиду что-то такое, что нельзя померить-оценить; в тексте это противопоставлялось вещам измеримым. Фальсифицируемость вводится чуть далее по тексту.

-1

Что такое теория и причем тут научный метод

varagian 27 янв 2014 в 17:07

Спасибо, поправил формулировку.

-1

Coursera запустила специализации

varagian 23 янв 2014 в 23:18

На всякий, если кто-то этого не заметил, то:

За проект предполагается такая же оплата как и за verified certificate — $49.

Это цена за каждый курс и такая же за проект, за всё специализацию (по крайней мере по Data Science — 9 курсов и проект) предлагают заплатить 490 USD.

varagian 22 янв 2014 в 23:04

Бусы против гравитации

Более того, если открыть их статью, которая рассказывает историю этой задачи, то можно проследить, что первые упоминания о ней восходят аж к 1854-му году
Examiners and Moderators. Solutions of the problems and riders proposed in the Senate-House examination (Mathematics Tripos). MacMillan & Co. London, 1854.
George Biddell Airy. On the mechanical conditions of the deposit of a submarine cable. Phil. Mag. S. 4, 16:1, 1858.

Популяризация науки — это хорошо, но не стоит гнаться за сенсациями.

Не все комментарии одинаково полезны

varagian 20 янв 2014 в 20:32

Интересно, а есть где-нибудь чуть более подробные описания методов?

Не все комментарии одинаково полезны

varagian 20 янв 2014 в 18:45

да, стоило это прописать отдельным пунктом в голосовании: разные опции сортировки и возможность отключить сортировку.

+10

Как живется Data Mining компании: задачи и исследования

varagian 18 янв 2014 в 22:17

краткий обзор литературы по imbalanced classification (если это интересовало): тут

слайды с одной из летних школ, где автор рассказывал про imbalanced classification:
части 1, 2 и 3

Зачем нам всем нужен SAT и все эти P-NP (часть вторая)

varagian 15 янв 2014 в 21:56

какие именно работы по «коммутативной алгебре», Вы имеете ввиду? Можно предоставить какие-нибудь ссылки на работы? Ни один из известных мне топовых SAT solver'ов (MiniSAT, SATzilla, ASP clasp, Zchaff, Ppfolio, MIPSat etc) ничем таким не пользуется.