Спасибо за статью. Есть еще направление под названием Topic model с возможно более известным LDA (Latent Dirichlet Allocation). Если не очень хочется вчитываться в научную публикацию, но очень хочется понять основной смысл и область применения, то можно послушать подкаст от O'Reilly Topic models: Past, present, and future, где автор все достаточно популярно и местами понятно рассказывает. Кстати, один из авторов небезызвестный автор курсов по машинному обученияи и основатель Courserа Andrew Ng.
Если вам подходит TeX, то это просто замечательно. Очень мощный и гибкий инструмент, мне лично очень нравится им пользоваться.
Но к сожалению не все так думаю. Очень многие люди бегут от TeX-а как от огня, что возможно и правильно — ибо у них нет каких-то «специализированных» запросов и им достаточно иметь WYSIWYG для редактирования текста.
Если кратко, то можно создавать репозитории и работать через git, или же все редактировать прямо в браузере. На выходе получается отличный pdf, mobi, epub или просто html. Вот пример gitbookio.gitbooks.io/markdown/.
Из тех примеров что видел — нигде не заметил нумерации страниц, но думаю что это дело только поправимо. Pdf же генерируется весьма сносный.
Можно попробовать несколько вариантов для решения проблемы работы Python на Windows.
1. Попробовать найти и установить все нужные бинарники отсюда.
2. Попробовать все же скомпилировать под Windows нужные библиотеки. У меня стоит Visual Studio 2010 (подозреваю что на самом деле достаточно рекомендуемого выше фикса). Так же у меня был следующий ньюас в компиляции — был еще настроен компилятор MinGW, вот его пришлось убрать из переменных среды, тогда все заработало.
3. Использовать Anaconda Scientific Python Distribution с его пакетным менеджером conda.
Третий подход мне очень сильно облегчает жизнь и экономит кучу времени.
P.S. icoz — cпасибо за интересные библиотеки написанные на Python.
Я думаю все же не появятся проблемы. Как минимум из-за формата ACM. Там не нужно все тесты прогонять как при IOI, как только есть тест на котором валится отправленное решение, дальше оно не проверяется и начинается проверка следующего по очереди решения.
Я писал про настройку ejudge-а, а не про мощность железа. Железо было обычное, на сколько вообще может быть обычным железо. Если вы про «ноутбук», то там стояла другая система для проверки PCMS 2, и это совсем другой «случай» в огранизации олимпиад по спортивному программированию.
Хотя если честно, очень странно что ejudge не тянул на одном сервере 150 участников. У наc никогда с ним не возникало подобных проблем. Все работало замечательно и на большее количество пользователей. Он всегда вертелся у нас на виртуальном сервере поднтом по CentOS (то есть не было никаких поблажек по железу) и если и возникала потребность в дополнительном сервере, то только для того чтобы проверять задачи написанные на компиляторах заточенных под Windows.
В Алматы у нас 2012-ом году на заочный тур было зарегистрированно порядка 700 человек (хотя конечно реально учавствовало в 3 раза меньше). Формат был ACM, а не IOI (как я думаю у вас). Проблемы в ejudge-м всегда в его правильной настройке. Его тяжело правильно настроить и тяжело уронить, если он правильно настроен. А вот с PCMS 2 и с Contester были проблемы. Хотя Contester никогда не использовал для туров, в отличии от PCMS2. Использовали Contester только для подготовки, где он себя зарекомендовал отличной системой автоматической проверки. А вот однажны PCMS 2, будучи настроенном на обычном ноутбуке выдержал порядка 2000 посылок от участников, отлично отработал весь тур, но потом «приказал долго жить».
Хороший альтернативный метод визуализации многомерных данных, как говориться не «точечными диаграммами» едиными.
Как уже было замечено, метод весьма чувствителен к порядку выбора переменных используемых в уравнении. Тут уже упоминали «метод главных компонент» (Principal component analysis), так вот этот метод может быть использован при выборе порядка использованания переменных в уравнении Эндрюса. Подробнее можно почитать здесь.
Если я вас правильно понял, то вы хотите запустить ipython совместно с python 2.*. Я для этого использую (как и многие я думаю) virtualenv (http://www.virtualenv.org/en/latest/. На данный момен в своей виртуальной среде я обновил предыдущий ipython на новую версию и все работает отлично (со старыми jinja2, tornado, pyzmq).
Спасибо за статью, буквально на прошлой неделе задался подобным вопросом когда работал с сервисами возвращающими только XML. Вы на него отлично ответили!
Отличная статья, со многим согласен. В мое время очень явно стояла проблема что из 60-и первашей IT-шников только 5-6 реально представляло себе что их ждет в будущем и к сожалению ситуация исправилась только к 3-му курсу, а поезд для многих потенциально хороших программистов ушел и только самые усердные смогли вытянуть на то чтобы получить знания для приличной работы.
Надо бы поюзать LocalDB, интересно — какое там лицензирование? Могу ли я распространять её вместе с мои легковесным web-приложением или нужно будет отдельно оплачивать MS?
А мне наоборот кажется что он лучше говорит по английски чем Sebastian Thrun.
P.S. Хотя иногда чтобы разобрать некоторые слова приходится «подглядывать» с сабы.
Полностью с вами согласен!
ML — отлично все рассказывает, задает в лекции правильные вопросы, которые ведут к более полному понимаю курса, сейчас пока ещё не приступил к «практике», вот думаю завтра начну.
DB — настоящее «введение в БД», а так же очень интересно с точки зрения подачи материала (так же нравятся ОЧЕНЬ лояльные дедлайны).
Но к сожалению не все так думаю. Очень многие люди бегут от TeX-а как от огня, что возможно и правильно — ибо у них нет каких-то «специализированных» запросов и им достаточно иметь WYSIWYG для редактирования текста.
Рад что вам понравился сервис.
Если кратко, то можно создавать репозитории и работать через git, или же все редактировать прямо в браузере. На выходе получается отличный pdf, mobi, epub или просто html. Вот пример gitbookio.gitbooks.io/markdown/.
Из тех примеров что видел — нигде не заметил нумерации страниц, но думаю что это дело только поправимо. Pdf же генерируется весьма сносный.
1. Попробовать найти и установить все нужные бинарники отсюда.
2. Попробовать все же скомпилировать под Windows нужные библиотеки. У меня стоит Visual Studio 2010 (подозреваю что на самом деле достаточно рекомендуемого выше фикса). Так же у меня был следующий ньюас в компиляции — был еще настроен компилятор MinGW, вот его пришлось убрать из переменных среды, тогда все заработало.
3. Использовать Anaconda Scientific Python Distribution с его пакетным менеджером conda.
Третий подход мне очень сильно облегчает жизнь и экономит кучу времени.
P.S. icoz — cпасибо за интересные библиотеки написанные на Python.
Хотя если честно, очень странно что ejudge не тянул на одном сервере 150 участников. У наc никогда с ним не возникало подобных проблем. Все работало замечательно и на большее количество пользователей. Он всегда вертелся у нас на виртуальном сервере поднтом по CentOS (то есть не было никаких поблажек по железу) и если и возникала потребность в дополнительном сервере, то только для того чтобы проверять задачи написанные на компиляторах заточенных под Windows.
В Алматы у нас 2012-ом году на заочный тур было зарегистрированно порядка 700 человек (хотя конечно реально учавствовало в 3 раза меньше). Формат был ACM, а не IOI (как я думаю у вас). Проблемы в ejudge-м всегда в его правильной настройке. Его тяжело правильно настроить и тяжело уронить, если он правильно настроен. А вот с PCMS 2 и с Contester были проблемы. Хотя Contester никогда не использовал для туров, в отличии от PCMS2. Использовали Contester только для подготовки, где он себя зарекомендовал отличной системой автоматической проверки. А вот однажны PCMS 2, будучи настроенном на обычном ноутбуке выдержал порядка 2000 посылок от участников, отлично отработал весь тур, но потом «приказал долго жить».
Хороший альтернативный метод визуализации многомерных данных, как говориться не «точечными диаграммами» едиными.
Как уже было замечено, метод весьма чувствителен к порядку выбора переменных используемых в уравнении. Тут уже упоминали «метод главных компонент» (Principal component analysis), так вот этот метод может быть использован при выборе порядка использованания переменных в уравнении Эндрюса. Подробнее можно почитать здесь.
P.S. Selection — www.youtube.com/watch?v=YLfjP-Cals0 и Merge — www.youtube.com/watch?v=YvtDD0YMScU
P.S. Хотя иногда чтобы разобрать некоторые слова приходится «подглядывать» с сабы.
ML — отлично все рассказывает, задает в лекции правильные вопросы, которые ведут к более полному понимаю курса, сейчас пока ещё не приступил к «практике», вот думаю завтра начну.
DB — настоящее «введение в БД», а так же очень интересно с точки зрения подачи материала (так же нравятся ОЧЕНЬ лояльные дедлайны).