Да, я бы так и брал, \alpha_0 = 1/|C| и \beta_0 = 1 / |W|. Бета относится к слову внутри каждой темы по отдельности, там кубик с числом граней, равным числу слов.
Моя личная любовь к графическим моделям имеет скорее исторические причины, чем какие-то другие. :)
Основа нашей рекомендательной системы — конечно, не графические модели, а старый добрый SVD.
Но вот для анализа текстов, в том числе и для дальнейшей их рекомендации, мы действительно используем, например, LDA; о нём я буду дальше рассказывать. LDA мне лично очень нравится — чудо какое-то, из ничего возникают осмысленные темы; более чудесно выглядит разве что deep learning, но в нём я, не буду врать, не очень хорошо разбираюсь. А алгоритмы на самом деле не такие уж и сложные; да, я сам пишу сэмплирование по Гиббсу для LDA, и вам расскажу в следующих инсталляциях, как его писать…
О да, про китайские да индийские рестораны — это отличная тема. :)
Но сначала будет про LDA, а непараметрику мы пока не особенно используем, так что про это ещё не скоро…
У меня общего видения нет, есть некоторые соображения. Главное соображение — я понимаю суть болонского процесса не как «бакалавр может идти клепать сайты на битриксе», а как «бакалавриат — это фундаментальное образование, а потом в магистратуре происходит специализация». Например, «Программирование на мобильных устройствах» мне кажется явно магистерским курсом, в бакалавриате надо учить фундаментальным наукам.
Если по конкретным наукам:
лингвистика — основа многих разделов IT в наше время;
социология — основа многих других разделов :) социальность и большая масса людей нынче в каждом втором проекте, но её очень мало кто умеет правильно готовить;
экономика — всё это матмоделирование отлично укладывается в экономические приложения, финансовые аналитики с data mining'ом в арсенале — очень горячая специальность;
и так далее.
Чтобы перейти от абстрактных пожеланий к практике, надо посмотреть, какие есть преподаватели в Питере, которые могли бы прочесть соответствующий курс. Например, я знаю, что в СПбГУ есть хорошие лингвисты, а в НИУ ВШЭ — хорошие экономисты, могу попробовать их спросить (но только если это будет предметный интерес со стороны АУ).
Я, конечно, плюс поставил, но вообще вот этот подход мне совсем не нравится:
… убрать из программы как можно больше «лишних» предметов...
От него веет дурацким снобизмом выпускников матшкол, который на самом деле сильно мешает им узнавать новое в жизни. АУ со своими зарплатами и маленькой группой вполне мог бы привлечь для отдельных курсов лучших гуманитарных преподавателей Петербурга – а они есть, и в СПбГУ, и в Европейском, и наверняка ещё где-то. Не говоря уж о том, что, например, лингвистика или социология – это по нынешним временам скорее профильные курсы, не менее профильные, чем «Прикладное программирование мобильных устройств». :)
Это вопрос одновременно сложный и простой. Сложная часть в том, что я действительно не умею хорошо объяснить, почему вдруг loopy belief propagation (LBP) эффективен. Простая часть ответа — в том, что для определённых достаточно широких классов сетей и распределений доказано, что действительно при каждой итерации LBP приближённое распределение становится ближе (либо по специально определённой мере, либо вообще просто по расстоянию Кульбака-Лейблера) к истинному распределению. Таким образом, LBP — это просто алгоритм приближённого вывода, находит локальный максимум «похожести» распределений, возможно, не попадает при этом в глобальный.
Думаю, было бы смешнее, если бы было «вторая» вместо «первая»; сейчас анекдот скорее вызовет пару секунд ожидания, которые демпфируют смех, даже когда «дойдёт».
Спасибо!
Это исторически сложилось. :) Наша рекомендательная система носит кодовое название tachikoma; никакой связи с вероятностными моделями, да и рекомендательными системами здесь нет, разве что очень общая идея «искусственного интеллекта»; зато получился удобный образ, красивые картинки можно вставлять, и в ленте сразу видно, где наш пост. :)
Что же тут непонятного? Когда от пижамы идёт сладковатый запах, даже на Луне, вопреки пониженной гравитации, быстро будешь прыгать ты, Люк. Более того, тут даже прямо само предложение содержит объяснение своих грамматических странностей. :)
Мне пока трудно придумать, зачем активно работающему в латехе человеку аплоадить туда свои файлы (если уж там нету совместной работы как в гуглдокс). Но зато видится крутой и важный смысл в том, что там есть шаблоны стандартных вещей — ведь latex тем и пугает неподготовленного человека, что с нуля до «начал писать текст и всё скомпилировалось» очень далеко. Думаю, это направление надо развивать, больше шаблонов встроить, несколько разных форматов презентаций, часто используемые в науке стили типа llncs и т.п.
Правда, в любом случае получится, что ваш идеальный юзер — это юзер, который научился азам, поставил себе latex и забил на ваш проект. :)
Сорри, я ко второму комменту забыл, о чём был первый. :) Вы говорили о марковских сетях (Markov random fields, undirected graphical models), а я вам во втором комменте ответил про скрытые марковские модели (hidden Markov models). :) Про ненаправленные модели можно поговорить, да; правда, я бы скорее сразу к фактор-графам двигался, а про ненаправленные по мере надобности.
Понял; нет, за курсом pgm на курсере я не следил, когда это писал, случайное совпадение… Про марковские модели можно и поговорить, да, но там сначала надо поговорить про EM-алгоритм на более простом каком-нибудь примере (с кластеризации обычно начинают).
Да, я тоже согласен, что, например, «графовые» было бы точнее. Но как-то так устоялось. С другой стороны, пусть кинет камень тот, кто скажет, что они не графические. :)
Основа нашей рекомендательной системы — конечно, не графические модели, а старый добрый SVD.
Но вот для анализа текстов, в том числе и для дальнейшей их рекомендации, мы действительно используем, например, LDA; о нём я буду дальше рассказывать. LDA мне лично очень нравится — чудо какое-то, из ничего возникают осмысленные темы; более чудесно выглядит разве что deep learning, но в нём я, не буду врать, не очень хорошо разбираюсь. А алгоритмы на самом деле не такие уж и сложные; да, я сам пишу сэмплирование по Гиббсу для LDA, и вам расскажу в следующих инсталляциях, как его писать…
Но сначала будет про LDA, а непараметрику мы пока не особенно используем, так что про это ещё не скоро…
Я бы только Lympne правильно прочитал, там просто как-то больше никак.
Если по конкретным наукам:
Чтобы перейти от абстрактных пожеланий к практике, надо посмотреть, какие есть преподаватели в Питере, которые могли бы прочесть соответствующий курс. Например, я знаю, что в СПбГУ есть хорошие лингвисты, а в НИУ ВШЭ — хорошие экономисты, могу попробовать их спросить (но только если это будет предметный интерес со стороны АУ).
От него веет дурацким снобизмом выпускников матшкол, который на самом деле сильно мешает им узнавать новое в жизни. АУ со своими зарплатами и маленькой группой вполне мог бы привлечь для отдельных курсов лучших гуманитарных преподавателей Петербурга – а они есть, и в СПбГУ, и в Европейском, и наверняка ещё где-то. Не говоря уж о том, что, например, лингвистика или социология – это по нынешним временам скорее профильные курсы, не менее профильные, чем «Прикладное программирование мобильных устройств». :)
Пара статей на тему:
machinelearning.wustl.edu/mlpapers/paper_files/IhlerFW05.pdf
www.stanford.edu/~montanar/TEACHING/Stat375/papers/tatikonda.pdf
Это исторически сложилось. :) Наша рекомендательная система носит кодовое название tachikoma; никакой связи с вероятностными моделями, да и рекомендательными системами здесь нет, разве что очень общая идея «искусственного интеллекта»; зато получился удобный образ, красивые картинки можно вставлять, и в ленте сразу видно, где наш пост. :)
Что же тут непонятного? Когда от пижамы идёт сладковатый запах, даже на Луне, вопреки пониженной гравитации, быстро будешь прыгать ты, Люк. Более того, тут даже прямо само предложение содержит объяснение своих грамматических странностей. :)
Мне пока трудно придумать, зачем активно работающему в латехе человеку аплоадить туда свои файлы (если уж там нету совместной работы как в гуглдокс). Но зато видится крутой и важный смысл в том, что там есть шаблоны стандартных вещей — ведь latex тем и пугает неподготовленного человека, что с нуля до «начал писать текст и всё скомпилировалось» очень далеко. Думаю, это направление надо развивать, больше шаблонов встроить, несколько разных форматов презентаций, часто используемые в науке стили типа llncs и т.п.
Правда, в любом случае получится, что ваш идеальный юзер — это юзер, который научился азам, поставил себе latex и забил на ваш проект. :)
Есть направление про multiarmed bandits meet mechanism design.
Спасибо за дельный комментарий!