Pull to refresh
134
0
Сергей Николенко @snikolenko

User

Send message
|W|; там сглаживать надо независимо в каждой теме по отдельности.
Да, я бы так и брал, \alpha_0 = 1/|C| и \beta_0 = 1 / |W|. Бета относится к слову внутри каждой темы по отдельности, там кубик с числом граней, равным числу слов.
Моя личная любовь к графическим моделям имеет скорее исторические причины, чем какие-то другие. :)
Основа нашей рекомендательной системы — конечно, не графические модели, а старый добрый SVD.
Но вот для анализа текстов, в том числе и для дальнейшей их рекомендации, мы действительно используем, например, LDA; о нём я буду дальше рассказывать. LDA мне лично очень нравится — чудо какое-то, из ничего возникают осмысленные темы; более чудесно выглядит разве что deep learning, но в нём я, не буду врать, не очень хорошо разбираюсь. А алгоритмы на самом деле не такие уж и сложные; да, я сам пишу сэмплирование по Гиббсу для LDA, и вам расскажу в следующих инсталляциях, как его писать…
О да, про китайские да индийские рестораны — это отличная тема. :)
Но сначала будет про LDA, а непараметрику мы пока не особенно используем, так что про это ещё не скоро…
И ещё Maugham, конечно же. Остальные действительно клёвые очень. :)
Я бы только Lympne правильно прочитал, там просто как-то больше никак.
У меня общего видения нет, есть некоторые соображения. Главное соображение — я понимаю суть болонского процесса не как «бакалавр может идти клепать сайты на битриксе», а как «бакалавриат — это фундаментальное образование, а потом в магистратуре происходит специализация». Например, «Программирование на мобильных устройствах» мне кажется явно магистерским курсом, в бакалавриате надо учить фундаментальным наукам.

Если по конкретным наукам:
  • лингвистика — основа многих разделов IT в наше время;
  • социология — основа многих других разделов :) социальность и большая масса людей нынче в каждом втором проекте, но её очень мало кто умеет правильно готовить;
  • экономика — всё это матмоделирование отлично укладывается в экономические приложения, финансовые аналитики с data mining'ом в арсенале — очень горячая специальность;
  • и так далее.

Чтобы перейти от абстрактных пожеланий к практике, надо посмотреть, какие есть преподаватели в Питере, которые могли бы прочесть соответствующий курс. Например, я знаю, что в СПбГУ есть хорошие лингвисты, а в НИУ ВШЭ — хорошие экономисты, могу попробовать их спросить (но только если это будет предметный интерес со стороны АУ).
Я, конечно, плюс поставил, но вообще вот этот подход мне совсем не нравится:
… убрать из программы как можно больше «лишних» предметов...

От него веет дурацким снобизмом выпускников матшкол, который на самом деле сильно мешает им узнавать новое в жизни. АУ со своими зарплатами и маленькой группой вполне мог бы привлечь для отдельных курсов лучших гуманитарных преподавателей Петербурга – а они есть, и в СПбГУ, и в Европейском, и наверняка ещё где-то. Не говоря уж о том, что, например, лингвистика или социология – это по нынешним временам скорее профильные курсы, не менее профильные, чем «Прикладное программирование мобильных устройств». :)
Это вопрос одновременно сложный и простой. Сложная часть в том, что я действительно не умею хорошо объяснить, почему вдруг loopy belief propagation (LBP) эффективен. Простая часть ответа — в том, что для определённых достаточно широких классов сетей и распределений доказано, что действительно при каждой итерации LBP приближённое распределение становится ближе (либо по специально определённой мере, либо вообще просто по расстоянию Кульбака-Лейблера) к истинному распределению. Таким образом, LBP — это просто алгоритм приближённого вывода, находит локальный максимум «похожести» распределений, возможно, не попадает при этом в глобальный.

Пара статей на тему:
machinelearning.wustl.edu/mlpapers/paper_files/IhlerFW05.pdf
www.stanford.edu/~montanar/TEACHING/Stat375/papers/tatikonda.pdf
Думаю, было бы смешнее, если бы было «вторая» вместо «первая»; сейчас анекдот скорее вызовет пару секунд ожидания, которые демпфируют смех, даже когда «дойдёт».
Спасибо!
Это исторически сложилось. :) Наша рекомендательная система носит кодовое название tachikoma; никакой связи с вероятностными моделями, да и рекомендательными системами здесь нет, разве что очень общая идея «искусственного интеллекта»; зато получился удобный образ, красивые картинки можно вставлять, и в ленте сразу видно, где наш пост. :)
Пижама сладкий прыгать Луна вопреки быстро люк?

Что же тут непонятного? Когда от пижамы идёт сладковатый запах, даже на Луне, вопреки пониженной гравитации, быстро будешь прыгать ты, Люк. Более того, тут даже прямо само предложение содержит объяснение своих грамматических странностей. :)
[сорри, случайно второй раз добавил коммент]
Интересно, молодцы! :)

Мне пока трудно придумать, зачем активно работающему в латехе человеку аплоадить туда свои файлы (если уж там нету совместной работы как в гуглдокс). Но зато видится крутой и важный смысл в том, что там есть шаблоны стандартных вещей — ведь latex тем и пугает неподготовленного человека, что с нуля до «начал писать текст и всё скомпилировалось» очень далеко. Думаю, это направление надо развивать, больше шаблонов встроить, несколько разных форматов презентаций, часто используемые в науке стили типа llncs и т.п.

Правда, в любом случае получится, что ваш идеальный юзер — это юзер, который научился азам, поставил себе latex и забил на ваш проект. :)
Сорри, я ко второму комменту забыл, о чём был первый. :) Вы говорили о марковских сетях (Markov random fields, undirected graphical models), а я вам во втором комменте ответил про скрытые марковские модели (hidden Markov models). :) Про ненаправленные модели можно поговорить, да; правда, я бы скорее сразу к фактор-графам двигался, а про ненаправленные по мере надобности.
Понял; нет, за курсом pgm на курсере я не следил, когда это писал, случайное совпадение… Про марковские модели можно и поговорить, да, но там сначала надо поговорить про EM-алгоритм на более простом каком-нибудь примере (с кластеризации обычно начинают).
Да, я тоже согласен, что, например, «графовые» было бы точнее. Но как-то так устоялось. С другой стороны, пусть кинет камень тот, кто скажет, что они не графические. :)
С тем, о чём я сказал в комментарии (интегралом по posterior) – не выйдет. Для этого он и нужен, да.
Спасибо за дельный комментарий!

Information

Rating
Does not participate
Location
Санкт-Петербург и область, Россия
Works in
Date of birth
Registered
Activity