Как стать автором
Обновить
22
0
Антон Казенников @kzn

Пользователь

Отправить сообщение

Система персонализации News360: ранжирование кластеров информации

Время на прочтение11 мин
Количество просмотров9.1K
Когда система рекомендаций работает с большим количеством контента, основной задачей становится не фильтрация этого контента, а его ранжирование. Если говорить о новостях — каждый день выходят сотни тысяч статей, тысячи из которых могут затрагивать интересы каждого человека, читающего новости. Но в основном пользователи не читают больше 5-10 статей в день (по данным News360). Какие статьи показать первыми?

Ответ на этот вопрос в News360 ищут уже третий год. Мы нашли уже много разных ответов, но в этом году решили отказаться от концепции, которая была основной на протяжении всех предыдущих лет.

В статье простыми словами постараюсь рассказать о том, почему в News360 сначала несколько лет работали над реализацией и развитием системы кластеризации статей по событиям и ранжирования событий, а затем выбросили этот подход и решили реализовать другой. А также немного о том, как работает News360, что под капотом и где об этом почитать.

News360 - Everything you want to read

Читать дальше →
Всего голосов 23: ↑20 и ↓3+17
Комментарии13

Впечатления от китайской warez-сцены

Время на прочтение6 мин
Количество просмотров68K
*много букв, местами неполиткорректно, текст лежал в столе 5 лет

image Первое знакомство с представителями Китая на Сцене произошло через 2 дня после моего «входа» в ту самую Сцену. Мне понадобился доступ к популярному в то время варез-FTP “Typhoon Epicenter” (о том, что он располагался в Гонг Конге я узнал позже). Из всех друзей и знакомых организовать доступ мог только один человек – «приятель знакомого моего друга». Он оказался китайцем по вере и паспорту, и мы некоторое время плотно общались. Именно после знакомства с ним, я стал относиться к китайцам с пассивным интересом.

Это сумасшедшие в плане доведения своих навыков до абсолюта. Собственно, мы за это их и уважали, потому что у них были "мозги", которых порой не хватало нам – не в плане ума, а в плане кадров. А еще их было много… чертовски много.

Чаще всего китайцы вызывали у нас 3 вида эмоций: уважение, зависть и раздражение. В годах 1997-2004 любой пират, катающий болванки «Лучший Soft 200x», отдал бы почку за доступ к паре варезных серверов Китая.
Читать дальше →
Всего голосов 202: ↑192 и ↓10+182
Комментарии33

Вы и ваша работа *

Время на прочтение40 мин
Количество просмотров817K
Длинный материал. Время чтения – около 40 минут.

image

Доктор Ричард Хэмминг, профессор морской школы Монтерея в штате Калифорния и отставной учёный Bell Labs, прочёл 7 марта 1986 года очень интересную и стимулирующую лекцию «Вы и ваши исследования» переполненной аудитории примерно из 200 сотрудников и гостей Bellcore на семинаре в серии коллоквиумов в Bell Communications Research. Эта лекция описывает наблюдения Хэмминга в части вопроса «Почему так мало учёных делают значительный вклад в науку и так многие оказываются в долгосрочной перспективе забыты?». В течение своей более чем сорокалетней карьеры, тридцать лет которой прошли в Bell Laboratories, он сделал ряд прямых наблюдений, задавал учёным очень острые вопросы о том, что, как, откуда, почему они делали и что они делали, изучал жизни великих учёных и великие достижения, и вёл интроспекцию и изучал теории креативности. Эта лекция о том, что он узнал о свойствах отдельных учёных, их способностях, чертах, привычках работы, мироощущении и философии.
Читать дальше →
Всего голосов 239: ↑229 и ↓10+219
Комментарии127

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

Время на прочтение4 мин
Количество просмотров21K

Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.

Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.

Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.

Читать дальше →
Всего голосов 44: ↑38 и ↓6+32
Комментарии21

NLPub — каталог лингвистических решений

Время на прочтение2 мин
Количество просмотров9.2K
Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать дальше →
Всего голосов 47: ↑46 и ↓1+45
Комментарии39

Как я прошивку видеорегистратора F500 ковырял

Время на прочтение3 мин
Количество просмотров31K
Видеорегистратор в машине штука нужная и крайне полезная, особенно, если водитель склонен ездить по правилам. Одной из оптимальных по соотношению цена/качество является линейка F500 и их старший брат Каркам Q2. Вот тут есть большая и длинная тема обсуждения этих регистраторов.
Примерно полгода назад я стал обладателем такого устройства и очень доволен. Но захотелось его немного доработать — придать индивидуальности. Возникла эта идея в контексте регистратора как подарка. Задачей минимума была замена стартовой и финальной заставок на что-то свое. Эта задача была успешно решена, но обнаружился ещё простор для творческих поисков.
Для тех кому неинтересно читать технические подробности — на GitHub выложены исходники и бинарники (нужен .Net 4.0)
Читать дальше →
Всего голосов 32: ↑23 и ↓9+14
Комментарии20

Настройка Archlinux на ASUS Eee 1201NL

Время на прочтение7 мин
Количество просмотров9.1K
После того, как я устроился на работу адинистратором одного веб-проекта, появилась необходимость иногда что-то делать, находясь вне дома/офиса. Так как основной задачей в таких ситуациях было зайти на сервер по SSH и в браузере проверить результат действий, то решил остановить выбор на нетбуке. Но очень не хотелось распространённго разрешения 600px по вертикали. И всё-таки хотелось использовать нетбук не только для SSH, но и для прочих приятностей, вроде просмотра фильмов. Естественно, планировалось работать под Linux, поэтому требовалась нормальная поддержка оборудования.

В результате, остановился на «непонятном недоразумении» ASUS Eee PC 1201NL. Это такой своеобразный нетбук. Очень своеобразный.
Во-первых у него диагональ аж 12", что неприлично много для устройств этого класса.
Во-вторых, разрешение экрана 1366x768, что очень неплохо, но мелковато, если не настраивать более крупное значение DPI.
В-третьих он на базе платформы nVidia ION, что даёт хорошую производительность для подобных устройств. Недостатком является малое время работы — часа 4 со включенным bluetooth/wi-fi, если запустить какую-нибудь требовательную программу (например, игру Neverwinter Nights), то время снизится ещё сильнее.

Можно сделать вывод, что, по сути, данное решение является полноценным недорогим маленьким ноутбуком. Хоть и на базе процессора Intel Atom.
Читать дальше →
Всего голосов 62: ↑49 и ↓13+36
Комментарии23

Ментальные ловушки

Время на прочтение3 мин
Количество просмотров127K
Данная статья является кратким конспектом по книге "Andre Kukla: Mental Traps"

Ментальные ловушки — это так называемые грабли, на которые мы наступаем снова и снова. Безусловно каждый нормальный человек хочет, чтобы этот «неудачный шаг» в его деятельности был последним и больше не повторялся.

С «граблями» или ментальными ловушками можно легко справиться, если они лежат перед вами во всей красе, безо всякой маскировки. Но так бывает далеко не всегда и зачастую мы не видим и не понимаем в чем заключаются наши ошибки. Целью этой статьи является знакомство с наиболее «популярными» ментальными ловушками, которые Андре Кукла описал в своей книге.
Читать дальше →
Всего голосов 110: ↑88 и ↓22+66
Комментарии54

Памятка пользователям ssh

Время на прочтение13 мин
Количество просмотров1.5M
abstract: В статье описаны продвинутые функций OpenSSH, которые позволяют сильно упростить жизнь системным администраторам и программистам, которые не боятся шелла. В отличие от большинства руководств, которые кроме ключей и -L/D/R опций ничего не описывают, я попытался собрать все интересные фичи и удобства, которые с собой несёт ssh.

Предупреждение: пост очень объёмный, но для удобства использования я решил не резать его на части.

Оглавление:
  • управление ключами
  • копирование файлов через ssh
  • Проброс потоков ввода/вывода
  • Монтирование удалённой FS через ssh
  • Удалённое исполнение кода
  • Алиасы и опции для подключений в .ssh/config
  • Опции по-умолчанию
  • Проброс X-сервера
  • ssh в качестве socks-proxy
  • Проброс портов — прямой и обратный
  • Реверс-сокс-прокси
  • туннелирование L2/L3 трафика
  • Проброс агента авторизации
  • Туннелирование ssh через ssh сквозь недоверенный сервер (с большой вероятностью вы этого не знаете)
Читать дальше →
Всего голосов 360: ↑352 и ↓8+344
Комментарии148

«Диалог-2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов

Время на прочтение5 мин
Количество просмотров11K
В прошлом году мы довольно подробно писали про международную конференцию по компьютерной лингвистике «Диалог», одним из основных организаторов которой является наша компания. Конференция нынешнего года была примечательна тем, что на ней были подведены итоги сразу двух соревнований между системами автоматического анализа текста. За подробностями добро пожаловать под кат.

Читать дальше →
Всего голосов 24: ↑24 и ↓0+24
Комментарии30

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

Время на прочтение8 мин
Количество просмотров54K
Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.
Читать дальше →
Всего голосов 115: ↑109 и ↓6+103
Комментарии44

Размер Java объектов. Используем полученные знания

Время на прочтение5 мин
Количество просмотров14K
В предыдущей статье много комментаторов были не согласны в необходимости наличия знаний о размере объектов в java. Я категорически не согласен с этим мнением и поэтому подготовил несколько практических приемов, которые потенциально могут пригодится для оптимизации в Вашем приложении. Хочу сразу отметить, что не все из данных приемов могут применяться сразу во время разработки. Для придания большего драматизма, все расчеты и цифры будут приводится для 64-х разрядной HotSpot JVM.

Денормализация модели

Итак, давайте рассмотрим следующий код:
class Cursor {
    String icon;
    Position pos;
    Cursor(String icon, int x, int y) {
         this.icon = icon;
         this.pos = new Position(x, y);
    }
}
class Position {
    int x;
    int y;
    Position(int x, int y) {
        this.x = x;
        this.y = y;
    }
}

А теперь проведем денормализацию:
class Cursor2 {
    String icon;
    int x;
    int y;
    Cursor2(String icon, int x, int y) {
        this.icon = icon;
        this.x = x;
        this.y = y;
    }
}

Казалось бы — избавились от композиции и все. Но нет. Объект класса Cursor2 потребляет приблизительно на 30% меньше памяти чем объект класса Cursor (по сути Cursor + Position). Такое вот не очевидное следствие декомпозиции. За счет ссылки и заголовка лишнего объекта. Возможно это кажется не важным и смешным, но только до тех пор, пока объектов у Вас мало, а когда счет идет на миллионы ситуация кардинально меняется. Это не призыв к созданию огромных классов по 100 полей. Ни в коем случаем. Это может пригодится исключительно в случае, когда Вы вплотную подошли к верхней границе Вашей оперативной памяти и в памяти у Вас много однотипных объектов.
Читать дальше →
Всего голосов 43: ↑34 и ↓9+25
Комментарии40

DriverPack Solution 12

Время на прочтение3 мин
Количество просмотров47K
image

Для тех кто не в курсе, что это и с для чего:

DriverPack Solution — не простой установщик драйверов.
Функции диагностики компьютера и создания бэкапов драйверов делают его незаменимым для любого сисадмина! Быстро определит ваши железки по ID и поставит из своего пака или скачает с инета.
Читать дальше →
Всего голосов 87: ↑66 и ↓21+45
Комментарии69

Cisco. Второй выпуск. Используем Packet Tracer 5.0 для моделирования сети. Скринкаст.

Время на прочтение2 мин
Количество просмотров28K

Сегодня в выпуске:


Packet Tracer 5. Изучаем возможности программы.
Выпуск выполнен в виде скринкаста.
За 20 минут вы познакомитесь с основными функциями PT5.

image

На повестке дня:

Читать дальше →
Всего голосов 28: ↑26 и ↓2+24
Комментарии62

Getting things done? Не врите себе

Время на прочтение4 мин
Количество просмотров18K
Вы подписаны на блог GTD? Вас волнуют проблемы концентрации? Вы составляете распорядок дня, план на неделю, стратегию на месяц, но вечером внезапно <вставить внезапное> до самой ночи, а утром не можете встать? Всё очень плохо. А если вы знаете значение слова прокрастинация (хотя, справедливости ради, кто на хабре его не знает?), то это практически клинический случай. По крайне мере, все и вся вокруг, осознанно и не очень, пытаются нас в этом убедить, ну или просто говорят об этом… ну или молчат, но думают!

Внимание! Статья не содержит чудо рецептов, не сделает более внимательным или работоспособным. Думаю даже не расскажет о чём то, о чём вы до этого не думали.
Фактически, вся статья — это досужее рассуждение на тему (и не очень).
Однако, все совпадения с реальными людьми и событиями не случайны, и автор несёт всю полноту и меру ответственности за всё выше и ниже сказанное, поэтому, если какой либо абзац, предложение или слово кажется вам оскорбительным — не стесняйтесь выражать своё мнение в моей карме.
Так же позволю себе использовать аббревиатуру GTD в широком, а не конкретном смысле.


Читать дальше →
Всего голосов 154: ↑124 и ↓30+94
Комментарии69

Принципы написания приложений на ExtJS 2.x/3.x

Время на прочтение6 мин
Количество просмотров9.2K
Каркас для кроссбраузерной разработки ExtJS сейчас очень популярен. Это поистине грандиозный (и монструозный) набор компонентов, классов, функций, хелперов и т. п., которые могут как облегчить жизнь разработчика, так и усложнить ее. Говоря вообще, ExtJS (до 4-й версии) не устанавливает никаких «правил игры» для конечного разработчика: формально нет никаких требований и рекомендаций по проектированию и написанию надежных приложений.
Удивительно, что до сих пор качество пособий и туториалов для новичков ExtJS, мягко говоря, оставляет желать лучшего. Как и стандартная справка по ExtJS API, впрочем [1].
Цель данной статьи — показать, как писать приложения на базе ExtJS так, чтобы человеку, который будет поддерживать ваш код, не хотелось рвать волосы, а вам просто не было стыдно. А если серьезно, то в данной статье я предложу простой и короткий набор правил проектирования и написания приложений применительно к данному фреймворку.
Читать дальше →
Всего голосов 49: ↑46 и ↓3+43
Комментарии22

Akka для Java разработчика (часть 1)

Время на прочтение5 мин
Количество просмотров79K
В последнее время появилось довольно много языков программирования, которые используют для JVM как платформу для выполнения. Одним из наиболее «горячих» тем для обсуждения в последнее время является Scala. В этой статье я не буду рассматривать заслуженно это или нет, просто хочу рассказать как можно использовать средства этого языка используя Java и не написав ни одной строчки на Scala.
Итак, что такое actor и почему akka?
Всего голосов 40: ↑38 и ↓2+36
Комментарии29

Функциональное программирование в Java

Время на прочтение3 мин
Количество просмотров4.5K
Сейчас появляются новые модные языки использующие парадигму функционального программирования. Тем не менее, в обычной Java
можно использовать функции для описания поведения объектов. Причём делать это можно полностью в рамках синтаксиса Java.

Я опубликовал Java-библиотеку позволяющую связывать (binding) объекты через функции (см. https://code.google.com/p/tee-binding/ )

image

Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии16

PageRank-сеть разнородных объектов

Время на прочтение2 мин
Количество просмотров1K
Данная заметка является развитием предыдущего текста, "Проблемы обобщения PageRank". Суть в том, чтобы более-менее полноценно рейтинговать людей с помощью алгоритма PageRank. Почему именно PageRank? Ну, конечно можно составить что-то типа суммы-анкеты из разных слагаемых и вычислять ее для каждого пользователя. Например, образование среднее столько-то баллов, высшее столько-то, должность офисный планктон столько-то, топ-менеджер столько-то, ученая степень есть/нету, опыт работы столько-то лет (вычисляем функцию от количества лет), рейтинг на Хабре такой-то, количество френдов в Фейсбуке столько-то и т. д. и т. п. Мало что список получится длинным и непонятно, учтете ли вы все наиболее значимые факторы. Но понадобится еще каким-то образом (скорее «на глазок») определить коэффициенты значимости при каждом слагаемом, и это тоже задача. Метод PageRank дает на мой взгляд любопытный способ решить эту последнюю задачу.
Читать дальше →
Всего голосов 4: ↑3 и ↓1+2
Комментарии5

Интернет как корпус – новый семинар в серии ABBYY Open

Время на прочтение1 мин
Количество просмотров3.5K

В следующий вторник, 19 июля, в московском офисе ABBYY состоится очередной семинар в серии ABBYY Open «Актуальные проблемы компьютерной лингвистики». На семинаре выступит Сергей Шаров – сотрудник кафедры перевода Университета Лидса (Великобритания), ранее работавший в Российском НИИ искусственного интеллекта и Институте русского языка, РАН. Его доклад «Web as Corpus, Подходы к количественному и качественному анализу текстового содержания интернета» посвящен методам сбора лингвистических корпусов в интернете, оценке качества этих методов и рассмотрению подходов к автоматической классификации текстов.

На семинаре будут описаны способы быстрого сбора корпусов в нужной области, подходы к автоматической классификации текстов по предметным областям и жанрам с помощью таких методов как Support Vector Machines (SVM), Topic Modeling, Multidimensional Scaling. Помимо количественной оценки качества методов необходимо также проводить качественную оценку соответствия результатов классификации языковой интуиции. На семинаре будут приведены примеры использования методов создания и обработки корпусов для русского, английского, китайского и немецкого языков.

Подробную информацию о мероприятии вы можете прочитать здесь. Семинар бесплатный, для участия обязательно нужно зарегистрироваться и дождаться подтверждения регистрации.

UPD: Видео с семинара можно найти здесь
Всего голосов 19: ↑17 и ↓2+15
Комментарии4

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность