Статьи / Закладки / Профиль kzn / Хабр

Антон Казенников @kzn

Пользователь

Профиль Публикации 1Комментарии 233Закладки 67

saynurin 28 авг 2013 в 13:00

Система персонализации News360: ранжирование кластеров информации

11 мин

9.1K

Data Mining*

Когда система рекомендаций работает с большим количеством контента, основной задачей становится не фильтрация этого контента, а его ранжирование. Если говорить о новостях — каждый день выходят сотни тысяч статей, тысячи из которых могут затрагивать интересы каждого человека, читающего новости. Но в основном пользователи не читают больше 5-10 статей в день (по данным News360). Какие статьи показать первыми?

Ответ на этот вопрос в News360 ищут уже третий год. Мы нашли уже много разных ответов, но в этом году решили отказаться от концепции, которая была основной на протяжении всех предыдущих лет.

В статье простыми словами постараюсь рассказать о том, почему в News360 сначала несколько лет работали над реализацией и развитием системы кластеризации статей по событиям и ранжирования событий, а затем выбросили этот подход и решили реализовать другой. А также немного о том, как работает News360, что под капотом и где об этом почитать.

News360 - Everything you want to read

Читать дальше →

+17

MennyCalavera 16 мар 2014 в 17:43

Впечатления от китайской warez-сцены

6 мин

68K

Информационная безопасность*

*много букв, местами неполиткорректно, текст лежал в столе 5 лет

Первое знакомство с представителями Китая на Сцене произошло через 2 дня после моего «входа» в ту самую Сцену. Мне понадобился доступ к популярному в то время варез-FTP “Typhoon Epicenter” (о том, что он располагался в Гонг Конге я узнал позже). Из всех друзей и знакомых организовать доступ мог только один человек – «приятель знакомого моего друга». Он оказался китайцем по вере и паспорту, и мы некоторое время плотно общались. Именно после знакомства с ним, я стал относиться к китайцам с пассивным интересом.

Это сумасшедшие в плане доведения своих навыков до абсолюта. Собственно, мы за это их и уважали, потому что у них были "мозги", которых порой не хватало нам – не в плане ума, а в плане кадров. А еще их было много… чертовски много.

Чаще всего китайцы вызывали у нас 3 вида эмоций: уважение, зависть и раздражение. В годах 1997-2004 любой пират, катающий болванки «Лучший Soft 200x», отдал бы почку за доступ к паре варезных серверов Китая.

Читать дальше →

+182

vfrolov 15 янв 2014 в 16:58

Вы и ваша работа *

40 мин

817K

GTD*

Перевод

^{Длинный материал. Время чтения – около 40 минут.}

Доктор Ричард Хэмминг, профессор морской школы Монтерея в штате Калифорния и отставной учёный Bell Labs, прочёл 7 марта 1986 года очень интересную и стимулирующую лекцию «Вы и ваши исследования» переполненной аудитории примерно из 200 сотрудников и гостей Bellcore на семинаре в серии коллоквиумов в Bell Communications Research. Эта лекция описывает наблюдения Хэмминга в части вопроса «Почему так мало учёных делают значительный вклад в науку и так многие оказываются в долгосрочной перспективе забыты?». В течение своей более чем сорокалетней карьеры, тридцать лет которой прошли в Bell Laboratories, он сделал ряд прямых наблюдений, задавал учёным очень острые вопросы о том, что, как, откуда, почему они делали и что они делали, изучал жизни великих учёных и великие достижения, и вёл интроспекцию и изучал теории креативности. Эта лекция о том, что он узнал о свойствах отдельных учёных, их способностях, чертах, привычках работы, мироощущении и философии.

Читать дальше →

+219

127

sergeypid 22 янв 2013 в 11:03

Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают

4 мин

21K

Алгоритмы*

Перевод

Джереми Ховард — президент и «главный по науке» компании Kaggle, превратившей статистическое прогнозирование в спорт.

Peter Aldhous: Kaggle называет себя онлайн-биржей мозгов. Расскажите об этом.

Джереми Ховард: Это веб-сайт, на котором размещают конкурсы по статистическому прогнозированию. Мы провели много удивительных конкурсов. Например, разработка алгоритма оценки студенческих рефератов. Или вот недавно закончился конкурс на разработку системы обучения Microsoft Kinect жестам. Идея состояла в том, чтобы показать контроллеру жест один раз, а алгоритм должен обучиться распознавать такие жесты в будущем. Еще один конкурс — прогнозирование биологических свойств молекул при скрининге на возможные наркотические свойства.

Читать дальше →

+32

dustalov 1 окт 2012 в 08:37

NLPub — каталог лингвистических решений

2 мин

9.2K

Я пиарюсь

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?

Читать дальше →

+45

magnitudo 17 сен 2012 в 16:28

Как я прошивку видеорегистратора F500 ковырял

3 мин

31K

Программирование*.NET*

Видеорегистратор в машине штука нужная и крайне полезная, особенно, если водитель склонен ездить по правилам. Одной из оптимальных по соотношению цена/качество является линейка F500 и их старший брат Каркам Q2. Вот тут есть большая и длинная тема обсуждения этих регистраторов.
Примерно полгода назад я стал обладателем такого устройства и очень доволен. Но захотелось его немного доработать — придать индивидуальности. Возникла эта идея в контексте регистратора как подарка. Задачей минимума была замена стартовой и финальной заставок на что-то свое. Эта задача была успешно решена, но обнаружился ещё простор для творческих поисков.
Для тех кому неинтересно читать технические подробности — на GitHub выложены исходники и бинарники (нужен .Net 4.0)

Читать дальше →

+14

Shtsh 23 фев 2011 в 10:52

Настройка Archlinux на ASUS Eee 1201NL

7 мин

9.1K

Настройка Linux*

После того, как я устроился на работу адинистратором одного веб-проекта, появилась необходимость иногда что-то делать, находясь вне дома/офиса. Так как основной задачей в таких ситуациях было зайти на сервер по SSH и в браузере проверить результат действий, то решил остановить выбор на нетбуке. Но очень не хотелось распространённго разрешения 600px по вертикали. И всё-таки хотелось использовать нетбук не только для SSH, но и для прочих приятностей, вроде просмотра фильмов. Естественно, планировалось работать под Linux, поэтому требовалась нормальная поддержка оборудования.

В результате, остановился на «непонятном недоразумении» ASUS Eee PC 1201NL. Это такой своеобразный нетбук. Очень своеобразный.
Во-первых у него диагональ аж 12", что неприлично много для устройств этого класса.
Во-вторых, разрешение экрана 1366x768, что очень неплохо, но мелковато, если не настраивать более крупное значение DPI.
В-третьих он на базе платформы nVidia ION, что даёт хорошую производительность для подобных устройств. Недостатком является малое время работы — часа 4 со включенным bluetooth/wi-fi, если запустить какую-нибудь требовательную программу (например, игру Neverwinter Nights), то время снизится ещё сильнее.

Можно сделать вывод, что, по сути, данное решение является полноценным недорогим маленьким ноутбуком. Хоть и на базе процессора Intel Atom.

Читать дальше →

+36

edem 10 авг 2012 в 21:39

Ментальные ловушки

3 мин

127K

Учебный процесс в IT

Данная статья является кратким конспектом по книге "Andre Kukla: Mental Traps"

Ментальные ловушки — это так называемые грабли, на которые мы наступаем снова и снова. Безусловно каждый нормальный человек хочет, чтобы этот «неудачный шаг» в его деятельности был последним и больше не повторялся.

С «граблями» или ментальными ловушками можно легко справиться, если они лежат перед вами во всей красе, безо всякой маскировки. Но так бывает далеко не всегда и зачастую мы не видим и не понимаем в чем заключаются наши ошибки. Целью этой статьи является знакомство с наиболее «популярными» ментальными ловушками, которые Андре Кукла описал в своей книге.

Читать дальше →

+66

amarao 30 июл 2012 в 19:55

Памятка пользователям ssh

13 мин

1.5M

Настройка Linux*Системное администрирование*Серверное администрирование*

abstract: В статье описаны продвинутые функций OpenSSH, которые позволяют сильно упростить жизнь системным администраторам и программистам, которые не боятся шелла. В отличие от большинства руководств, которые кроме ключей и -L/D/R опций ничего не описывают, я попытался собрать все интересные фичи и удобства, которые с собой несёт ssh.

Предупреждение: пост очень объёмный, но для удобства использования я решил не резать его на части.

Оглавление:

управление ключами
копирование файлов через ssh
Проброс потоков ввода/вывода
Монтирование удалённой FS через ssh
Удалённое исполнение кода
Алиасы и опции для подключений в .ssh/config
Опции по-умолчанию
Проброс X-сервера
ssh в качестве socks-proxy
Проброс портов — прямой и обратный
Реверс-сокс-прокси
туннелирование L2/L3 трафика
Проброс агента авторизации
Туннелирование ssh через ssh сквозь недоверенный сервер (с большой вероятностью вы этого не знаете)

Читать дальше →

+344

148

MKrivosheev 13 июл 2012 в 00:02

«Диалог-2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов

5 мин

11K

Блог компании Content AI

NEWS, конечно, написано почему-то в конце, но не будем придираться. Это же всего лишь картинка :)

В прошлом году мы довольно подробно писали про международную конференцию по компьютерной лингвистике «Диалог», одним из основных организаторов которой является наша компания. Конференция нынешнего года была примечательна тем, что на ней были подведены итоги сразу двух соревнований между системами автоматического анализа текста. За подробностями добро пожаловать под кат.

Читать дальше →

+24

kmike 18 янв 2009 в 07:21

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

8 мин

54K

Python*

Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.

Читать дальше →

+103

doom369 8 фев 2012 в 15:32

Размер Java объектов. Используем полученные знания

5 мин

14K

Java*

В предыдущей статье много комментаторов были не согласны в необходимости наличия знаний о размере объектов в java. Я категорически не согласен с этим мнением и поэтому подготовил несколько практических приемов, которые потенциально могут пригодится для оптимизации в Вашем приложении. Хочу сразу отметить, что не все из данных приемов могут применяться сразу во время разработки. Для придания большего драматизма, все расчеты и цифры будут приводится для 64-х разрядной HotSpot JVM.

Денормализация модели

Итак, давайте рассмотрим следующий код:

class Cursor {
    String icon;
    Position pos;
    Cursor(String icon, int x, int y) {
         this.icon = icon;
         this.pos = new Position(x, y);
    }
}
class Position {
    int x;
    int y;
    Position(int x, int y) {
        this.x = x;
        this.y = y;
    }
}

А теперь проведем денормализацию:

class Cursor2 {
    String icon;
    int x;
    int y;
    Cursor2(String icon, int x, int y) {
        this.icon = icon;
        this.x = x;
        this.y = y;
    }
}

Казалось бы — избавились от композиции и все. Но нет. Объект класса Cursor2 потребляет приблизительно на 30% меньше памяти чем объект класса Cursor (по сути Cursor + Position). Такое вот не очевидное следствие декомпозиции. За счет ссылки и заголовка лишнего объекта. Возможно это кажется не важным и смешным, но только до тех пор, пока объектов у Вас мало, а когда счет идет на миллионы ситуация кардинально меняется. Это не призыв к созданию огромных классов по 100 полей. Ни в коем случаем. Это может пригодится исключительно в случае, когда Вы вплотную подошли к верхней границе Вашей оперативной памяти и в памяти у Вас много однотипных объектов.

Читать дальше →

+25

Duti_Fruti 27 дек 2011 в 19:56

DriverPack Solution 12

3 мин

47K

Системное администрирование*

Для тех кто не в курсе, что это и с для чего:

DriverPack Solution — не простой установщик драйверов.
Функции диагностики компьютера и создания бэкапов драйверов делают его незаменимым для любого сисадмина! Быстро определит ваши железки по ID и поставит из своего пака или скачает с инета.

Читать дальше →

+45

zepps 30 окт 2008 в 02:30

Cisco. Второй выпуск. Используем Packet Tracer 5.0 для моделирования сети. Скринкаст.

2 мин

28K

Cisco*

Сегодня в выпуске:

Packet Tracer 5. Изучаем возможности программы.
Выпуск выполнен в виде скринкаста.
За 20 минут вы познакомитесь с основными функциями PT5.

На повестке дня:

Читать дальше →

+24

tanq 8 сен 2011 в 17:52

Getting things done? Не врите себе

4 мин

18K

GTD*

Вы подписаны на блог GTD? Вас волнуют проблемы концентрации? Вы составляете распорядок дня, план на неделю, стратегию на месяц, но вечером внезапно <вставить внезапное> до самой ночи, а утром не можете встать? Всё очень плохо. А если вы знаете значение слова прокрастинация (хотя, справедливости ради, кто на хабре его не знает?), то это практически клинический случай. По крайне мере, все и вся вокруг, осознанно и не очень, пытаются нас в этом убедить, ну или просто говорят об этом… ну или молчат, но думают!

^{Внимание! Статья не содержит чудо рецептов, не сделает более внимательным или работоспособным. Думаю даже не расскажет о чём то, о чём вы до этого не думали.

Фактически, вся статья — это досужее рассуждение на тему (и не очень).

Однако, все совпадения с реальными людьми и событиями не случайны, и автор несёт всю полноту и меру ответственности за всё выше и ниже сказанное, поэтому, если какой либо абзац, предложение или слово кажется вам оскорбительным — не стесняйтесь выражать своё мнение в моей карме.

Так же позволю себе использовать аббревиатуру GTD в широком, а не конкретном смысле.}

Читать дальше →

+94

knekrasov 7 сен 2011 в 10:59

Принципы написания приложений на ExtJS 2.x/3.x

6 мин

9.2K

JavaScript*

Из песочницы

Каркас для кроссбраузерной разработки ExtJS сейчас очень популярен. Это поистине грандиозный (и монструозный) набор компонентов, классов, функций, хелперов и т. п., которые могут как облегчить жизнь разработчика, так и усложнить ее. Говоря вообще, ExtJS (до 4-й версии) не устанавливает никаких «правил игры» для конечного разработчика: формально нет никаких требований и рекомендаций по проектированию и написанию надежных приложений.
Удивительно, что до сих пор качество пособий и туториалов для новичков ExtJS, мягко говоря, оставляет желать лучшего. Как и стандартная справка по ExtJS API, впрочем [1].
Цель данной статьи — показать, как писать приложения на базе ExtJS так, чтобы человеку, который будет поддерживать ваш код, не хотелось рвать волосы, а вам просто не было стыдно. А если серьезно, то в данной статье я предложу простой и короткий набор правил проектирования и написания приложений применительно к данному фреймворку.

Читать дальше →

+43

aib 5 авг 2011 в 18:43

Akka для Java разработчика (часть 1)

5 мин

79K

Java*

В последнее время появилось довольно много языков программирования, которые используют для JVM как платформу для выполнения. Одним из наиболее «горячих» тем для обсуждения в последнее время является Scala. В этой статье я не буду рассматривать заслуженно это или нет, просто хочу рассказать как можно использовать средства этого языка используя Java и не написав ни одной строчки на Scala.

Итак, что такое actor и почему akka?

+36

SSSurkv 25 авг 2011 в 20:30

Функциональное программирование в Java

3 мин

4.5K

Java*

Из песочницы

Сейчас появляются новые модные языки использующие парадигму функционального программирования. Тем не менее, в обычной Java
можно использовать функции для описания поведения объектов. Причём делать это можно полностью в рамках синтаксиса Java.

Я опубликовал Java-библиотеку позволяющую связывать (binding) объекты через функции (см. https://code.google.com/p/tee-binding/ )

Читать дальше →

VRus 13 июл 2011 в 14:25

PageRank-сеть разнородных объектов

2 мин

Алгоритмы*

Данная заметка является развитием предыдущего текста, "Проблемы обобщения PageRank". Суть в том, чтобы более-менее полноценно рейтинговать людей с помощью алгоритма PageRank. Почему именно PageRank? Ну, конечно можно составить что-то типа суммы-анкеты из разных слагаемых и вычислять ее для каждого пользователя. Например, образование среднее столько-то баллов, высшее столько-то, должность офисный планктон столько-то, топ-менеджер столько-то, ученая степень есть/нету, опыт работы столько-то лет (вычисляем функцию от количества лет), рейтинг на Хабре такой-то, количество френдов в Фейсбуке столько-то и т. д. и т. п. Мало что список получится длинным и непонятно, учтете ли вы все наиболее значимые факторы. Но понадобится еще каким-то образом (скорее «на глазок») определить коэффициенты значимости при каждом слагаемом, и это тоже задача. Метод PageRank дает на мой взгляд любопытный способ решить эту последнюю задачу.

Читать дальше →

luciana 13 июл 2011 в 11:58

Интернет как корпус – новый семинар в серии ABBYY Open

1 мин

3.5K

Блог компании Content AI

В следующий вторник, 19 июля, в московском офисе ABBYY состоится очередной семинар в серии ABBYY Open «Актуальные проблемы компьютерной лингвистики». На семинаре выступит Сергей Шаров – сотрудник кафедры перевода Университета Лидса (Великобритания), ранее работавший в Российском НИИ искусственного интеллекта и Институте русского языка, РАН. Его доклад «Web as Corpus, Подходы к количественному и качественному анализу текстового содержания интернета» посвящен методам сбора лингвистических корпусов в интернете, оценке качества этих методов и рассмотрению подходов к автоматической классификации текстов.

На семинаре будут описаны способы быстрого сбора корпусов в нужной области, подходы к автоматической классификации текстов по предметным областям и жанрам с помощью таких методов как Support Vector Machines (SVM), Topic Modeling, Multidimensional Scaling. Помимо количественной оценки качества методов необходимо также проводить качественную оценку соответствия результатов классификации языковой интуиции. На семинаре будут приведены примеры использования методов создания и обработки корпусов для русского, английского, китайского и немецкого языков.

Подробную информацию о мероприятии вы можете прочитать здесь. Семинар бесплатный, для участия обязательно нужно зарегистрироваться и дождаться подтверждения регистрации.

UPD: Видео с семинара можно найти здесь

+15

1 2