Я к тому, что чем обширнее аудитория вКонтакте, тем эффективнее будет работа. Для существующих систем (Бегун, Директ) было бы шоколадно сотрудничество и обмен данными (общая БД привязки таргетинга), но разглашение личной информации карается не только законом…
Точно! Серверная для пижона должна стать как котельня на Титанике — тысяча рабов махают лопатами и поддают жару всей локалке. А пижон нажимает кнопку "+1 сервер в стойку". Ммм, будущее!
У меня сейчас в проекте на миллион страниц алгоритм попроще: текст без тегов, берутся все слова > 4 символов в строчных буквах, сортируются по алфавиту, склеиваются в строчку и md5 на неё. Получается 32 символа подписи на страницу.
На миллион страниц порядка 2% выявленных дубликатов. Алгоритм обрабатывает всю базу меньше минуты, даже учитывая нахождение базы на другом компьютере.
за 2008 год есть тоже интересные события, которые многие еще не видели, например первое выступление Обамы (по собранным данным, могут разниться с реальностью) — www.tvnewz.ru/themes/barak_obama/page3.html
а что будет удобней для «программиста»? $bananes = format_num(100);? это самый оптимальный вариант, но боюсь функция не угадает в чем мерять переданные единицы — в бананах или попугаях…
Если Вы представляете официальный телеканал — свяжитесь, напишем робота под любую выдачу :) Но другие типы источников пока не планируются, так как сам проект содержит название TV. Хотя есть наработки на будущие проекты, анонс обязательно будет!
Предложенная концепция — все сюжеты на весь экран удобна после длительного использования, попробуйте! Глазами удобней просматривать сюжеты, чем крутить колёсико.
Хмм, интересный подход. Попробую составить такой план, только вписать в каждый час — 15 минут валяния на диване на сон/раздумье. Частенько помогает встать с новыми силами :)
Я к тому, что чем обширнее аудитория вКонтакте, тем эффективнее будет работа. Для существующих систем (Бегун, Директ) было бы шоколадно сотрудничество и обмен данными (общая БД привязки таргетинга), но разглашение личной информации карается не только законом…
кто может завести в Россию?! куплю ядом или вебмани, пересылку почтой или курьером!
На миллион страниц порядка 2% выявленных дубликатов. Алгоритм обрабатывает всю базу меньше минуты, даже учитывая нахождение базы на другом компьютере.
за 2008 год есть тоже интересные события, которые многие еще не видели, например первое выступление Обамы (по собранным данным, могут разниться с реальностью) — www.tvnewz.ru/themes/barak_obama/page3.html
массив можно за 20 секунд переписать на аргументы, а регулярка для подстраховки — и написано почему :)
слово — запросов
видеоновости 291
видео новости 5848
собственно интерес выше у второго написания
Предложенная концепция — все сюжеты на весь экран удобна после длительного использования, попробуйте! Глазами удобней просматривать сюжеты, чем крутить колёсико.
Хинт добавлю :)
$text = declension($int, array('попугай','попугая','попугаев');
function declension($digit, $expr, $onlyword = false) {
if(empty($expr[2])) $expr[2]=$expr[1];
$i = preg_replace('/[^0-9]+/s','',$digit)%100; //intval не всегда корректно работает
if ( $onlyword ) $digit='';
if ( $i >= 5 AND $i <= 20 ) $res=$digit.' '.$expr[2];
else {
$i%=10;
if ($i==1) $res=$digit.' '.$expr[0];
elseif ( $i >= 2 && $i <= 4 ) $res = $digit .' '. $expr[1];
else $res = $digit.' '.$expr[2];
}
return trim($res);
}
(с) где-то с интенета