• 10 уроков рекомендательной системы Quora

    • Tutorial


    Привет, Хабр! Как директор по аналитике Retail Rocket, я периодически посещаю различные профильные мероприятия, и в сентябре 2016 года мне посчастливилось побывать на конференции RecSys, посвященной рекомендательным системам, в Бостоне. Было очень много интересных докладов, но мы решили сделать перевод одного из них Lessons Learned from Building Real­-Life Recommender Systems. Он очень интересен с позиции того, как Machine Learning применять в production системах. Про сам ML написано множество статей: алгоритмы, практика применения, конкурсы Kaggle. Но вывод алгоритмов в production — это отдельная и большая работа. Скажу по секрету, разработка алгоритма занимает всего 10%-20% времени, а вывод его в бой все 80-90%. Здесь появляется множество ограничений: какие данные где обрабатывать (в онлайне или оффлайне), время обучения модели, время применения модели на серверах в онлайне и т.д. Критически важным аспектом также является выбор оффлайн/онлайн метрик и их корреляция. На этой же конференции мы делали похожий доклад Hypothesis Testing: How to Eliminate Ideas as Soon as Possible, но выбрали вышеупомянутый учебный доклад от Quora, т.к. он менее специфичный и его можно применять за пределами рекомендательных систем.
    Читать дальше →
    • +20
    • 5,3k
    • 6
  • Power Query: стероиды для MS Excel и Power BI

      image

      В данной статье я хочу рассказать о некоторых возможностях бесплатной и крайне полезной, но пока еще мало известной надстройки над MS Excel под названием Power Query.

      Power Query позволяет забирать данные из самых разных источников (таких как csv, xls, json, текстовых файлов, папок с этими файлами, самых разных баз данных, различных api вроде Facebook opengraph, Google Analytics, Яндекс.Метрика, CallTouch и много чего еще), создавать повторяемые последовательности обработки этих данных и загружать их внутрь таблиц Excel или самого data model.

      И вот под катом вы можете найти подробности всего этого великолепия возможностей.
      Читать дальше →
    • Лемматизация в Excel, или «Робот-распознаватель 3.0»

        Кто работал с онлайн-рекламой, тот в цирке не смеётся знает, что поисковики порой выдают неожиданные ответы на запросы или подкидывают совершенно не те объявления, которые могут быть интересны. В последнем случае корень проблемы зачастую кроется в наборе ключевых слов, которые использует рекламодатель в своих кампаниях. Бездумная автоматизация подбора ключевиков приводит к печальным последствиям, среди которых самое удручающее — пустые показы и клики. Excel-изобретатель и рационализатор Realweb Дмитрий Тумайкин озадачился этой проблемой и создал очередной файл-робот, который рад раздать миру и Хабру. Вновь передаём слово автору.


        Читать дальше →
      • Автоматизированные правила AdWords, включаем робота

          17 февраля Google сделал доступной всем пользователям системы AdWords функцию автоматизированых правил (automated rules).
          Основное назначение этой функции — переложить на машину весомую часть рутинных операций по оптимизации рекламы в системе, а также добавить функции будильника — по запуску отложенных изменений в заданное время.
          google adwords automated management
          С функцией автоматизированных правил Google AdWords я успел поиграть еще до широкого релиза в аккаунте западного клиента рекламодателя.
          Потом медитировал перед монитором, силясь понять, какие нужные функции данный автомат способен выполнить.

          И чего я тогда намедитировал вы сможете узнать из под ката.
          Читать дальше →
        • Что происходит когда юзер навсегда уходит в оффлайн

            Задумывались ли вы что будет с аккаунтом вашей почты, ЖЖ, блога или одной из социальных сетей когда Вас не станет? Кто получит доступ к вашим счетам, переписке, личным данным?

            Оказывается уже существуют специальные сервисы (lastmessagesclub, assetlock), которые имеют доступ к базе данных официальных органов, фиксирующие тот факт что Вас уже нет, т.е благодаря им никто не может получить доступ к несанкционированному использованию вашей личной информации. А также могут разослать последнее сообщение вашим контактам.
            Разные сервисы по разному относятся к этому вопросу.
            Рассмотрим на примере Google что будет с вашим акком в самом не выгодном для Вас случае
          • трудности перевода

              Вы знаете фильм Стивена Содеберга «The Girlfriend Experience»(«Девушка по вызову»)?
              Сам фильм знаменателен тем, что заглавную роль в нем «сыграла» порнозвезда Саша Грей.
              Ребята-озвучивальщики получили заказ на этот фильм, следом прилетел перевод.
              И перевод, как бы сказать, оказался не то что промтовским, а скорее просто тупой нарезкой слов из англо-русского словаря.
              На все доводы заказчик отвечал, что так и надо и не ссыте — озвучивайте. Сказано? Сделано!
              Вобщем 10 тысяч человек скачало этот фильм…
              image

            • XP tweaks: переносим временные файлы и кэш на ramdisk

                Вдохновленный вот этим комментарием, я решил по-быстрому реализовать задуманное.
                Итак, берем реализацию rramdisk, про которую сам автор говорит:
                There are plenty of Ramdisk driver and software available, such as RamDisk9xME, RAMDiskXP, RAMDiskSE and RAMDiskVE from Cenatek, RamDisk and RamDisk Plus from SuperSpeed, RAMDisk Enterprise Lite and Full version plus 64 MB limited free RAMDiskbased on Microsoft Ramdisk below from QSoft, and Ramdisk.sys driver for Windows 2000 from Microsoft published under KB257405. However, most of these Ramdisk drivers either is not free, or limit in its functionality especially on the size on RAM-disk. Some not even support Windows Vista.
                The following freeware RRamdisk.sys, originally written by Gavotte based on Microsoft’s Ramdisk.sys, and later being added a GUI interface by lyh728 is not only free to use, it also stable, doesn’t have size limitation, supports popular FAT16,FAT32, NTFS filesystems, and supports Windows 2000 operating system and above including Vista.

                Устанавливаем. Процесс достаточно прост и понятен. Запускаем rramdisk.exe, устанавливаем атрибуты:



                В моем случае я выбрал размер диска 128 Мб (у меня 1 Гб ОЗУ), все остальное оставил как есть.
                Далее задача — перенести на ramdisk наиболее часто используемые временные файлы.

                Читать дальше →
              • Веб-аналитика: анализируй это! Часть 1. Вступление

                  Часть 1. Вступление.
                  Часть 2. Сбор данных.
                  Часть 3. Базовые метрики.
                  Часть 4. От статистики к аналитике
                  Часть 5. Разделяй и думай
                  Часть 6. Action!
                  Счетчики посещаемости знакомы всем пользователям интернета уже много лет. Многие владельцы сайтов ставят сразу несколько иконок разных счетчиков, и день за днём цифры на них растут и всё больше радуют хозяина.



                  Далеко не все знают, какую информацию можно извлечь из статистики сайта, кроме цифр посещаемости и, иногда, источников посетителей. Однако, современные системы статистики предоставляют куда больше возможностей для подсчета, обработки и анализа данных посещаемости. Их даже стали по-другому называть: «инструменты веб-аналитики»!

                  Сейчас большинство успешных коммерческих сайтов уделяет огромное внимание сбору и анализу статистических данных. В частности, крупнейший международный онлайн-магазин Amazon.com создал целый культ аналитики.
                  Читать дальше →
                • Свободный WYSIWYG редактор для сайтов и CMS + файловый менеджер для него

                    Хочу представить на суд общественности один наш продукт, выпущенный под open source лицензией.
                    elRTE и elFinder — это свободный WYSIWYG редактор для сайтов и систем управления контентом (CMS) и файловый менеджер для него.

                    Сайт проекта: elrte.ru | Проект на sourceforge: sourceforge.net/projects/elrte

                    Расскажу, в общих чертах, почему мы за это взялись и, что у нас получилось. В нашей CMS мы пользовали FCKEditor. Почему же решили написать свой редактор? Сложно сказать. Решение вызревало довольно долго. Немаловажную роль оказала любовь разработчиков начинать проекты с нуля и изобретать велосипеды. Но это так — эмоции.
                    Читать дальше →
                  • Английский без дураков: Уроки онлайн бесплатно, вживую, для всех!

                      image

                      Сегодня у меня маленький праздник: первая годовщина второго рождения сайта «Английский без дураков». Давно собирался рассказать уважаемым хабравчанам об этом своем проекте, да все как-то не было повода, но сегодня не удержусь, уж не обессудьте.

                      Если вы когда-нибудь интересовались возможностями изучения английского онлайн, вам должны быть известны основные фигуры Рунета в этой тематике, а вместе с этим — знакомо чувство досады от того, что все эти ресурсы представляют собой по сути одно и то же, а именно собрание статических материалов той или иной степени разнообразия и наполненности: учебники для скачивания, книги на английском, статьи по грамматике, изредка какие-то тесты и упражнения, плюс подборки идиом, пословиц, анекдотов, песен и прочей вспомогательной информации.

                      И это все?! Сейчас, когда на календаре 21 век? А где же интерактив? Где мультимедиа? Где живое, вибрирующее сообщество? Ведь при сегодняшнем уровне интернет-технологий поставить все это на службу делу изучения языка более чем реально! Обнаружив когда-то на месте отечественных сервисов по изучению английского зияющую пустоту, я не стал разводить сантименты, а засел за комп, и через некоторое время на свет появился проект, в котором получило воплощение мое собственное представление о том, каким должен быть сайт в помощь изучающим язык. В двух словах: если традиционные вебсайты напоминают библиотеку, то «Английский без дураков» — учебное заведение.
                      Читать дальше →