• Часть первая, а вторую часть всё равно никто не читает

      О чем собственно речь


      Как-то раз одним поздним декабрьским вечером завершился сбор материала для хабра-статьи, посвященной SAT. Материала оказалось слишком много и передо мной встал выбор: разделить статью на две части или собрать весь материал вместе в одной статье. Выбор был сделан в пользу разделения на части (первая и вторая). К моему удивлению, вторая часть получила значительно меньше внимания, чем первая — фактически её прочитали в два раза меньше человек.

      Время шло, и я стал замечать, что это происходило не только с моими статьями, но и со многими другими статьями в нескольких частях. Тогда у меня возник вопрос, а верно ли в общем, что вторая часть получает меньше внимания (просмотров, плюсов, и записей избранного)?

      (сделано на основе хабра-статьи Как лгать с помощью статистики)

      Структура статьи
      1. О чем собственно речь
      2. Данные
      3. Сравниваем части
      4. Серии статей
      5. Заключение
      6. Дальнейшее чтение

      Читать дальше →
    • 10 игровых механик в HTML Academy

        В тот момент, когда начиналась разработка HTML Academy, мы достаточно серьёзно играли в WOW, да и, вообще, были поклонниками игр Blizzard со стажем. Поэтому с игровыми механиками были знакомы достаточно хорошо, хотя сами этого не подозревали. Многие интересные механизмы появились в академии, как нам казалось, сами по себе. Но позже выяснилось, что на самом деле они называются «игровыми механиками», а мы их неосознанно взяли из игровой практики.


        Читать дальше →
      • Портрет Хабра-tutorial

          В наш век только бесполезные вещи и необходимы человеку. Оскар Уайльд, Портрет Дориана Грея (источник)

          А вы никогда не задумывались, чем обычный пост на хабре (порошок обычныйTM) отличается от tutorial? И как это «отличается» вообще можно измерить? Есть ли здесь какие-то закономерности и можно ли по ним предсказать метку:

          В данной статье мы обсудим так называемый exploratory data analysis или кратко EDA (исследовательский анализ данных) применительно к статьям Хабрахабра, а в частности уделим особое внимание tutorial. Прежде всего EDA направлен на детальное изучение данных, и необходим для понимания, с чем мы собственно работаем. Важной частью является сбор и очистка данных и сам выбор какие данные собирать. Особенность метода состоит в визуализации и поиске важных характеристик и тенденций.

          Exploratory data analysis — это первый шаг в изучении и понимании данных, без него мы можем загнать себя в многочисленные ловушки, описанные ранее автором в статье: "Как правильно лгать с помощью статистики".

          Как выглядит обычный хабра-tutorial


          В качестве простой демонстрации рассмотрим простейшую картину из трех параметров: просмотры, избранное (favourites) и рейтинг (количество плюсов), для трех классов: все статьи вместе, обычный пост (не-tutorial) и tutorial.

          Даже в столь упрощенной картине, заметна разница между классами. Наша интуиция и здравый смысл подсказывают нам, что tutorial в среднем чаще добавляют в избранное, но интуиция не говорит насколько чаще, и что они набирают меньше плюсов и просмотров. Эти и многие другие интересные вопросы мы рассмотрим далее в статье.

          Структура статьи
          1. Как выглядит обычный хабра-tutorial
          2. Собираем данные
          3. Хабра-данные
          4. Исследуем tutorials
          5. Разбираем интересные примеры
          6. Предсказываем метку tutorial
          7. Как сделать набор данных лучше
          8. Заключение
          9. Дальнейшее чтение

          Читать дальше →
          • +72
          • 11.5k
          • 5
        • Введение в D3

          • Tutorial

          D3.js (или просто D3) это JavaScript-библиотека для обработки и визуализации данных. Она предоставляет удобные утилиты для обработки и загрузки массивов данных и создания DOM-элементов. Эта заметка описывает работу с основными методами библиотеки, она подойдёт для изучения основ библиотеки и погружения в её логику и возможности.

          Для понимания статьи пригодятся знания JS, HTML и CSS.

          Читать дальше →
          • +55
          • 133k
          • 7
        • Прогноз количества лайков у поста. SNA Hackathon 2014

            Что хорошего можно извлечь из социальных сетей? Можно найти себе футбольную команду, басиста в группу, братьев по разуму, жену, сдать/снять квартиру/комнату/виллу на берегу океана. А если подключить анализ данных? Можно найти свое место в обществе. Например, если я слушаю XXX, читаю YYY и пью ZZZ, то нас таких всего 100 на этом шаре. А если я еще буду красить ногти в зеленый, то точно буду единственным и неповторимым?

            Можно понять, что нравится людям, что им можно продать, можно делать прогнозы и в сотый раз проверять теорию шести рукопожатий. В области Social Network Analysis существует множество задач, одну из которых мы предлагаем решить на онлайн этапе SNA Hackathon 2014.

            Читать дальше →
          • Data Mining Camp: как мы вдохновились на год вперед

              Как-то в самом начале нового года мы решили совместить приятное с полезным: дружно отдохнуть и поработать. И пригласили сотрудников, наших студентов и экспертов из компаний EMC, Rosalind, Yota, Game|Changers провести три дня зимних каникул в домике под Петербургом.

              Встреча с друзьями-единомышленниками за городом хороша, чтобы поделиться идеями, написать статью или закончить работу, до которой никак не доходили руки. Для этого мы и организовали выезд на Data Mining Camp. Решили, что будет сауна, настольные игры, контактный зоопарк и – гвоздь программы – хакатон.

              На хакатоне ребята при помощи экспертов работали над тремя исследованиями: моделью иерархической кластеризации признаков, моделью ухода слушателей онлайн-курсов, попробовали улучшить алгоритм Gradient Boosting Machines, а также поучаствовали в конкурсе на платформе Kaggle. О том как это было и как ребята продолжают работать над этими идеями под катом…



              Читать дальше →
              • +19
              • 11.2k
              • 8