Топ-100 статей по машинному обучению и анализу данных

    Этот пост построен по аналогии с постом «Хабрасливки: золотые посты «Хабрахабра» и Geektimes», но по машинному обучению и анализу данных. Выборку пришлось корректировать вручную, т.к. попали не относящиеся к теме сообщения, имеющие высокие оценки (возможно несколько осталось) и, наоборот, не попали несколько из лучших хаба «Машинное обучение». «Сливки» получились жидкие — самая высокая оценка — 312, самая низкая — 50, поэтому включены посты, не менее 80% голосов за которые положительны, а не 98%.



    1. «Как правильно лгать с помощью статистики» — 312 голосов всего, 309 положительных.
    2. «Увидеть незримое» — 185 голосов, 180 положительных.
    3. «Распознаём изображение с токена при помощи камеры» — 178 голосов, 172 положительных.
    4. «Нейронная сеть против DDoS'а» — 177 голосов, 174 положительных.
    5. «Сколько котов на хабре?» — 176 голосов, 164 положительных.
    6. «Machine Learning. Курс от Яндекса для тех, кто хочет провести новогодние каникулы с пользой» — 172 голоса, 166 положительных.
    7. «Стивен Вольфрам провёл математический анализ социальных сетей» — 165 голосов, 157 положительных.
    8. «Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit» — 155 голосов, 149 положительных.
    9. «Торговля знает, когда вы ждете ребенка» — 149 голосов, 130 положительных.
    10. «Внезапный диван леопардовой расцветки» — 148 голосов, 145 положительных.
    11. «Самое главное о нейронных сетях. Лекция в Яндексе» — 136 голосов, 133 положительных.
    12. «Сколько нужно нейронов, чтобы распознать сводку моста?» — 136 голосов, 133 положительных.
    13. «FizzBuzz на TensorFlow» — 132 голосов, 123 положительных.
    14. «Парсим русский язык» — 128 голосов, 124 положительных.
    15. «Вычисление фрактальной размерности Минковского для плоского изображения» — 128 голосов, 116 положительных.
    16. «Метод Виолы-Джонса (Viola-Jones) как основа для распознавания лиц» — 123 голоса, 121 положительных.
    17. «Обучение машины — забавная штука: современное распознавание лиц с глубинным обучением» — 121 голос, 121 положительных.
    18. «Анализ резюме с HeadHunter. Кто сколько зарабатывает и в каких отраслях работает» — 119 голосов, 106 положительных.
    19. «Детекторы углов» — 118 голосов, 116 положительных.
    20. «Как я заработал $500K на машинном обучении и высокочастотном трейдинге — Часть 1» — 117 голосов, 95 положительных.
    21. «Жизненная позиция пользователей ВКонтакте в зависимости от пола и возраста» — 111 голосов, 104 положительных.
    22. «Яндекс анонсирует собственную технологию прогнозирования погоды Метеум. С точностью до дома» — 110 голосов, 108 положительных.
    23. «Dropbox: взгляд изнутри» — 105 голосов, 103 положительных.
    24. «Unsupervised learning или «пойди туда, не знаю куда, найди то, не знаю что»» — 105 голосов, 96 положительных.
    25. «Латентно-семантический анализ» — 104 голоса, 101 положительных.
    26. «Про котиков, собак, машинное обучение и deep learning» — 101 голос, 98 положительных.
    27. «Как я победил в конкурсе BigData от Beeline» — 100 голосов, 92 положительных.
    28. «Расшифровываем формулу Хабра-рейтинга или восстановление функциональных зависимостей по эмпирическим данным» — 99 голосов, 98 положительных.
    29. «Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения» — 98 голосов, 87 положительных.
    30. «Яндекс и Высшая школа экономики открывают факультет Computer Science» — 96 голосов, 90 положительных.
    31. «Яндекс открывает новое направление своей деятельности — Yandex Data Factory» — 95 голосов, 84 положительных.
    32. «Жизненная позиция пользователей ВКонтакте. Бонус-трек. Корреляции» — 91 голос, 74 положительных.
    33. «Обучаем компьютер чувствам (sentiment analysis по-русски)» — 90 голосов, 85 положительных.
    34. «Портрет Хабра-tutorial» — 90 голосов, 81 положительный.
    35. «Поиск взаимосвязей на примере Нефть-Рубль» — 90 голосов, 80 положительных.
    36. «Понимание компьютером текста: действительно ли всё так плохо?» — 88 голосов, 83 положительных.
    37. «На какие вопросы можно ответить, проанализировав 1 500 000 уникальных историй болезней?» — 88 голосов, 77 положительных.
    38. «Курсы Стенфордского университета» — 88 голосов, 72 положительных.
    39. «Прогресс в разработке нейросетей для машинного обучения» — 87 голосов, 74 положительных.
    40. «Энтропия и деревья принятия решений» — 86 голосов, 83 положительных.
    41. «Необычные модели Playboy, или про обнаружение выбросов в данных c помощью Scikit-learn» — 84 голоса, 77 положительных.
    42. «Байесовская нейронная сеть — потому что а почему бы и нет, черт возьми (часть 1) » — 83 голоса, 82 положительных.
    43. «Курс по машинному обучению на Coursera от Яндекса и ВШЭ» — 83 голоса, 81 положительных.
    44. «Яндекс.Метеум – новая разработка или маркетинговый ход?» — 83 голоса, 71 положительный.
    45. «Обзор алгоритмов кластеризации данных» — 82 голоса, 78 положительных.
    46. «Стэнфордская нейросеть определяет тональность текста с точностью 85%, код отдадут в Open Source» — 82 голоса, 77 положительных.
    47. «Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”» — 82 голоса, 75 положительных.
    48. «Отличаем автобус от автомобиля по GPS-трекам» — 81 голос, 70 положительных.
    49. «Licenzero: простые движения» — 80 голосов, 73 положительных.
    50. «Использование каскада Хаара для сравнения изображений» — 79 голосов, 73 положительных.
    51. «Нейрореволюция в головах и сёлах» — 78 голосов, 76 положительных.
    52. «Введение в Байесовские методы» — 78 голосов, 70 положительных.
    53. «Яндекс.Толока. Как люди помогают обучать машинный интеллект» — 76 голосов, 72 положительных.
    54. «Заочное обучение в ШАД Яндекса: 570 замечательных часов моей жизни» — 76 голосов, 62 положительных.
    55. «Болee 40 онлайн-курсов от Coursera и Udacity» — 74 голоса, 73 положительных.
    56. «ИИ — Гедель против Тьюринга или критика искусственного разума. Точка зрения технаря» — 74 голоса, 65 положительных.
    57. «Как программист машину покупал» — 73 голоса, 71 положительный.
    58. «Постановка задачи компьютерного зрения» — 72 голоса, 72 положительных.
    59. «Выпущена система Mathematica 10, содержащая 700+ новых функций и невероятное количество R&D» — 72 голоса, 65 положительных.
    60. «AlphaGo на пальцах» — 71 голос, 69 положительных.
    61. «Hello, TensorFlow. Библиотека машинного обучения от Google» — 71 голос, 68 положительных.
    62. «Распознавание речи для чайников» — 71 голос, 61 положительный.
    63. «Python и красивые ножки: как я бы знакомил сына с математикой и программированием» — 70 голосов, 60 положительных.
    64. «Формирование высокоуровневых признаков с помощью широкомасштабного эксперимента по обучению без учителя» — 68 голосов, 64 положительных.
    65. «Классификатор изображений» — 67 голосов, 63 положительных.
    66. «Машинное обучение в навигационных устройствах: определяем маневры машины по акселерометру и гироскопу» — 67 голосов, 63 положительных.
    67. «Kaggle – наша экскурсия в царство оверфита» — 66 голосов, 65 положительных.
    68. «Совсем не нейронные сети» — 66 голосов, 61 положительный.
    69. «Обзор методов эволюции нейронных сетей» — 65 голосов, 60 положительных.
    70. «Определяем веса шахматных фигур регрессионным анализом» — 64 голоса, 64 положительных.
    71. «Введение в многомерный анализ» — 63 голоса, 61 положительный.
    72. «Элементы семантической паутины» — 63 голоса, 57 положительных.
    73. «Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)» — 63 голоса, 56 положительных.
    74. «Machine learning в простом проекте» — 63 голоса, 53 положительных.
    75. «Попробуй R» — 62 голоса, 59 положительных.
    76. «Покупка оптимальной квартиры с R» — 62 голоса, 59 положительных.
    77. «Распознавание гильоширных элементов на примере паспорта РФ» — 61 голос, 57 положительных.
    78. «Машинное обучение — микроскоп современного ученого. Зачем ЦЕРНу технологии Яндекса» — 60 голосов, 54 положительных.
    79. «Маленькие секреты больших графов» — 60 голосов, 54 положительных.
    80. «Сколько нужно нейронов, чтобы узнать, разведён ли мост Александра Невского?» — 59 голосов, 59 положительных.
    81. «Обучение OpenCV каскада Хаара» — 59 голосов, 57 положительных.
    82. «Язык R в помощь хабра-статисту» — 59 голосов, 54 положительных.
    83. «Лекция Дмитрия Ветрова о математике больших данных: тензоры, нейросети, байесовский вывод» — 58 голосов, 57 положительных.
    84. «Нейропластичность в искусственных нейронных сетях» — 58 голосов, 56 положительных.
    85. «Ваш персональный курс по Big Data» — 58 голосов, 54 положительных.
    86. «Социальная сеть вселенной Звёздных войн» — 58 голосов, 49 положительных.
    87. «Как подобрать платье с помощью метода главных компонент» — 57 голосов, 54 положительных.
    88. «Исследование проектов на фриланс-бирже Odesk глазами веб-разработчика» — 55 голосов, 52 положительных.
    89. «Топ-10 data mining-алгоритмов простым языком» — 55 голосов, 49 положительных.
    90. «Обзор литературы по Data Mining» — 54 голоса, 50 положительных.
    91. «Математика для искусственных нейронных сетей для новичков, часть 1 — линейная регрессия» — 54 голоса, 47 положительных.
    92. «Байесовская нейронная сеть — теперь апельсиновая (часть 2)» — 53 голоса, 52 положительных.
    93. «Введение в машинное обучение с помощью Python и Scikit-Learn» — 53 голоса, 50 положительных.
    94. «Питерский фотограф сравнил пассажиров метро с их профилями «ВКонтакте»» — 53 голоса, 44 положительных.
    95. «Автоматическое выделение меток» — 52 голоса, 51 положительный.
    96. «Дайджест статей по анализу данных №3 (09.06.2014 —22.06.2014)» — 52 голоса, 47 положительных.
    97. «Анализ существующих подходов к распознаванию лиц» — 50 голосов, 49 положительных.
    98. «Идеальный ученик, или о чем умалчивают в машинном обучении» — 50 голосов, 49 положительных.
    99. «Решение задачи кластеризации методом градиентного спуска» — 50 голосов, 48 положительных.
    100. «Об обучении нейросетей» — 50 голосов, 47 положительных.

    Число публикаций по годам:


    КДПВ отсюда.
    UPD: заменила диаграмму.

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 15

      +3

      Классная подборка. Спасибо!


      Если не секрет, что призваны проиллюстрировать ваши графики (приведенные без комментариев, с весьма странной временной разбивкой).

        0
        К оригинальному посту был комментарий с подобным графиком — там в 15, 16 годах число статей резко уменьшилось. Хотя так сравнивать смысла, возможно, нет.
          0
          Я думаю, что у автора тоже замешательство по поводу того, что в последнее время очень много статей по ML. 8 вкладок запинены в Хроме :)
          0
          Ого. Топ 2:)
          Но вообще очень странная подборка.
          С одной стороны часть моих постов про CV попала в подборку (1, 2). А с другой стороны, часть постов с достаточно большим рейтингом и на ту же тематику — нет (1,2).
            +1
            Вся серия от YUVladimir с постами за +200 сюда не попала. belbes тоже мимо. sergeypid мимо. и.т.д.
            –1
            Да, выборку делала по выдаче гугла (тут январь 2014 и поста про распознавание образов нет). Возможно была не очень хорошая идея.
              0

              Даже скорее честный топ-1: "как лгать с помощью статистики" был чистым научпопом для самой широкой аудитории, никогда не считал его по-настоящему техническим постом.

                0
                Но вашей статьи про Хабра-граф, тут нет. Так что, на мой взгляд, статья про ложь через статистику должна быть на достойном первом месте столь странно сформированного рейтинга.
              0

              Ну да, рейтинг еще слегка кучеряв тем, что сортирует по общему числу голосов. То есть если написать крутую, но противоречивую статью (хм, не знаю… нейронки — отстой, будущее только за байесом), можно получить +200 и -150 и по этому рейтингу выползти на первое место.

              0

              Есть еще скромное предположение, что статья тем полезней, чем больше добавлений в избранное. Хоть при таком подходе и всплывают подобные дайджесты.

                +3

                Вообще, интересно было бы собрать статьи по DM & ML которые стоят в порядке возрастания обучения. То есть алгоритм такой, выбрать действительно хорошие статьи по теме (а не просто ориентируясь на оценки и выдачу гугла), и далее отсортировать их в порядке изучения. Конечно, может быть много перестановок и не нужно прямо абсолютно точно выдать вариационный ряд, но что бы основная идея была выдержана. Например: (я могу ошибаться в порядке, но основная идея думаю понятна)


                1. Науч. поп.
                2. Введение в тему, общие слова и т.д.
                3. Математика и алгоритмы
                4. Анализ данных и генерация признаков
                5. Решение задач
                6. Нейронные сети и глубинное обучение

                Only users with full accounts can post comments. Log in, please.