Что читать специалисту по Data Science в 2020 году

Автор оригинала: Guy Smoilovsky
  • Перевод

В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.

От автора:
Вы – это то, что вы едите, и вам, как работнику умственного труда — нужна хорошая информационная диета. Я хочу поделиться источниками информации о Data Science, искусственном интеллекте и связанных с ним технологиях, которые нахожу наиболее полезными или привлекательными. Я надеюсь, что это поможет и вам тоже!

Two Minute Papers


YouTube-канал, который хорошо подходит, для того чтобы быть в курсе последних событий. Канал часто обновляется, а ведущий обладает заразительным энтузиазмом и позитивом во всех освещаемых темах. Ожидайте освещения интересных работ не только об ИИ, но и о компьютерной графике и других визуально привлекательных темах.

Янник Килчер


На своем YouTube-канале, Янник технически подробно объясняет значимые исследования в глубоком обучении. Вместо того, чтобы читать исследование самостоятельно, часто бывает быстрее и проще посмотреть одно из его видео, чтобы глубже понять важные статьи. Объяснения передают суть статей, не пренебрегая математикой и не теряясь в трех соснах. Янник также делится своими взглядами — о том, как исследования соотносятся друг с другом, мнением о том, насколько серьезно нужно относиться к результатам, более широкими интерпретациями и т.д. Новичкам (или неакадемическим практикам) труднее прийти к этим открытиям самостоятельно.

Distill.pub


По их собственным словам:

Исследования в области машинного обучения должны быть ясными, динамичными и яркими. А Distill создан, чтобы помогать в исследованиях.

Distill — уникальное издание с исследованиями в области машинного обучения. Продвигаются статьи с потрясающими визуализациями, чтобы дать читателю более интуитивное понимание тем. Пространственное мышление и воображение, как правило, работают очень хорошо, помогая в понимании тем машинного обучения и Data Science. Традиционные же форматы публикаций, напротив, имеют тенденцию быть жесткими в своей структуре, статичными и сухими, а иногда и «математическими». Крис Ола (Chris Olah), один из создателей Distill, также ведет удивительный личный блог на GitHub. Он давно не обновлялся, но до сих пор остается коллекцией лучших из когда-либо написанных объяснений по теме глубокого обучения. В частности, мне очень помогло описание LSTM!


источник

Себастьян Рудер


Себастьян Рудер пишет очень содержательный блог и информационный бюллетень, в первую очередь о пересечении нейронных сетей и анализа текстов на естественных языках. Он также дает много советов исследователям и докладчикам на научных конференциях, они могут быть очень полезны, если вы находитесь в академических кругах. Статьи Себастьяна, как правило, имеют форму обзоров, подводя итоги и объясняя состояние современных исследований и методов в той или иной области. Это означает, что статьи крайне полезны для практиков, которые хотят быстро сориентироваться. Себастьян также пишет в Twitter.

Андрей Карпати


Андрей Карпати не нуждается в представлении. Помимо того, что он является одним из самых известных исследователей глубокого обучения на Земле, он создает широко используемые инструменты, например, arxiv sanity preserver в качестве сторонних проектов. Бесчисленное множество людей вошли в эту сферу через его Стэнфордский курс cs231n, и вам будет полезно узнать его рецепт обучения нейронной сети. Я также рекомендую посмотреть его речь о реальных проблемах, которые Tesla должна преодолеть, пытаясь применить машинное обучение в массовом масштабе в реальном мире. Речь информативна, она впечатляет и отрезвляет. Помимо статей об ML непосредственно, Андрей Карпати дает хорошие жизненные советы для амбициозных ученых. Читайте Андрея в Twitter и на Github.

Uber Engineering


Инженерный блог Uber действительно впечатляет масштабом и широтой охвата, освящая массу тем, в частности искусственный интеллект. Что мне особенно нравится в инженерной культуре Uber, так это их тенденция выпускать очень интересные и ценные проекты с открытым исходным кодом в головокружительном темпе. Вот некоторые примеры:

  • ludwig
  • h3
  • react-vis
  • aresdb
  • И этот список можно продолжать и продолжать… Снимаю шляпу, Uber

OpenAI Blog


Если отбросить разногласия, блог OpenAI, несомненно, прекрасен. Время от времени в блоге публикуется контент и идеи о глубоком обучении, которые могут прийти только в масштабах OpenAI: гипотетический феномен глубокого двойного спуска. Команда OpenAI, как правило, публикует посты нечасто, но это важные материалы.


источник

Taboola Blog


Блог Taboola не так хорошо известен, как некоторые другие источники в этом посте, но я считаю его уникальным — авторы пишут об очень приземленных, реальных проблемах при попытке применять ML в производстве для «нормального» бизнеса: меньше о самоуправляемых автомобилях и агентах RL, побеждающих чемпионов мира, больше о том, «как мне узнать, что моя модель теперь предсказывает вещи с фальшивой уверенностью?». Эти проблемы актуальны почти для всех, кто работает в этой области, и они меньше освещаются в прессе, чем более расхожие темы ИИ, но для правильного решения этих проблем все еще требуется талант мирового класса. К счастью, Taboola обладает как этим талантом, так и готовностью и способностью писать о нем, чтобы другие люди тоже могли учиться.

Reddit


Наряду с Twitter, нет ничего лучше в Reddit, чем зацепиться за исследования, инструменты или мудрость толпы.


State of AI


Посты публикуются только ежегодно, но наполнены информацией очень плотно. По сравнению с другими источниками из этого списка, этот доступнее для не связанных с технологиями деловых людей. Что мне нравится в докладах, так это то, что он пытается дать более целостное представление о том, куда движется отрасль и исследования, с высоты птичьего полета связывая воедино достижения в области аппаратного обеспечения, исследований, бизнеса и даже геополитики. Обязательно начинайте с конца, чтобы прочитать о конфликте интересов.

Подкасты


Откровенно говоря, я считаю, что подкасты плохо приспособлены для изучения технических тем. Ведь для объяснения тем они используют только звук, а наука о данных — это очень визуальная область. Подкасты, как правило, дают вам повод для более глубокого исследования позже или в для увлекательных философских дискуссий. Тем не менее, вот некоторые рекомендации:

  • подкаст Лекса Фридмана, когда он разговаривает с видными исследователями из области искусственного интеллекта. Особенно хороши эпизоды с Франсуа Шолле!
  • Data Engineering подкаст. Хорош, чтобы услышать о новых инструментах инфраструктуры данных.

Потрясающие списки


Здесь меньше того, за чем нужно следить, но больше ресурсов, которые полезны, когда вы знаете, что ищете:


Twitter


  • Мэтти Мариански
    Мэтти находит красивые, творческие способы использования нейронных сетей, и это просто забавно — видеть его результаты в вашей ленте Twitter. Взглянуть бы хотя бы на этот пост.
  • Ори Коэн
    Ори — просто машина для ведения блогов. Он много пишет о проблемах и решениях для дата-сайентистов. Обязательно подпишитесь, чтобы получить уведомление, когда публикуется статья. Его сборник, в частности, действительно впечатляет.
  • Джереми Говард
    Соучредитель компании fast.ai, всесторонний источник творчества и продуктивности.
  • Хамель Хусейн
    Штатный инженер ML в Github, Хамель Хусейн занят на работе созданием и отчетностью по многим инструментам для кодеров в области данных.
  • Франсуа Шолле
    Создатель Keras, сейчас пытается обновить наши представления о том, что такое интеллект и как его проверить.
  • Хардмару
    Ученый-исследователь в Google Brain.


Заключение


Оригинал поста может обновляться по мере того, как автор находит замечательные источники контента, которые было бы стыдно не включить в список. Не стесняйтесь обращаться к нему в Twitter, если хотите порекомендовать какой-то новый источник! А еще DAGsHub нанимает Advocate [прим. перев. публичного практикующего стороннника] в Data Science, так что если вы создаете свой собственный контент по Data Science, не стесняйтесь написать автору поста.

image

Развивайтесь, читая рекомендованные источники, а по промокоду HABR, вы сможете получить дополнительные 10% к скидке указанной на баннере.



Рекомендуемые статьи


SkillFactory
Школа Computer Science. Скидка 10% по коду HABR

Комментарии 0

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое