company_banner

Другой GitHub: репозитории по Data Science, визуализации данных и глубокому обучению


    (с)

    Гитхаб — это не просто площадка для хостинга и совместной разработки IT-проектов, но и огромная база знаний, составленная сотнями экспертов. К счастью, сервис предоставляет не просто инструменты для работы с открытым исходным кодом, но и качественные материалы для обучения. Мы выбрали некоторые популярные репозитории и отсортировали их по количеству звезд в порядке убывания.

    Эта подборка поможет разобраться, на какие именно репозитории стоит обратить внимание, если вас интересует работа с данными и сфера глубокого обучения.

    Data Science


    The Open Source Data Science Masters
    Звезды: 11 227, форки: 4 737

    Официальный репозиторий учебной программы Data Science Masters, разработанной в качестве альтернативы с открытым исходным кодом формального образования в области Data Science. Репозиторий представляет собой сборник обучающих материалов, собранных за несколько лет.

    Awesome Data Science
    Звезды: 9 240, форки: 2 761

    Мощная подборка, отвечающая на вопросы: «что такое Data Science?» и «что нужно знать, чтобы хорошо разбираться в этой науке?». Удобно разбита на категории. Например, есть список книг по Data Science, подборка инфографик и даже тематические группы в Фейсбук.

    Jupyter Interactive Notebook
    Звезды: 5 242, форки: 2 313

    Прародитель этого репозитория — платформа для работы со скриптами на 40 языках программирования Data Science iPython Notebooks, набравшая более 14 000 звезд и 4 000 форков. Специалисты по обработке данных и машинному обучению активно её использовали для научных вычислений.

    Сегодня Jupyter Notebook — это удобный набор файлов-блокнотов, состоящих из параграфов, в которых пишутся и исполняются запросы. С помощью встроенных визуализаторов блокнот с набором запросов превращается в полноценный дашборд с данными.

    Data Science Blogs
    Звезды: 4 510, форки: 1 178

    Простой, но обширный список обучающих материалов, отсортированный в алфавитном порядке. Здесь вы найдете все популярные блоги, а также множество небольших сайтов с полезной информацией (всего перечислен 251 ресурс).

    Data Science Specialization
    Звезды: 3 114, форки: 27 184

    Репозиторий образовательного курса по Data Science Университета Джонса Хопкинса — очень популярный курс, подготовленный Роджером Пеном, Джеффом Ликом и Брайаном Каффо. Если быть точнее, то программа обучения по специальности «Наука о данных» на Coursera включает несколько взаимосвязанных курсов по разным темам (например, R Programming), касающимся всевозможных аспектов анализа данных, а представленный в подборке репозиторий объединяет информацию, используемую во всех курсах.

    Spark Notebook
    Звезды: 2 677, форки: 587

    Spark Notebook — это блокнот с открытым исходным кодом, предоставляющий интерактивный веб-редактор, который может объединять код Scala, SQL-запросы, Markup и JavaScript для совместного анализа и изучения данных.

    Learn Data Science
    Звезды: 2 129, форки: 1 210

    Коллекция блокнотов iPython, ориентированных на фундаментальные концепции машинного обучения для новичков.

    Data Science at the Command Line
    Звезды: 2 057, форки: 503

    Репозиторий содержит тексты, данные, сценарии и пользовательские инструменты консоли, используемые в книге «Data Science at the Command Line». Это практическое руководство демонстрирует, как комбинировать небольшие, но мощные инструменты командной строки для быстрого получения, очистки, исследования и моделирования данных.

    Data Science Specialization Community Site
    Звезды: 1 395, форки: 2 661

    Несколько студентов, проходивших курс в Университете Джонса Хопкинса, создали настолько качественный контент, что сотрудники университета разместили его в общем доступе, а также сделали каталог для всего интересного контента, созданного сообществом.

    Визуализация данных для веба


    D3
    Звезды: 81 837, форки: 20 282

    D3 — это библиотека визуализации данных JavaScript для HTML и SVG. В D3 акцент сделан на веб-стандартах, благодаря чему вы можете использовать все возможности современных браузеров, не привязывая себя к проприетарной структуре, сочетая мощные компоненты визуализации, управляемый подход и взаимодействие с Document Object Model (DOM). Это самый популярный проект визуализации данных на GitHub.

    Chart.js
    Звезды: 41 393, форки: 9 294

    Chart.js — библиотека HTML5, создающая визуализацию через элемент <cаnvas>. Chart.js позиционирует себя как простой и гибкий инструмент, интерактивный, поддерживающий шесть различных типов диаграмм.

    ECharts
    Звезды: 32 204, форки: 9 369

    ECharts — браузерная библиотека для построения графиков и визуализации. Проста в использовании, интуитивно понятна и легко настраивается.

    Leaflet
    Звезды: 23 810, форки: 3 937

    Библиотека JavaScript для создания интерактивных карт, ориентированных на мобильное применение. Код библиотеки невероятно мал — она разработана для простого, быстрого и удобного использования. Функции Leaflet могут быть расширены через набор плагинов.

    Sigma.js
    Звезды: 8 348, форки: 1 305

    JS-библиотека, ориентированная на рисование графов. Sigma позволяет разрабатывать представления графов на веб-страницах и интегрировать их в веб-приложения.

    Vega
    Звезды: 6 559, форки: 702

    Vega — декларативный язык для создания, сохранения и обмена интерактивными проектами визуализации. С его помощью можно описать внешний вид и интерактивное поведение визуализации в формате JSON, а также создавать веб-представления с использованием Canvas или SVG. Vega предоставляет базовые строительные блоки для широкого спектра проектов визуализации: загрузка и преобразование данных, масштабирование, проекции карты, условные обозначения, графические метки и т.д.

    DC.js
    Звезды: 6 458, форки: 1 734

    DC.js — многомерная диаграмма, построенная на D3.js для работы с кроссфильтром. DC.js рендерит в формате SVG, совместимом с CSS. Предназначена для мощного анализа данных как в браузере, так и на мобильных устройствах.

    Epoch
    Звезды: 4 949, форки: 290

    Универсальная библиотека визуализации в реальном времени. Фокусируется на двух различных аспектах: базовые диаграммы для создания исторических отчетов и диаграммы в реальном времени для отображения часто обновляемых данных временных рядов.

    Глубокое обучение


    Keras
    Звезды: 37 611, форки: 14 344

    Keras — библиотека глубокого обучения на Python, которая используется как в TensorFlow, так и в Theano (да, вы можете запускать её поверх библиотек TensorFlow, Theano и CNTK). Keras разработана для быстрого экспериментирования, так как ключом к проведению хороших исследований является способность переходить от идеи к результату с наименьшей задержкой. Благодаря основательной и доступной документации Keras по праву занимает место в нашей подборке.

    Caffe
    Звезды: 26 892, форки: 16 276

    Caffe (Convolution Architecture For Feature Extraction) — библиотека глубокого обучения, связывающая Python и MATLAB. По сути, это библиотека общего назначения, предназначенная для развёртывания свёрточных сетей и для распознавания изображений, речи или мультимедиа.

    Также существует проект Caffe2, который включает в себя новые возможности, в частности, рекуррентные нейронные сети. В мае 2018 г. команды Caffe2 и PyTorch объединились, код Caffe2 был перенесен в репозиторий PyTorch (звезд: 24 075, форки: 5 707).

    MXNet
    Звезды: 16 157, форки: 5 824

    Легкая, компактная, гибко распределенная среда глубокого обучения для Python, R, Julia, Scala, Go, JavaScript и др. Для большей производительности MXNet позволяет смешивать императивные и символические методы программирования. Проект также содержит руководства по созданию других систем глубокого обучения.

    Data Science IPython Notebooks
    Звезды: 14 747, форки: 4 410

    Коллекция блокнотов iPython, включающая большие данные, Hadoop, scikit-learn, библиотеки, предназначенные для научных вычислений, и др. Если говорить о глубоком обучении, то охватываются TensorFlow, Theano, Caffe и другие инструменты.

    ConvNetJS
    Звезды: 9 510, форки: 1 982

    ConvNetJS представляет собой реализацию нейронных сетей и их общих модулей на JavaScript. Проект на данный момент не поддерживаемый, но всё ещё заслуживающий внимания. Позволяет обучать свёрточные (или обычные) сети прямо в браузере.

    Deeplearning4j
    Звезды: 10 227, форки: 4 570

    Библиотека глубокого обучения для Java и Scala. Интегрируется с Hadoop и Spark. Deeplearning4j также позволяет проводить вычисления на графических процессорах с поддержкой CUDA. Кроме того, имеются средства для работы с библиотекой на Python. Репозиторий содержит всю необходимую документацию и учебники.

    LISA Lab Deep Learning Tutorials
    Звезды: 3 673, форки: 2 045

    Сборник учебников Университета Монреаля. Представленные здесь материалы знакомят с некоторыми наиболее важными алгоритмами глубокого обучения, а также демонстрируют принцип работы с Theano. Theano — это Python-библиотека, которая упрощает запись моделей глубокого обучения и дает возможность обучать их на GPU.

    Этим списком количество интересностей на Гитхабе не исчерпывается. В следующий раз поговорим о проектах для машинного обучения и открытых датасетах. Если у вас есть свои примеры интересных репозиториев, поделитесь ими в комментариях.
    Mail.ru Group
    1 329,20
    Строим Интернет
    Поделиться публикацией

    Похожие публикации

    Комментарии 10

      0
      В визуализацию можно добавить Highcharts JS. Очень привлекательные диаграммы, интерактив, некоторые вещи отсутствуют или сложно реализуемы в других библиотеках
        +1
        В последний раздел забыли добавить Flux.jl с примерами model-zoo
          0
          Про H2O ни слова. Он ушёл в прошлое?
            0
            Какой смысл переписывать ссылки в статью? У всех есть поисковики, кому надо — сам легко всё это найдёт. А кому не надо — тому и не надо.
            Нет никакой проблемы найти нужные материалы в Сети.
              +1
              Вот читаешь статью с обзором чего-то, а в статье ни одной ссылки по теме. Приходится отрываться, гуглить, что никак не улучшает впечатления от (предположительно) проделанной работы
              +2
              Спасибо за статью! Вы сделали полезную работу. Тем, кто ищет, ваша публикация поможет сократить время поиска. Время — самое ценное, что у нас есть. Продолжайте, если у вас есть такая возможность.
                0
                Спасибо за добрые слова :)
                0

                Можно и mlcourse.ai добавить — в том числе в мэйле курс создавался, до сих пор лекции у вас проходят. И кстати, заберите у меня права автора в хабе Mail.ru :)

                  0
                  жаль, но как скажешь) готово
                    0

                    Я не в мэйле уже. И если что-то буду писать, то скорее в блог OpenDataScience. Но мой коллега вроде неплохо справляется.

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое