Поиск секрета популярности лучших репозиториев GitHub за всё время существования платформы / Хабр

GitHub — это не только крупнейший веб‑сервис для хостинга IT‑проектов и своего рода социальная сеть для программистов, а целая вселенная, образованная миллионами репозиториев, со своими звёздами, форками, пул‑реквестами… Наша студенческая команда Политеха (Эрнест Сагидуллин, Ирина Ситаева и Виталий Васильев) решила заняться изучением этой вселенной. Начали мы с самого актуального вопроса: что делает один проект сверхпопулярным, а другой — пыльным архивом? Для решения этой задачи мы не просто собрали кучу метрик, а разработали полноценное приложение для загрузки, анализа и визуализации данных с предсказанием популярности.

В начале работы над проектом мы изучили существующую на просторах интернета информацию и обнаружили два подхода: у одних авторов преобладали сухие цифры (они считали звёзды, форки, коммиты), а другие подходили с лингвистической точки зрения и анализировали README и issues в отрыве от метрик. Мы решили сочетать использование числового и смыслового анализа.

По нашему замыслу, этот проект пригодится разработчикам как инструмент оценки потенциала библиотеки, прежде чем использовать её в проекте, владельцам репозиториев — правильно вести проект (учитывать влияние оформления, лицензии, CI/CD) и всем тем, кто хочет в топ — рекомендации по привлечению контрибьюторов.

Приложение написано на Python 3.9 в объектно‑ориентированной парадигме с разделением логически связанных разделов кода по модулям, данные хранятся в СУБД PostgreSQL 18.2 и анализируются в Metabase v0.60.3.5, также задействован Jupyter Notebook v6.

Для сбора данных использовался REST API платформы GitHub, который накладывает ряд ограничений, влияющих на скорость и полноту получения информации о репозиториях:

Без использования токена лимит составляет 60 запросов в час, а с ним увеличивается до 5000 запросов в час. Чтобы повысить скорость сбора данных, в работе использовалось несколько токенов доступа.
GitHub API выдает данные страницами, максимальное количество элементов на одной странице ограничено до 100 записей. То есть, чтобы получить полный набор данных, необходимо использовать последовательный перебор страниц. Однако для некоторых методов API (в т.ч. search) есть ограничение на глубину выборки — доступно не более 1000 результатов поиска на один тип запроса, это связано с внутренними ограничениями индексирования на стороне GitHub.
Дополнительно, ограничения касаются параллельного выполнения запросов, при высокой частоте обращений с одного IP‑адреса возможна временная блокировка запросов. Кроме того, следует учитывать, что часть данных недоступна из‑за настроек приватности репозиториев.
Структура таблицы с данными.

Название признака	Тип	Описание
github_id	int	Идентификатор репозитория на платформе GitHub
readme	text	Текст файла README, содержащий основную информацию о проекте
releases_count	int	Количество релизов, которые были выпущены командой на момент сбора данных
subscribers_count	int	Количество пользователей, которые отслеживают обновления по репозиторию
stargazers_count	int	Количество звезд, поставленных репозиторию пользователями
forks_count	int	Количество копий репозитория, сделанных пользователями
created_at	datetime	Дата и время создания репозитория
license_spdx_id	string	Идентификатор лицензии, по которой распространяется ПО
topics	json	Массив строк, содержащий ключевые слова, которые характеризуют назначение репозитория
pushed_at	datetime	Дата последнего обновления в репозитории на момент сбора данных
languages_map	json	Словарь, в котором каждому языку программирования сопоставлена процентная доля в файлах репозитория
full_name	string	Полное имя репозитория, содержащее username владельца и название
contributors_count	int	Количество участников, которые вносили изменения в файлы репозитория
owner_location	string	Местоположение владельца репозитория, указанное в его профиле на GitHub
description	text	Текст, содержащий описание репозитория для других пользователей
owner_type	string	Тип владельца репозитория: организация или обычный пользователь
size	int	Совокупный размер файлов репозитория в килобайтах
has_github_actions	bool	Логический признак, показывающий, используются ли в репозитории GitHub Actions для автоматизации CI/CD процессов
recent_commits	json	Массив структурированных объектов, содержащих информацию о последних 30 коммитах репозитория (см табл. 2)
commit_stats	json	Структура типа ключ‑значение, содержащая агрегированную статистику по коммитам репозитория (см табл. 3)
root_contents	json	Массив структурированных объектов, содержащих сведения о файлах и директориях корневого уровня репозитория (см табл. 4.)
recent_pull_requests	json	Массив структурированных объектов, содержащих информацию о последних 30 pull‑реквестах репозитория (см табл. 5)
pull_request_stats	json	Структура типа ключ‑значение, содержащая агрегированную статистику по pull‑реквестам репозитория (см табл. 6)
recent_issues	json	Массив структурированных объектов, которые содержат информацию о последних 30 issues репозитория (см табл. 7)
issue_stats	json	Структура типа ключ‑значение, содержащая агрегированную статистику по issues репозитория (см табл. 8)

За получение данных из внешнего источника отвечают два взаимосвязанных компонента: GitHubAPI и GitHubFetcher. Модуль GitHubAPI реализует взаимодействие с REST API GitHub, содержит методы для загрузки как общей информации о репозиториях, так и других связанных сущностей, включая коммиты, pull‑реквесты, issues и другие. Модуль GitHubFetcher использует GitHubAPI для массового сбора данных, то есть выполняет последовательный обход репозиториев по заданному временному интервалу и страницам поиска с учетом ограничений источника данных. После получения полного набора данных о репозиториях они преобразуются в ORM‑модель Repository, соответствующую таблице в базе данных. Для работы с данными используется библиотека SQLAlchemy. Класс Database отвечает за создание подключения к базе данных, инициализацию таблиц и управление сессиями. Логика взаимодействия с базой данных выделена в отдельный модуль RepositoryService, который реализует необходимые CRUD‑операции: добавление одного или нескольких репозиториев, чтение записей, обновление и удаление данных.

Для исследования собранных данных используется среда Jupyter Notebook, которая обеспечивает подключение к PostgreSQL. В этой среде реализуется предобработка данных, статистический анализ, а также построение моделей и дополнительных визуализаций. Для визуализации и построения дашбордов применяется сервис Metabase, подключённый к базе данных.

Общая схема взаимодействия модулей приложения.

В результате изучения 60 тыс. популярных репозиториев с количеством звёзд больше 1000 за всё время существования GitHub мы сделали ряд интересных наблюдений. Среднее количество релизов составило по 42 на репозиторий (стандартная ошибка 1,3), количество уникальных контрибьюторов 100 (0,9), количество звезд 4,5 тыс. (42), количество копий 744 (10), количество участников 77 ( 1,6), размер репозитория со всеми изменениями 108 Мб (4 Мб).

Построенная матрица корреляции Пирсона для всех числовых признаков выявила сильную положительную связь между количеством форков и количеством звезд и слабую положительную зависимость количества звезд от возраста проекта, что опровергает расхожее мнение о большей популярности старых проектов.

Подтверждена лидирующая роль языка программирования Python, которая составила 28% от общего количества репозиториев, лишь немного отстаёт от него JavaScript — 22%, что тоже является весьма существенным распространением, далее уже со значительным отрывом идут TypeScript — 14%, Go — 10% и Java — 8%, каждый из которых оказался в два раза менее распространённым, чем лидеры списка. Следует отметить, что более трети репозиториев используют несколько языков. Поскольку GitHub изначально создавался как открытый проект, лицензия MIT License встречается в половине репозиториев — 52%, остальные же делят между собой вторую половину Apache License 2.0 — 22%, GNU General Public License v3.0 — 10%, BSD 3-Clause — 5%, другие (GPL v2, AGPL, LGPL и пр.) — 11%.

Далее приведены некоторые примеры анализа и визуализации данных, в частности гистограмма прогнозирования популярности.

Проведённый семантический анализ полученных данных показал два кластера со схожим распределением характеристик, что на данном этапе исследования не позволило установить значимые признаки, влияющие на популярность.

Практические советы для популяризации репозитория:

Привлекайте больше контрибьюторов.
Напишите внятный README.
Сливайте PR хотя бы раз в неделю.
Автоматизируйте рабочие процессы с помощью GitHub Actions.
Используйте лицензию MIT.