Как стать автором
Обновить

Вышла Repo2txt — утилита для сохранения GitHub-репозиториев в виде текстового файла

Время на прочтение1 мин
Количество просмотров4.8K

Разработчик опубликовал на GitHub код утилиты Repo2txt, которая помогает быстро сохранить любой репозиторий в виде текстового файла. Отмечается, что инструмент может пригодиться для интеллектуального анализа текстов или обучения больших языковых моделей.

Код Repo2txt полностью написан на Python. При этом автор проекта отмечает, что не использовал сторонние зависимости и уместил всё в один файл. Для лучшей производительности применяется многопоточность. Кроме того, Repo2txt учитывает файлы в .gitignore, чтобы исключать их из вывода, поддерживается вывод двоичных файлов (аудио, изображений). Сам исходный файл понятен человеку и может легко токенизироваться для обучения моделей.

Кроме возможности обучать на полученных данных нейросети, разработчик приводит и другие сценарии использования:

  • анализ данных;

  • резервное копирование;

  • локальное версирование.

Сперва утилиту необходимо скачать, локально клонировав исходный репозиторий. После этого для копирования репозиториев надо выполнить файл main.py с указанием пути к репозиторию и флагами:

  • -d, --directory — путь к каталогу (обязательно).

  • -t, --tree — вывод дерева репозитория (без содержимого файлов, отключен по умолчанию).

  • -e, --embed — включить дерево в начале вывода.

  • -b, --binary — ключить двоичные файлы (отключен по умолчанию).

  • -g, --gitignore — использовать .gitignore для исключения файлов.

  • -i, --ignore — можно через запятую указать дополнительный шаблон для исключения файлов.

  • -o, --output — имя файла на выходе.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 2: ↑1 и ↓1+2
Комментарии7

Другие новости

Истории

Работа

Python разработчик
123 вакансии
Data Scientist
76 вакансий

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн