Pull to refresh

Парсинг данных или как я написал свой первый репозиторий

Доброго дня!

Я Серафим, мальчик из России. Если коротко, то я прошу вас оценить мой репозиторий на GitHub здесь. Надеюсь, что вам понравиться. А для тех, кто останется — поделиться историей и попросить советов.

Внимание!

Для тех, кто начнет писать мне про качество кода и про то, какой я человек, или про документацию и плохой английский, прошу вас понять, что я джун, новичок и только начал писать на python.

Но я очень буду рад советам, написанным адекватно. Спасибо большое за внимание!

Pulling и история создания


Pulling — это python-репозиторий с открытым исходным кодом для парсинга данных из файлов и веб-страниц. Документацию на английском языке можно найти здесь. Пока что мой репозиторий поддерживает форматы .txt .rtf .pdf .docx .csv .avro .json и парсинг текста из тегов(p, h, a, img, span) веб-страниц.

Прежде чем появиться таким, каким вы его видите, мой код и идея прошли через множество этапов. Но все началось с того, что был карантин (в 2020 году) и мое домашнее задание было отправлено в файле с расширением .docx. Word просто не захотел открывать этот файл. И у меня возникла блестящая идея — написать парсер, чтобы вытащить мой школьный урок. Потом я начал расширять свой парсер и писать веб-платформу для парсинга (но был неприятный баг из-за которого я не выложил его на хостинг). А потом код для этого сайта я решил переписать на репозиторий. И назывался он — ReSearch. Но я не мог выложить его под этим названием и поэтому пришлось поменять.

Будущее


Такой репозиторий можно развивать всю жизнь. Так я и сделаю. Но следующая версия не выйдет в ближайшее время, потому что в 2020 и 2021 годах я готовлюсь к экзаменам и поступлению в институт. Так что, если вы все-таки заинтересовались, то наберитесь терпения.

В будущем я хочу парсить .orc .rcf .parquet .feather (и в один прекрасный день .doc .odt), добавить конвертирование в другие расширения для всех форматов, добавить новые функции, новые форматы и немного подправить парсер данных с веб-страниц. Может быть добавлю парсинг аудио и видео.
Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.