Как стать автором
Обновить

Парсинг данных или как я написал свой первый репозиторий

Доброго дня!

Я Серафим, мальчик из России. Если коротко, то я прошу вас оценить мой репозиторий на GitHub здесь. Надеюсь, что вам понравиться. А для тех, кто останется — поделиться историей и попросить советов.

Внимание!

Для тех, кто начнет писать мне про качество кода и про то, какой я человек, или про документацию и плохой английский, прошу вас понять, что я джун, новичок и только начал писать на python.

Но я очень буду рад советам, написанным адекватно. Спасибо большое за внимание!

Pulling и история создания


Pulling — это python-репозиторий с открытым исходным кодом для парсинга данных из файлов и веб-страниц. Документацию на английском языке можно найти здесь. Пока что мой репозиторий поддерживает форматы .txt .rtf .pdf .docx .csv .avro .json и парсинг текста из тегов(p, h, a, img, span) веб-страниц.

Прежде чем появиться таким, каким вы его видите, мой код и идея прошли через множество этапов. Но все началось с того, что был карантин (в 2020 году) и мое домашнее задание было отправлено в файле с расширением .docx. Word просто не захотел открывать этот файл. И у меня возникла блестящая идея — написать парсер, чтобы вытащить мой школьный урок. Потом я начал расширять свой парсер и писать веб-платформу для парсинга (но был неприятный баг из-за которого я не выложил его на хостинг). А потом код для этого сайта я решил переписать на репозиторий. И назывался он — ReSearch. Но я не мог выложить его под этим названием и поэтому пришлось поменять.

Будущее


Такой репозиторий можно развивать всю жизнь. Так я и сделаю. Но следующая версия не выйдет в ближайшее время, потому что в 2020 и 2021 годах я готовлюсь к экзаменам и поступлению в институт. Так что, если вы все-таки заинтересовались, то наберитесь терпения.

В будущем я хочу парсить .orc .rcf .parquet .feather (и в один прекрасный день .doc .odt), добавить конвертирование в другие расширения для всех форматов, добавить новые функции, новые форматы и немного подправить парсер данных с веб-страниц. Может быть добавлю парсинг аудио и видео.
Теги:
Хабы:
Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.