Если вы те же самые данные по умершим с этого кладбища как-то предварительно обработали (например, вручную пробежались по каждой строке), то попробуйте 1) Скопировать себе блокнот colab по ссылке выше 2) Вставить ваши данные в переменную raw_text 3) запустить по очереди все ячейки с самого начала блокнота.
А вообще, если у вас уже есть данные в нормальном виде, то вам проще их сразу визуализировать где-нибудь в looker studio, DataLens и т.п.
Парсинг писался по конкретно эти данные, чтоб вручную это всё не обрабатывать. Да, 700 строк можно обработать вручную, а что если бы правда было 5000 строк?
Да, программа по ссылке выше, которая в каждой строке пытается найти даты рождения и смерти, а также возраст. И записывает это в таблицу. Если известны только годы жизни, то находит возраст арифметической операцией. Если известна только дата смерти и возраст, то также находит дату рождения арифметической операцией. В итоге получается таблица вида:
Действительно, пересчитал. Очень много опечаток в данных из-за этого парсинг мало нашёл людей. Кому интересно, вот расчёты https://clck.ru/3NWr3w
У меня есть допущения: Предварительно список обработан на опечатки, а также младенцам присвоен 1 год жизни в случаях, если нет никакой информации (допущение, что младенец прожил не более 1 года). Также, там где указаны дети тоже присвоен 1 год, где они похоронены в одной могиле с родителями без указания информации о годах жизни.
По указанным ссылкам всего 699 похороненных, из которых только у 426 можно установить хоть какие-то данные. А тех, у кого можно узнать возраст, всего 159 человек. У меня получились вот такие данные, могу скину ссылку на расчёты
У меня вот так получилось:
Если вы те же самые данные по умершим с этого кладбища как-то предварительно обработали (например, вручную пробежались по каждой строке), то попробуйте 1) Скопировать себе блокнот colab по ссылке выше 2) Вставить ваши данные в переменную raw_text 3) запустить по очереди все ячейки с самого начала блокнота.
А вообще, если у вас уже есть данные в нормальном виде, то вам проще их сразу визуализировать где-нибудь в looker studio, DataLens и т.п.
Парсинг писался по конкретно эти данные, чтоб вручную это всё не обрабатывать. Да, 700 строк можно обработать вручную, а что если бы правда было 5000 строк?
Попробуйте по этой ссылке посмотреть https://clck.ru/3NXHuJ
Да, программа по ссылке выше, которая в каждой строке пытается найти даты рождения и смерти, а также возраст. И записывает это в таблицу. Если известны только годы жизни, то находит возраст арифметической операцией. Если известна только дата смерти и возраст, то также находит дату рождения арифметической операцией. В итоге получается таблица вида:
Действительно, пересчитал. Очень много опечаток в данных из-за этого парсинг мало нашёл людей. Кому интересно, вот расчёты https://clck.ru/3NWr3w
У меня есть допущения: Предварительно список обработан на опечатки, а также младенцам присвоен 1 год жизни в случаях, если нет никакой информации (допущение, что младенец прожил не более 1 года). Также, там где указаны
детитоже присвоен 1 год, где они похоронены в одной могиле с родителями без указания информации о годах жизни.Ещё нашёл вот такой интересный случай:
По указанным ссылкам всего 699 похороненных, из которых только у 426 можно установить хоть какие-то данные. А тех, у кого можно узнать возраст, всего 159 человек. У меня получились вот такие данные, могу скину ссылку на расчёты