Pull to refresh
1
0
Станислав Киров@Rebel095

User

Send message

У меня вот так получилось:

Если вы те же самые данные по умершим с этого кладбища как-то предварительно обработали (например, вручную пробежались по каждой строке), то попробуйте 1) Скопировать себе блокнот colab по ссылке выше 2) Вставить ваши данные в переменную raw_text 3) запустить по очереди все ячейки с самого начала блокнота.

А вообще, если у вас уже есть данные в нормальном виде, то вам проще их сразу визуализировать где-нибудь в looker studio, DataLens и т.п.

Парсинг писался по конкретно эти данные, чтоб вручную это всё не обрабатывать. Да, 700 строк можно обработать вручную, а что если бы правда было 5000 строк?

Попробуйте по этой ссылке посмотреть https://clck.ru/3NXHuJ

Да, программа по ссылке выше, которая в каждой строке пытается найти даты рождения и смерти, а также возраст. И записывает это в таблицу. Если известны только годы жизни, то находит возраст арифметической операцией. Если известна только дата смерти и возраст, то также находит дату рождения арифметической операцией. В итоге получается таблица вида:

Действительно, пересчитал. Очень много опечаток в данных из-за этого парсинг мало нашёл людей. Кому интересно, вот расчёты https://clck.ru/3NWr3w

У меня есть допущения: Предварительно список обработан на опечатки, а также младенцам присвоен 1 год жизни в случаях, если нет никакой информации (допущение, что младенец прожил не более 1 года). Также, там где указаны дети тоже присвоен 1 год, где они похоронены в одной могиле с родителями без указания информации о годах жизни.

Ещё нашёл вот такой интересный случай:

По указанным ссылкам всего 699 похороненных, из которых только у 426 можно установить хоть какие-то данные. А тех, у кого можно узнать возраст, всего 159 человек. У меня получились вот такие данные, могу скину ссылку на расчёты

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity