Сравнил результаты токенизации razdel и вашей имплементации mawo-razdel простым скриптом:
from razdel import sentenize as rsentenize, tokenize as rtokenize
from mawo_razdel import sentenize, tokenize
def compare(text, razdel_func, mawo_func, print_vals=False):
razdel_res = list(razdel_func(text))
mawo_res = list(mawo_func(text))
print(f"razdel [{len(razdel_res)}] \tmawo [{len(mawo_res)}]")
if print_vals:
print(f"razdel: {[v.text for v in razdel_res]}")
print(f"mawo: {[v.text for v in mawo_res]}")
compare("Он родился в 1799 г. в Москве.", rsentenize, sentenize)
# razdel [1] mawo [1]
compare("А. С. Пушкин - великий русский поэт.", rsentenize, sentenize)
# razdel [1] mawo [1]
compare("Число π ≈ 3.14159", rtokenize, tokenize, True)
# razdel [4] mawo [6]
# razdel: ['Число', 'π', '≈', '3.14159']
# mawo: ['Число', 'π', '≈', '3', '.', '14159']
text = """
Москва, ул. Тверская, д. 1. XXI век.
А. С. Пушкин родился в 1799 г. в Москве.
"""
compare(text, rsentenize, sentenize)
# razdel [3] mawo [1]
Результаты отличаются от того, что в статье представлено:
для первых двух предложений разницы нет. razdel сам по себе отлично справился с этими предложениями. Так и не понял, почему у вас раздел здесь спотыкался
Для числа Пи razdel такж показал себя лучше
Собственно, и на "комплексном" примере razdel дал результат, который ожидался от вашей имплементации
Мб, что-то сделал не так. Интересно услышать комментарии на этот счёт и, всё же, увидеть заявленные улучшения
Сравнил результаты токенизации
razdelи вашей имплементацииmawo-razdelпростым скриптом:Результаты отличаются от того, что в статье представлено:
для первых двух предложений разницы нет. razdel сам по себе отлично справился с этими предложениями. Так и не понял, почему у вас раздел здесь спотыкался
Для числа Пи razdel такж показал себя лучше
Собственно, и на "комплексном" примере razdel дал результат, который ожидался от вашей имплементации
Мб, что-то сделал не так. Интересно услышать комментарии на этот счёт и, всё же, увидеть заявленные улучшения