Comments / Profile of ai

User

Как мы воскресили русский NLP и сократили потребление памяти на 90%

Сравнил результаты токенизации razdel и вашей имплементации mawo-razdel простым скриптом:

from razdel import sentenize as rsentenize, tokenize as rtokenize
from mawo_razdel import sentenize, tokenize


def compare(text, razdel_func, mawo_func, print_vals=False):
    razdel_res = list(razdel_func(text))
    mawo_res = list(mawo_func(text))
    print(f"razdel [{len(razdel_res)}] \tmawo [{len(mawo_res)}]")
    if print_vals:
        print(f"razdel: {[v.text for v in razdel_res]}")
        print(f"mawo: {[v.text for v in mawo_res]}")


compare("Он родился в 1799 г. в Москве.", rsentenize, sentenize)
# razdel [1] 	mawo [1]
compare("А. С. Пушкин - великий русский поэт.", rsentenize, sentenize)
# razdel [1] 	mawo [1]
compare("Число π ≈ 3.14159", rtokenize, tokenize, True)
# razdel [4] 	mawo [6]
# razdel: ['Число', 'π', '≈', '3.14159']
# mawo: ['Число', 'π', '≈', '3', '.', '14159']
text = """
Москва, ул. Тверская, д. 1. XXI век.
А. С. Пушкин родился в 1799 г. в Москве.
"""
compare(text, rsentenize, sentenize)
# razdel [3] 	mawo [1]

Результаты отличаются от того, что в статье представлено:

для первых двух предложений разницы нет. razdel сам по себе отлично справился с этими предложениями. Так и не понял, почему у вас раздел здесь спотыкался
Для числа Пи razdel такж показал себя лучше
Собственно, и на "комплексном" примере razdel дал результат, который ожидался от вашей имплементации

Мб, что-то сделал не так. Интересно услышать комментарии на этот счёт и, всё же, увидеть заявленные улучшения

Information

Specialization