Comments 6
Интересно!
А я правильно понимаю, что если модель поддерживает, например, русский и английский, то комбинированный текст вида «Ivanov ivan телефон 891234567” она корректно распознает?
Странно, что не упомянута Natasha
по запросам читателей:
[PER] это Person. В нашем случае- ФИО .
Хорошая статья. Правда, необязательно брать такой тяжёлый qwen - хватит квантованной версии от 3b до 7b (от 4KM до 8Q). И подавать текст мелкими порциями. Для русского также можно маленькую Gemma2 использовать. Есть и другие небольшие модели, которые отлично справятся с NER. Преимущество: очень добротный и чистый результат. Но, больше шансов, что некоторые сущности будут пропущены. Всё же модели не обучались специально под эту задачу. Хотя, уверен, что это дело техники. Только вот про пушку и воробьёв всё равно верно подмечено.
Natasha отличная библиотека, но всё же модельки слабоваты дефолтные (очень маленькие), результат не дотягивает до приемлемого. В принципе, у меня не так много опыта в этом, но получилось даже разобраться с грамотной нормализацией названий, состоящих из нескольких слов. Хотя, каждое пятое-седьмое - неверное.
В общем, GLiNER выглядит привлекательно - стоит протестировать
Русский Маскарад — применение NER для защиты персональных данных