Pull to refresh

Comments 6

Интересно!

А я правильно понимаю, что если модель поддерживает, например, русский и английский, то комбинированный текст вида «Ivanov ivan телефон 891234567” она корректно распознает?

Спасибо за идею.

Можно будет собрать еще некоторое количество неупомянутых моделей и сделать апдейт темы с ними!

Хорошая статья. Правда, необязательно брать такой тяжёлый qwen - хватит квантованной версии от 3b до 7b (от 4KM до 8Q). И подавать текст мелкими порциями. Для русского также можно маленькую Gemma2 использовать. Есть и другие небольшие модели, которые отлично справятся с NER. Преимущество: очень добротный и чистый результат. Но, больше шансов, что некоторые сущности будут пропущены. Всё же модели не обучались специально под эту задачу. Хотя, уверен, что это дело техники. Только вот про пушку и воробьёв всё равно верно подмечено.

Natasha отличная библиотека, но всё же модельки слабоваты дефолтные (очень маленькие), результат не дотягивает до приемлемого. В принципе, у меня не так много опыта в этом, но получилось даже разобраться с грамотной нормализацией названий, состоящих из нескольких слов. Хотя, каждое пятое-седьмое - неверное.

В общем, GLiNER выглядит привлекательно - стоит протестировать

Sign up to leave a comment.

Articles