Отвратительно. В одну кучу векторизация текстов и берт. Какие алгоритмы для классификации использовали вместе с бертом - непонятно, как боролтсь с дисбалансом классов - тоже, во всех ли подходах чистили текст - непонятно. Статья - просто информационный шум, полностью бесполезна. Удалите.
Как-то бесполезно. Если человек ищет тулу для разметки, он ищет ее под конкретную область, задачу, часто еще и под конкретную архитектуру сети. А тут все в кучу.
Спасибо, но уже начитался - своим комментарием я просто выражал одобрение автору :)
По ссылке на репозиторий можно одной кнопкой запустить трэйн и инференс в колабе.
В тексте я указал, что отличие v5 только в реализации на pytorch. В названии использую v5 по названию авторского репозитория.
На проде крутится сейчас в качестве MVP, с другими yolo не сравнивал, но таких сравнений полно в интернете.
Очень круто, что с таких основ происходит вход в тему - а то все лепят фит-предикт и типа датасайентисты)
Отвратительно. В одну кучу векторизация текстов и берт. Какие алгоритмы для классификации использовали вместе с бертом - непонятно, как боролтсь с дисбалансом классов - тоже, во всех ли подходах чистили текст - непонятно. Статья - просто информационный шум, полностью бесполезна. Удалите.
Как-то бесполезно. Если человек ищет тулу для разметки, он ищет ее под конкретную область, задачу, часто еще и под конкретную архитектуру сети. А тут все в кучу.
Литературно генерить по набору слов гугловский T5 действительно умеет неплохо. Я использовал русскоязычную версию: https://huggingface.co/cointegrated/rut5-small-normalizer
Правда на отдельную значимую работу такой корпус ИМХО не особо тянет)
Увы - это не моя модель. Но именно этот маленький русский берт отлично заходит на моих задачках классификации. Ну и скорость конечно тоже отменная)
Это просто команда торча: torch.save(model, model_save_path)