Как стать автором
Обновить

Комментарии 13

В конфигурации ноутбука подправьте ОЗУ — 32 Гб, с 32 Мб я думаю Ваша нейросеть училась бы до второго пришествия =)
Да, спасибо! Очепятка)))
Visual Studio Community 2017 (опционально)

А в чём именно вы находите преимущество использования Visual Studio для разработки на Python? Почему не PyCharm Community Edition или VSCode?


Cледующим шагом необходимо установить Visual C++ Build Tools.

Для чего это? Насколько я помню, deeppavlov и все зависимости для него есть в предсобранных wheel-пакетах и компилировать ничего не нужно. То есть компилятор (MSVC в вашем случае) не понадобится.

А в чём именно вы находите преимущество использования Visual Studio для разработки на Python? Почему не PyCharm Community Edition или VSCode?

Преимуществ по факту никаких. Это кто в чем привык работать.
Для чего это? Насколько я помню, deeppavlov и все зависимости для него есть в предсобранных wheel-пакетах и компилировать ничего не нужно. То есть компилятор (MSVC в вашем случае) не понадобится.

При установке nVIDIA CUDA есть эта зависимость.
Можно выводы с пояснением?
Точность распознавания 76%?
Точность чего? Поиска в анкетах нужных ключевых слов?
С первого взгляда это плохо, или нет?
Как вы правильно заметили, precision — это точность, в данном случае это точность распознавания для модели в целом.
precision: 76.32%;

Значение неплохое, но может быть лучше, это все зависит от качества датасета.

Справедливости ради — под заголовком "Как обучить… на ноутбуке" ожидал увидеть более слабую конфигурацию машины. Имея GPU уровня 1070 с 8гб на борту, можно и не уточнять, что это ноут.

Самое интересное — это подготовка датасета. Было бы интересно узнать как можно больше подробностей :)

Для датасета я написал свое веб-приложение. Я упоминал это в статье. Там есть возможность редактирования токенов, как одиночно, так и множеством.

Вот основные функции этого приложения:
  • Загрузка файлов PDF/DOC/DOCX
  • Файловый менеджер для работы с документами
  • Парсинг файлов PDF/DOC/DOCX в обычный текст
  • Запрос к запущенной модели BERT на DeepPavlov с исходными текстами резюме
  • Сохранение результата от DeepPavlov в промежуточную БД для датасета
  • Редактирование данных для датасета в ручном режиме
  • Сохранение датасета
  • Интерфейс для проверки с маркировкой по сущностям


Есть мысли о сборе данных извне, интеграция с LinkedIn или HH.

ну т.е. Вы ГлубокимПавловым размечаете документы, вручную дополняете или исправляете ошибки в токенах и тренируете опять ГлубокимПавловым исправленный датасет?
И много приходится исправлять / добавлять?

ну т.е. Вы ГлубокимПавловым размечаете документы, вручную дополняете или исправляете ошибки в токенах и тренируете опять ГлубокимПавловым исправленный датасет?

Да, именно так.
И много приходится исправлять / добавлять?

Нет, сначала сделал только одно массовое обновление по нужным токенам. Например по навыкам сотрудников. Сформировал в Excel список терминов, таких как Java,C#,C++,PHP и т.п. Потом проставил нужный мне тип токена для каждого термина, что-то типа того SKILL_PROGLANG, SKILL_FRAMEWORK, SKILL_NETADMIN. Сохранил в текстовый файл и сделал апдейт для датасета в БД на основе этого файла.

После чего обучил на этом датасете. И снова повторил формирования датасета уже с обученной моделью. И так далее повторяя этот процесс пока не получишь желаемый результат.

Теперь понятно! Спасибо :)
П.С. скриншот "Интерфейса для проверки с маркировкой по сущностям" было бы интересно увидеть

image
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории