Комментарии 13
Visual Studio Community 2017 (опционально)
А в чём именно вы находите преимущество использования Visual Studio для разработки на Python? Почему не PyCharm Community Edition или VSCode?
Cледующим шагом необходимо установить Visual C++ Build Tools.
Для чего это? Насколько я помню, deeppavlov и все зависимости для него есть в предсобранных wheel-пакетах и компилировать ничего не нужно. То есть компилятор (MSVC в вашем случае) не понадобится.
А в чём именно вы находите преимущество использования Visual Studio для разработки на Python? Почему не PyCharm Community Edition или VSCode?
Преимуществ по факту никаких. Это кто в чем привык работать.
Для чего это? Насколько я помню, deeppavlov и все зависимости для него есть в предсобранных wheel-пакетах и компилировать ничего не нужно. То есть компилятор (MSVC в вашем случае) не понадобится.
При установке nVIDIA CUDA есть эта зависимость.
Точность распознавания 76%?
Точность чего? Поиска в анкетах нужных ключевых слов?
С первого взгляда это плохо, или нет?
Справедливости ради — под заголовком "Как обучить… на ноутбуке" ожидал увидеть более слабую конфигурацию машины. Имея GPU уровня 1070 с 8гб на борту, можно и не уточнять, что это ноут.
Самое интересное — это подготовка датасета. Было бы интересно узнать как можно больше подробностей :)
Вот основные функции этого приложения:
- Загрузка файлов PDF/DOC/DOCX
- Файловый менеджер для работы с документами
- Парсинг файлов PDF/DOC/DOCX в обычный текст
- Запрос к запущенной модели BERT на DeepPavlov с исходными текстами резюме
- Сохранение результата от DeepPavlov в промежуточную БД для датасета
- Редактирование данных для датасета в ручном режиме
- Сохранение датасета
- Интерфейс для проверки с маркировкой по сущностям
Есть мысли о сборе данных извне, интеграция с LinkedIn или HH.
ну т.е. Вы ГлубокимПавловым размечаете документы, вручную дополняете или исправляете ошибки в токенах и тренируете опять ГлубокимПавловым исправленный датасет?
И много приходится исправлять / добавлять?
ну т.е. Вы ГлубокимПавловым размечаете документы, вручную дополняете или исправляете ошибки в токенах и тренируете опять ГлубокимПавловым исправленный датасет?
Да, именно так.
И много приходится исправлять / добавлять?
Нет, сначала сделал только одно массовое обновление по нужным токенам. Например по навыкам сотрудников. Сформировал в Excel список терминов, таких как Java,C#,C++,PHP и т.п. Потом проставил нужный мне тип токена для каждого термина, что-то типа того SKILL_PROGLANG, SKILL_FRAMEWORK, SKILL_NETADMIN. Сохранил в текстовый файл и сделал апдейт для датасета в БД на основе этого файла.
После чего обучил на этом датасете. И снова повторил формирования датасета уже с обученной моделью. И так далее повторяя этот процесс пока не получишь желаемый результат.
Как обучить нейронную сеть DeepPavlov на ноутбуке с использованием GPU