Комментарии 19
Почему просто по вопросительному слову не давать 95%+ точность?
Или такое невозможно из представленной модели вопросов?
if not('#' in line):
А где у вас решётка к model.txt?
Думаю этот код нужен, чтобы пропускать закомментированные строки.
всё проще, автор тупо стырил статью из интернетов, сильно не разбираясь как и что там работает.
Я не совсем программист, но точно эта строка отсечет комментарии без false positive? Ну там пробелы перед # или использование символа # внутри строкового литерала.
Сайт: snowballstem.org
Проект на Github
Допускаю, что я не "настоящий сварщик", но все-таки. Функция text_cleaner объявлена, а использования нет. Вкупе с отсутсвующим в модельном файле диезом создается впечатление то-ли заготовки, то-ли копипасты без понимания сути.
Автор, фу быть таким. Чуток погуглил (и то не факт что это оригинал), https://telegra.ph/Pishem-prostuyu-nejroset-12-25 даже, прости, господи, 3 года назад на майл-ответах https://otvet.mail.ru/question/216434772
А зачем свой train_test_split
, если он уже есть в sklearn и гораздо более навороченный?
Какие еще библиотеки необходимы, код не удалось запустить
Какую ошибку выдаёт?
будут комментарии на тему, почему чужое выдаешь за свое?
Using cached PyStemmer-2.2.0.tar.gz (698 kB)
Preparing metadata (setup.py) ... error
error: subprocess-exited-with-error
× python setup.py egg_info did not run successfully.
│ exit code: 1
╰─> [10 lines of output]
Traceback (most recent call last):
File "", line 2, in
File "", line 34, in
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 199, in
['src/Stemmer.pyx'] + list(LIBRARY_SOURCE_CODE.source_code_paths()),
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 85, in source_code_paths
for line in self.iter_manifest_lines():
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 74, in iter_manifest_lines
with open(self.manifest_file_path) as file:
FileNotFoundError: [Errno 2] No such file or directory: 'libstemmer_c-2.2.0\mkinc_utf8.mak'
[end of output]
note: This error originates from a subprocess, and is likely not a problem with pip.
error: metadata-generation-failed
× Encountered error while generating package metadata.
╰─> See above for output.
note: This is an issue with the package mentioned above, not pip.
hint: See above for details.
Вообще, статья странная. Не упомянуто, какая именно модель используется, что вообще происходит, как происходит классификация, и почему именно так. @Lord_of_Rings, не поделитесь подробностями?
Критиковать, конечно, легче, чем статьи писать, но мне кажется, что данная статья, мало того, что не полезная, так еще и откровенно вредная из-за кривого кода.
Если учесть наличие плагиата без указания источника, то совсем плохо.
В статье продемонстрирован классический пример, где ML не нужен в принципе. Обычный эвристический алгоритм даст идеальное качество.
Пишем простой классификатор текста на Python