Как стать автором
Обновить

Комментарии 19

Почему просто по вопросительному слову не давать 95%+ точность?

На какие вопросы подходящие под шаблон из обучающей выборки можно получить более двух классификаторов?
Или такое невозможно из представленной модели вопросов?
if not('#' in line):

А где у вас решётка к model.txt?

Думаю этот код нужен, чтобы пропускать закомментированные строки.

всё проще, автор тупо стырил статью из интернетов, сильно не разбираясь как и что там работает.

Я не совсем программист, но точно эта строка отсечет комментарии без false positive? Ну там пробелы перед # или использование символа # внутри строкового литерала.

Оно отбросит вообще все строки, в которых есть # в любом виде, независимо от его расположения в строке.

Допускаю, что я не "настоящий сварщик", но все-таки. Функция text_cleaner объявлена, а использования нет. Вкупе с отсутсвующим в модельном файле диезом создается впечатление то-ли заготовки, то-ли копипасты без понимания сути.

Судя по статье из первой ссылки, там тоже автор не особо разбирался...

А зачем свой train_test_split, если он уже есть в sklearn и гораздо более навороченный?

Какие еще библиотеки необходимы, код не удалось запустить

Какую ошибку выдаёт?

Using cached PyStemmer-2.2.0.tar.gz (698 kB)
Preparing metadata (setup.py) ... error
error: subprocess-exited-with-error

× python setup.py egg_info did not run successfully.
│ exit code: 1
╰─> [10 lines of output]
Traceback (most recent call last):
File "", line 2, in
File "", line 34, in
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 199, in
['src/Stemmer.pyx'] + list(LIBRARY_SOURCE_CODE.source_code_paths()),
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 85, in source_code_paths
for line in self.iter_manifest_lines():
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 74, in iter_manifest_lines
with open(self.manifest_file_path) as file:
FileNotFoundError: [Errno 2] No such file or directory: 'libstemmer_c-2.2.0\mkinc_utf8.mak'
[end of output]

note: This error originates from a subprocess, and is likely not a problem with pip.
error: metadata-generation-failed

× Encountered error while generating package metadata.
╰─> See above for output.

note: This is an issue with the package mentioned above, not pip.
hint: See above for details.

Вообще, статья странная. Не упомянуто, какая именно модель используется, что вообще происходит, как происходит классификация, и почему именно так. @Lord_of_Rings, не поделитесь подробностями?

Критиковать, конечно, легче, чем статьи писать, но мне кажется, что данная статья, мало того, что не полезная, так еще и откровенно вредная из-за кривого кода.

Если учесть наличие плагиата без указания источника, то совсем плохо.

В статье продемонстрирован классический пример, где ML не нужен в принципе. Обычный эвристический алгоритм даст идеальное качество.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации