Pull to refresh

Comments 19

Почему просто по вопросительному слову не давать 95%+ точность?

На какие вопросы подходящие под шаблон из обучающей выборки можно получить более двух классификаторов?
Или такое невозможно из представленной модели вопросов?

Думаю этот код нужен, чтобы пропускать закомментированные строки.

всё проще, автор тупо стырил статью из интернетов, сильно не разбираясь как и что там работает.

Я не совсем программист, но точно эта строка отсечет комментарии без false positive? Ну там пробелы перед # или использование символа # внутри строкового литерала.

Оно отбросит вообще все строки, в которых есть # в любом виде, независимо от его расположения в строке.

Допускаю, что я не "настоящий сварщик", но все-таки. Функция text_cleaner объявлена, а использования нет. Вкупе с отсутсвующим в модельном файле диезом создается впечатление то-ли заготовки, то-ли копипасты без понимания сути.

Судя по статье из первой ссылки, там тоже автор не особо разбирался...

А зачем свой train_test_split, если он уже есть в sklearn и гораздо более навороченный?

Какие еще библиотеки необходимы, код не удалось запустить

Using cached PyStemmer-2.2.0.tar.gz (698 kB)
Preparing metadata (setup.py) ... error
error: subprocess-exited-with-error

× python setup.py egg_info did not run successfully.
│ exit code: 1
╰─> [10 lines of output]
Traceback (most recent call last):
File "", line 2, in
File "", line 34, in
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 199, in
['src/Stemmer.pyx'] + list(LIBRARY_SOURCE_CODE.source_code_paths()),
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 85, in source_code_paths
for line in self.iter_manifest_lines():
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 74, in iter_manifest_lines
with open(self.manifest_file_path) as file:
FileNotFoundError: [Errno 2] No such file or directory: 'libstemmer_c-2.2.0\mkinc_utf8.mak'
[end of output]

note: This error originates from a subprocess, and is likely not a problem with pip.
error: metadata-generation-failed

× Encountered error while generating package metadata.
╰─> See above for output.

note: This is an issue with the package mentioned above, not pip.
hint: See above for details.

Вообще, статья странная. Не упомянуто, какая именно модель используется, что вообще происходит, как происходит классификация, и почему именно так. @Lord_of_Rings, не поделитесь подробностями?

Критиковать, конечно, легче, чем статьи писать, но мне кажется, что данная статья, мало того, что не полезная, так еще и откровенно вредная из-за кривого кода.

Если учесть наличие плагиата без указания источника, то совсем плохо.

В статье продемонстрирован классический пример, где ML не нужен в принципе. Обычный эвристический алгоритм даст идеальное качество.

Sign up to leave a comment.

Articles