Lord_of_Rings 4 янв 2023 в 00:17

Пишем простой классификатор текста на Python

4 мин

23K

Python*Машинное обучение*

Из песочницы

Комментарии 19

sunnybear 4 янв 2023 в 00:23

Почему просто по вопросительному слову не давать 95%+ точность?

pharo 4 янв 2023 в 00:43

На какие вопросы подходящие под шаблон из обучающей выборки можно получить более двух классификаторов?
Или такое невозможно из представленной модели вопросов?

Maksim-Burtsev 4 янв 2023 в 01:22

if not('#' in line):

А где у вас решётка к model.txt?

ooneon 4 янв 2023 в 11:22

Думаю этот код нужен, чтобы пропускать закомментированные строки.

rSedoy 4 янв 2023 в 11:30

всё проще, автор тупо стырил статью из интернетов, сильно не разбираясь как и что там работает.

PrinceKorwin 4 янв 2023 в 13:05

Я не совсем программист, но точно эта строка отсечет комментарии без false positive? Ну там пробелы перед # или использование символа # внутри строкового литерала.

IvaYan 4 янв 2023 в 13:12

Оно отбросит вообще все строки, в которых есть # в любом виде, независимо от его расположения в строке.

pharo 4 янв 2023 в 02:15

Упомянутая в статье библиотека Stemmer на Си и других языках.

Сайт: snowballstem.org
Проект на Github

acyp 4 янв 2023 в 06:26

Допускаю, что я не "настоящий сварщик", но все-таки. Функция text_cleaner объявлена, а использования нет. Вкупе с отсутсвующим в модельном файле диезом создается впечатление то-ли заготовки, то-ли копипасты без понимания сути.

rSedoy 4 янв 2023 в 07:58

Автор, фу быть таким. Чуток погуглил (и то не факт что это оригинал), https://telegra.ph/Pishem-prostuyu-nejroset-12-25 даже, прости, господи, 3 года назад на майл-ответах https://otvet.mail.ru/question/216434772

Bitumok 4 янв 2023 в 20:38

Судя по статье из первой ссылки, там тоже автор не особо разбирался...

IvaYan 4 янв 2023 в 10:45

А зачем свой train_test_split, если он уже есть в sklearn и гораздо более навороченный?

fry404 4 янв 2023 в 11:23

Какие еще библиотеки необходимы, код не удалось запустить

Lord_of_Rings 4 янв 2023 в 11:23

Какую ошибку выдаёт?

rSedoy 4 янв 2023 в 11:34

будут комментарии на тему, почему чужое выдаешь за свое?

fry404 4 янв 2023 в 21:35

Using cached PyStemmer-2.2.0.tar.gz (698 kB)
Preparing metadata (setup.py) ... error
error: subprocess-exited-with-error

× python setup.py egg_info did not run successfully.
│ exit code: 1
╰─> [10 lines of output]
Traceback (most recent call last):
File "", line 2, in
File "", line 34, in
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 199, in
['src/Stemmer.pyx'] + list(LIBRARY_SOURCE_CODE.source_code_paths()),
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 85, in source_code_paths
for line in self.iter_manifest_lines():
File "C:\Users_\AppData\Local\Temp\pip-install-400byijh\pystemmer_3d70e74fe4dd4f38a92b3a86a3dda42b\setup.py", line 74, in iter_manifest_lines
with open(self.manifest_file_path) as file:
FileNotFoundError: [Errno 2] No such file or directory: 'libstemmer_c-2.2.0\mkinc_utf8.mak'
[end of output]

note: This error originates from a subprocess, and is likely not a problem with pip.
error: metadata-generation-failed

× Encountered error while generating package metadata.
╰─> See above for output.

note: This is an issue with the package mentioned above, not pip.
hint: See above for details.

IvaYan 4 янв 2023 в 13:17

Вообще, статья странная. Не упомянуто, какая именно модель используется, что вообще происходит, как происходит классификация, и почему именно так. @Lord_of_Rings, не поделитесь подробностями?

Bitumok 4 янв 2023 в 20:17

Критиковать, конечно, легче, чем статьи писать, но мне кажется, что данная статья, мало того, что не полезная, так еще и откровенно вредная из-за кривого кода.

Если учесть наличие плагиата без указания источника, то совсем плохо.

jandevel 4 янв 2023 в 22:53

В статье продемонстрирован классический пример, где ML не нужен в принципе. Обычный эвристический алгоритм даст идеальное качество.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время