Комментарии 5
Дальше нужно было бы посмотреть глазами на те образцы данных, которые классифицируются моделью неправильно. И попытаться понять - почему. И нельзя ли что-то придумать для улучшения работы модели именно с этими образцами. Ну там может данные почистить, может признаки новые придумать. Судя по скору моделей, сама модель тут вообще не важна, все модели примерно одинаковое качество показывают. Значит, проблема в данных.
Спасибо за комментарий и интерес к моей статье! Вы правы, анализ образцов данных, которые были неправильно классифицированы моделью, является важным шагом для понимания причин и улучшения работы модели. В моей статье я сосредоточилась на общей оценке производительности модели и рекомендациях по улучшению общего качества предсказаний. Для дальнейшего исследования и улучшения работы моделей, я планирую попробовать использовать модифицированный датасет с выравненным соотношением классов и сравнить его производительность с реальными данными. Это может помочь определить, насколько данные влияют на работу модели и какие меры можно принять для улучшения классификации. Благодарю за ценные замечания.
Я правильно понимаю, что в признаки сами фотографии работ не попали, а было только описание? Это же сильно влияет на конечный результат (понимаю, dataset не ваш и вам трудно что-то сделать с этим).
Немного не понял, что вы в конце сделали с пропущенными значениями? "я не стала заниматься восстановлением категориальных данных" - а что сделали?
То, что за основу взяли деревья отлично. Но хотелось бы сравнение в нейросетями (точность, время обучения, время вычисления результата). Чисто для того, что бы показать, что нейросети тут проиграют (или нет).
1) Да, вы правильно понимаете. В качестве признаков использовалось описание произведений искусства из коллекции музея, а не сами фотографии. Эта статья написана по результатам моего проекта, в котором стояла задача определить «схожесть» пользуясь только классическим методам ML. Если бы я делала проект по Computer Vision, я бы несомненно использовала фотографии.
2) Как известно, категориальные данные можно восстановить или исключить из обработки. У меня пропущенных значений для выбранного вида искусства ‘Photograph’ было всего 0.6%, поэтому я просто исключила их из обработки.
3) Действительно, одной из 5 моделей машинного обучения, которые я тестировала было Decision Tree. Все модели показали примерно равную производительность. Согласна, что проведение сравнительного анализа с нейросетями, включая точность, время обучения и время вычисления результата, может быть интересным направлением для дальнейших исследований. Нейросети могут предоставить более сложные модели и могут показывать высокую точность в ряде задач. Однако, они могут требовать большего количества данных для обучения и занять большее время для трейна и теста.
Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML