Как стать автором
Обновить
6
0

Пользователь

Отправить сообщение

Подскажите, пожалуйста, какое контекстное окно (сколько токенов) и средний размер токена для этой языковой модели T-lite 7-8B, которую вы описываете?

Распознавание эмоций (по комментариям, по чат-ботам) ужасно интересная тема. Вы написали статью в 2020 году, после появления chatGPT произошли какие-то координационные подвижки в этой сфере?

1) Да, вы правильно понимаете. В качестве признаков использовалось описание произведений искусства из коллекции музея, а не сами фотографии. Эта статья написана по результатам моего проекта, в котором стояла задача определить «схожесть» пользуясь только классическим методам ML. Если бы я делала проект по Computer Vision, я бы несомненно использовала фотографии.

2) Как известно, категориальные данные можно восстановить или исключить из обработки. У меня пропущенных значений для выбранного вида искусства ‘Photograph’ было всего 0.6%, поэтому я просто исключила их из обработки.

3) Действительно, одной из 5 моделей машинного обучения, которые я тестировала было Decision Tree. Все модели показали примерно равную производительность. Согласна, что проведение сравнительного анализа с нейросетями, включая точность, время обучения и время вычисления результата, может быть интересным направлением для дальнейших исследований. Нейросети могут предоставить более сложные модели и могут показывать высокую точность в ряде задач. Однако, они могут требовать большего количества данных для обучения и занять большее время для трейна и теста.

Спасибо за интересный и актуальный обзор. Когда вы описываете методы балансировки данных, вы упоминаете следующие методы: взвешивания классов (Class Weighting), увеличения (Oversampling) выборки, уменьшения (Undersampling) выборки, генерации синтетических данных (SMOTE, ADASYN и др.), ансамблирования моделей (Ensemble Techniques). Кроме того, вы отмечаете контекстные методы (Cost-sensitive learning и Cascade-классификацию).

Но когда вы переходите к выбору оптимального метода вы рассматриваете только методы SMOTE, RandomUnderSampler, NearMiss, ADASYN, Сlass Weight.

Было бы замечательно, если бы вы изобразили свою идею в виде алгоритма: несбалансированные данные (условно тип 1), тогда применяем метод такой-то, используем метрику такую-то; несбалансированные данные (условно тип 2), тогда используем метод такой-то и т.д. Такой алгоритм мог бы служить учебным пособием по работе с несбалансированными данными. А если бы появились ссылки на литературу, то вообще было бы счастье.

Спасибо за комментарий и интерес к моей статье! Вы правы, анализ образцов данных, которые были неправильно классифицированы моделью, является важным шагом для понимания причин и улучшения работы модели. В моей статье я сосредоточилась на общей оценке производительности модели и рекомендациях по улучшению общего качества предсказаний. Для дальнейшего исследования и улучшения работы моделей, я планирую попробовать использовать модифицированный датасет с выравненным соотношением классов и сравнить его производительность с реальными данными. Это может помочь определить, насколько данные влияют на работу модели и какие меры можно принять для улучшения классификации. Благодарю за ценные замечания.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Data Scientist, ML Engineer
Middle