Pull to refresh

Comments 8

Изначально было заявлено, что он жрёт абсолютно любые данные. Но в документации были приведены примеры только с численными и текстовыми.
А как же ему таки скормить что-то более сложное? Как ему, для пример, скормить набор страниц со смешанным контентом, чтобы он мог распознать содержимое?
Хороший вопрос. Присоединяюсь.
Это проблема большинства подобных решений.
Какое-то сложное предложение. Я не смог понять.
Можете привести пример по моему вопросу? Поскольку я вот смотрел в примеры из документации.
В целом, я бы мог сказать, что документация какая-то скудная.
Ну наверное, этот вопрос стоит задать самой Анне. При возможности, задам.

Судя документации, волшебной фичи, на которую вы надеетесь, нет. Обрабатываемая информация — произвольная, но только в том смысле, в каком произволен входящий текст. Яндексу было важно научить машину работать не только с числами, но и с категориями напрямую, закономерности между которыми она будет выявлять самостоятельно, без нашей низкокачественной ручной помощи. В результате появился CatBoost, одинаково хорошо работающий «из коробки» как с числовыми признаками, так и с категориальными. В этом и есть задекларированная свобода.

Но можно пофантазировать, если бы ваша магическая фича существовала — как бы для нее выглядел входящий датасет, и каким могло бы быть апи. Наверное, такого эффекта можно достичь самостоятельно, комбинацией разных инструментов — еще одна тема для вопросов к Анне.
Спасибо.
Думаю, не только я буду рад ответу.
Catboost — не про обработку неструктурированных данных, он решает совсем другую задачу — как с помощью набора каких-то характеристик объекта предсказать класс объекта(задача классификации и мультиклассификации) или какую-то численную характеристику объекта (задача регрессии). То есть для начала вам нужно построить набор численных и/или категориальных признаков, которые описывают ваши объекты и разметить обучающее множество объектов тем значением, которое мы будем предсказывать (проставить таргеты).
Да я как бы и не против, чтобы всё было так. Но вот презентация, которая была в прошлой статье, говорила как раз о другом. Следовательно, там ошибка, которая и ввела меня в заблуждение.
Sign up to leave a comment.