olegchir Oct 9 2017 at 14:46

Как дела у CatBoost? Интервью с разработчиками

4 min

10K

JUG Ru Group corporate blogMachine learning*

+28

Comments 8

AnotherAnkor Oct 9 2017 at 18:36

Изначально было заявлено, что он жрёт абсолютно любые данные. Но в документации были приведены примеры только с численными и текстовыми.
А как же ему таки скормить что-то более сложное? Как ему, для пример, скормить набор страниц со смешанным контентом, чтобы он мог распознать содержимое?

MDiMaI666 Oct 10 2017 at 12:58

Хороший вопрос. Присоединяюсь.
Это проблема большинства подобных решений.

olegchir Oct 10 2017 at 13:25

Если бы он жрал набор страниц со смешанным контентом, приведите пример формата датасета и способа обращения с ним в смысле API?

tech.yandex.com/catboost/doc/dg/concepts/input-data_values-file-docpage

AnotherAnkor Oct 11 2017 at 11:04

Какое-то сложное предложение. Я не смог понять.
Можете привести пример по моему вопросу? Поскольку я вот смотрел в примеры из документации.
В целом, я бы мог сказать, что документация какая-то скудная.

olegchir Oct 12 2017 at 20:41

Ну наверное, этот вопрос стоит задать самой Анне. При возможности, задам.

Судя документации, волшебной фичи, на которую вы надеетесь, нет. Обрабатываемая информация — произвольная, но только в том смысле, в каком произволен входящий текст. Яндексу было важно научить машину работать не только с числами, но и с категориями напрямую, закономерности между которыми она будет выявлять самостоятельно, без нашей низкокачественной ручной помощи. В результате появился CatBoost, одинаково хорошо работающий «из коробки» как с числовыми признаками, так и с категориальными. В этом и есть задекларированная свобода.

Но можно пофантазировать, если бы ваша магическая фича существовала — как бы для нее выглядел входящий датасет, и каким могло бы быть апи. Наверное, такого эффекта можно достичь самостоятельно, комбинацией разных инструментов — еще одна тема для вопросов к Анне.

AnotherAnkor Oct 30 2017 at 11:26

Спасибо.
Думаю, не только я буду рад ответу.

kizill Oct 13 2017 at 02:41

Catboost — не про обработку неструктурированных данных, он решает совсем другую задачу — как с помощью набора каких-то характеристик объекта предсказать класс объекта(задача классификации и мультиклассификации) или какую-то численную характеристику объекта (задача регрессии). То есть для начала вам нужно построить набор численных и/или категориальных признаков, которые описывают ваши объекты и разметить обучающее множество объектов тем значением, которое мы будем предсказывать (проставить таргеты).

AnotherAnkor Oct 30 2017 at 11:27

Да я как бы и не против, чтобы всё было так. Но вот презентация, которая была в прошлой статье, говорила как раз о другом. Следовательно, там ошибка, которая и ввела меня в заблуждение.