Comments 8
Изначально было заявлено, что он жрёт абсолютно любые данные. Но в документации были приведены примеры только с численными и текстовыми.
А как же ему таки скормить что-то более сложное? Как ему, для пример, скормить набор страниц со смешанным контентом, чтобы он мог распознать содержимое?
А как же ему таки скормить что-то более сложное? Как ему, для пример, скормить набор страниц со смешанным контентом, чтобы он мог распознать содержимое?
Хороший вопрос. Присоединяюсь.
Это проблема большинства подобных решений.
Это проблема большинства подобных решений.
Если бы он жрал набор страниц со смешанным контентом, приведите пример формата датасета и способа обращения с ним в смысле API?
tech.yandex.com/catboost/doc/dg/concepts/input-data_values-file-docpage
tech.yandex.com/catboost/doc/dg/concepts/input-data_values-file-docpage
Какое-то сложное предложение. Я не смог понять.
Можете привести пример по моему вопросу? Поскольку я вот смотрел в примеры из документации.
В целом, я бы мог сказать, что документация какая-то скудная.
Можете привести пример по моему вопросу? Поскольку я вот смотрел в примеры из документации.
В целом, я бы мог сказать, что документация какая-то скудная.
Ну наверное, этот вопрос стоит задать самой Анне. При возможности, задам.
Судя документации, волшебной фичи, на которую вы надеетесь, нет. Обрабатываемая информация — произвольная, но только в том смысле, в каком произволен входящий текст. Яндексу было важно научить машину работать не только с числами, но и с категориями напрямую, закономерности между которыми она будет выявлять самостоятельно, без нашей низкокачественной ручной помощи. В результате появился CatBoost, одинаково хорошо работающий «из коробки» как с числовыми признаками, так и с категориальными. В этом и есть задекларированная свобода.
Но можно пофантазировать, если бы ваша магическая фича существовала — как бы для нее выглядел входящий датасет, и каким могло бы быть апи. Наверное, такого эффекта можно достичь самостоятельно, комбинацией разных инструментов — еще одна тема для вопросов к Анне.
Судя документации, волшебной фичи, на которую вы надеетесь, нет. Обрабатываемая информация — произвольная, но только в том смысле, в каком произволен входящий текст. Яндексу было важно научить машину работать не только с числами, но и с категориями напрямую, закономерности между которыми она будет выявлять самостоятельно, без нашей низкокачественной ручной помощи. В результате появился CatBoost, одинаково хорошо работающий «из коробки» как с числовыми признаками, так и с категориальными. В этом и есть задекларированная свобода.
Но можно пофантазировать, если бы ваша магическая фича существовала — как бы для нее выглядел входящий датасет, и каким могло бы быть апи. Наверное, такого эффекта можно достичь самостоятельно, комбинацией разных инструментов — еще одна тема для вопросов к Анне.
Catboost — не про обработку неструктурированных данных, он решает совсем другую задачу — как с помощью набора каких-то характеристик объекта предсказать класс объекта(задача классификации и мультиклассификации) или какую-то численную характеристику объекта (задача регрессии). То есть для начала вам нужно построить набор численных и/или категориальных признаков, которые описывают ваши объекты и разметить обучающее множество объектов тем значением, которое мы будем предсказывать (проставить таргеты).
Sign up to leave a comment.
Как дела у CatBoost? Интервью с разработчиками