Спасибо за комментарий и замечания. Напомним, что это перевод статьи, которую прочитали наши разработчики, а не наш собственный мануал. Ссылка на оригинал указана в начале статьи.
Мы попросили наших разработчиков еще раз посмотреть статью на ваш комментарий и получили следующий ответ:
«Пропал "RandomForestClassifier" из импорта» — да, причем несколько раз. Если попробовали бы выполнить эти куски кода отдельно от основных, то произошла бы ошибка импорта. Надеемся, что проблем не возникло
«Как tf влияет на sklearn?» — никак не влияет. RandomForestClassifier работает только на CPU. В статье указан неправильный подход к объявлению модели, правильно будет объявить модель через tf. Например:
«Как и почему read_excel стал работать быстрее?» — да, это 100% разные подходы. Во втором случае загрузка и обработка данных могут происходить одновременно с обучением модели, параллельно загружая и обрабатывая батчи данных с этапами работы GPU. Использование генератора позволяет не держать все данные в памяти целиком, а только по необходимости. За счет этого снижается нагрузка на оперативную память, из-за чего мы также выигрываем во времени и производительности (но не 18 секунд конечно)
Ещё раз спасибо за ваши замечания. Мы не перерабатывали скрипты в статье, чтобы не исказить представление об оригинале статьи. Будем рады обсудить и другие моменты, которые могли волновать вас в статье!
Спасибо за комментарий и замечания. Напомним, что это перевод статьи, которую прочитали наши разработчики, а не наш собственный мануал. Ссылка на оригинал указана в начале статьи.
Мы попросили наших разработчиков еще раз посмотреть статью на ваш комментарий и получили следующий ответ:
«Пропал "RandomForestClassifier" из импорта» — да, причем несколько раз. Если попробовали бы выполнить эти куски кода отдельно от основных, то произошла бы ошибка импорта. Надеемся, что проблем не возникло
«Как tf влияет на sklearn?» — никак не влияет. RandomForestClassifier работает только на CPU. В статье указан неправильный подход к объявлению модели, правильно будет объявить модель через tf. Например:
model = tf.keras.models.Sequential([
tf.keras.layers.Dense(128, activation='relu', input_shape=(X_train.shape[1],)),
tf.keras.layers.Dense(64, activation='relu'),
tf.keras.layers.Dense(1, activation='sigmoid')
])
«Как и почему read_excel стал работать быстрее?» — да, это 100% разные подходы. Во втором случае загрузка и обработка данных могут происходить одновременно с обучением модели, параллельно загружая и обрабатывая батчи данных с этапами работы GPU. Использование генератора позволяет не держать все данные в памяти целиком, а только по необходимости. За счет этого снижается нагрузка на оперативную память, из-за чего мы также выигрываем во времени и производительности (но не 18 секунд конечно)
Ещё раз спасибо за ваши замечания. Мы не перерабатывали скрипты в статье, чтобы не исказить представление об оригинале статьи. Будем рады обсудить и другие моменты, которые могли волновать вас в статье!
Да, присоединяйтесь, будет трансляция всех секций на нашем YouTube @spectr-dev.
А пока можно посмотреть записи трансляций прошлых лет в разделе «Трансляции».
Рады будем вновь встретиться на конференции!