Как стать автором
Обновить
0
@Rakhat1995read⁠-⁠only

Пользователь

Отправить сообщение

Как оптимизировать pandas при работе с большими datasetами (очерк)

Время на прочтение3 мин
Количество просмотров9.4K
Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их обрабатывать или хотя бы считать.

Предлагается взглянуть на оптимизацию в миниатюре, дабы не вытаскивать из сети гигантские датасеты.

В качестве датасета будем использовать хабрастатистику с комментариями пользователей за 2019 г., которая является общедоступной благодаря одному трудолюбивому пользователю:
dataset

В качестве инфо-основы будет использоваться ранее переведенная статья с Хабра, в которой намешано много интересного.
Читать дальше →
Всего голосов 12: ↑10 и ↓2+8
Комментарии8

Построение автоматической системы модерации сообщений

Время на прочтение9 мин
Количество просмотров7.9K
image
Автоматические системы модерации внедряются в веб-сервисы и приложения, где необходимо обрабатывать большое количество сообщений пользователей. Такие системы позволяют сократить издержки на ручную модерацию, ускорить её и обрабатывать все сообщения пользователей в real-time. В статье поговорим про построение автоматической системы модерации для обработки английского языка с использованием алгоритмов машинного обучения. Обсудим весь пайплайн работы от исследовательских задач и выбора ML алгоритмов до выкатки в продакшен. Посмотрим, где искать готовые датасеты и как собрать данные для задачи самостоятельно.
Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии19

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность