Статьи / Закладки / Профиль Rakhat1995 / Хабр

@Rakhat1995^{read⁠-⁠only}

Пользователь

Профиль Закладки 2

zoldaten 17 сен 2019 в 22:00

Как оптимизировать pandas при работе с большими datasetами (очерк)

3 мин

9.4K

Python*

Туториал

Когда памяти вагоны и/или dataset небольшой можно смело закидывать его в pandas безо всяких оптимизаций. Однако, если данные большие, остро встает вопрос, как их обрабатывать или хотя бы считать.

Предлагается взглянуть на оптимизацию в миниатюре, дабы не вытаскивать из сети гигантские датасеты.

В качестве датасета будем использовать хабрастатистику с комментариями пользователей за 2019 г., которая является общедоступной благодаря одному трудолюбивому пользователю:
dataset

В качестве инфо-основы будет использоваться ранее переведенная статья с Хабра, в которой намешано много интересного.

Читать дальше →

iwitaly 6 июн 2019 в 15:44

Построение автоматической системы модерации сообщений

9 мин

7.9K

Мессенджеры*Python*Алгоритмы*Машинное обучение*Искусственный интеллект

Автоматические системы модерации внедряются в веб-сервисы и приложения, где необходимо обрабатывать большое количество сообщений пользователей. Такие системы позволяют сократить издержки на ручную модерацию, ускорить её и обрабатывать все сообщения пользователей в real-time. В статье поговорим про построение автоматической системы модерации для обработки английского языка с использованием алгоритмов машинного обучения. Обсудим весь пайплайн работы от исследовательских задач и выбора ML алгоритмов до выкатки в продакшен. Посмотрим, где искать готовые датасеты и как собрать данные для задачи самостоятельно.

Читать дальше →

+11