Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
# -*- coding: utf-8 -*-
from nltk.stem.snowball import RussianStemmer
import pandas as pd
stemmer = RussianStemmer(False)
def azureml_main(dataframe1 = None, dataframe2 = None):
out_list = []
for index, row in dataframe1.iterrows():
stemmed = stemmer.stem(row['text'].decode('utf-8'))
out_list.append(stemmed.encode('utf-8'))
return pd.DataFrame(out_list)
Обработка русских текстовых данных в Azure Machine Learning