Pull to refresh

Comments 3

Было бы хорошо, если бы вы показали проблему и ее решение на конкретном тестовом примере. Пока выглядит как ответ для stackexchange.
Да, эту заметку я написал именно в этом формате. Про хакатон я пишу более подробную статью, там будут конкретные примеры.
К сожалению ни в этой заметке, ни в заметке про хакатон не расскрыта тайна работы с русским языком, так как нет полного примера.

Попытался по аналоии воспроизвести следующую последовательность: Enter Data Manually -> Execute Python Script -> Feature Hashing

Сам скрипт:

# -*- coding: utf-8 -*-
from nltk.stem.snowball import RussianStemmer
import pandas as pd

stemmer = RussianStemmer(False)

def azureml_main(dataframe1 = None, dataframe2 = None):
    out_list = []
    for index, row in dataframe1.iterrows():
        stemmed = stemmer.stem(row['text'].decode('utf-8'))
        out_list.append(stemmed.encode('utf-8'))

    return pd.DataFrame(out_list)


на выходе из скрипта текст действительно прогнался через stemmer, а вот на выходе feature hashing сплошные нули
Sign up to leave a comment.

Articles