Как стать автором
Обновить

Комментарии 16

Добрый день:)

Читать начала, потому что "про Шульман", потом обнаружила, что на ютуб на ваш уже когда-то подписалась, хотя ни разу не датасаентистка. Подружка одна в этом деле, водила меня раза три на семинары, там было про numpy, это мой максимум (был, до прочтения вот сейчас этой статьи).

Теперь по теме статьи.

Во-первых, странно, что нужен именно счётчик итераций. Вернее, подозреваю, всё дело в том, что код был готовый. Реально там наверняка можно "while ещё есть, что читать, читаем дальше". Потому что тут итераций 200, там 150, если это делать потоком (допустим, "считаем для всех членов правительства под всеми видео за пятилетку"), то либо будет отчаянный перерасход усилий (если оно может намеченные 200 раз прокрутить при достаточных 150, и вы настроите эту константу с запасом), либо ошибка выскочит (что крутить дальше некуда).

Далее. С предлогами что-то не очень. То есть, я понимаю, что у вас есть наука об этом, и вроде наука не против. Но всё таки. В английском уж точно предлоги делают смысл: look for и look up - это разные вещи. По-русски что-то в голову ничего не приходит, но ведь наверняка же есть. Та же частица "же", вот только что у меня выскочила. Её ЖЕ наверняка убирают. А это эмоция. Отсюда вопрос, а как эта очистка внутри датасаенса обосновывается. Почему мы так не теряем что-нибудь сущностное.

Далее-2. На первых картинках есть "екатерину", "екатерины", "михайловну" и др. Но вы же вроде их привели... нормализовали короче. Вы же их всех поставили в именительный, все слова. Откуда же падежи?
(тут у меня ломается мозг об термин "лемматизация". Типа при чём тут леммы. Или лемминги)
Возможно, я пропустила, что вы возвращаетесь в этот момент к исходникам парсинга.

И это, однако, мелочи по сравнению с (см. внутри кода камент) "убираем с помощью запроса пересекающиеся слова". Прасцити, а вдруг там как раз вся мякотка и есть, в этих пересекающихся? То есть так чисто из жизни я думаю, у Шульман и Путина разница колоссальная изначально. Но в целом подход не вполне очевидный. Путина и Медведева анализировать, например, убрав пересекающиеся слова - это как-то не то, вроде бы. Если анализировать на эмоции каменты к видео а) с Путиным, б) с Медведевым, если пересекающиеся убрать, так ничего ж не останется.

Наконец, о разметке учебного датасета по твиттеру: там же спец.тексты. В смысле что текст, в котором заранее малобуков, он же устроен довольно-таки специфически. Там изначально уже резче формулировки. Ютубовские комментарии могут быть более размытыми, поскольку в них физически больше слов. То есть лексически, чисто словарно, новости отличаются от каментов в ютубе. Но стилистически речь на ютубе как раз, возможно, ближе-то к новостям. Если мы ищем частоты, то, очевидно, структура речи влияет на результат.

Ну или так ещё: в определённой стилистике слова меняют окрас и смысл. "Ключ к разгадке тайн" - это не тот же, который "в кармане". У Шульман скорее первое. А Путина как-то спросили про вес, или сказали ему про вес, у вас мол такой вес в обществе, он парировал "вес 72 кг". Возможно, я цифру путаю, но сам факт? Путинский позитив - это позитив на другом диалекте, на таком, задорно-дворово-номенклатурном. То есть да, тут ещё "негатив-позитив" как разметка не очевиден. Может, один и тот же датасет путинист и шульманофил разметят по-разному.
(этот абзац уже сильно клинится в философию, время уже к полуночи, я уже это самое)

ЗЫ прошу считать изложенное свидетельством заинтересованности, а не критикой, что бы там ни подсказывал датасаенс:)

Там вообще много условностей. Я вот не понимаю почему "ахахах", "ржу" и прочие "ха-ха" - это позитив, а не ирония. Почему "Михаэль Шумахер", "рожден", "люблюкогда" - это негатив? И что это за слова: "баярлуулна", "гаруй", "авахгуй" и прочие нелепицы? Они настолько часто встречаются в комментариях, что попали в облако тегов?

А вообще, разбить фразу на слова - прямой путь в обратном направлении от понимания её смысла и эмоции́.

Широкое поле для манипуляций, да)

Ну, наука пока ещё не изобрела формального способа понимать смысл и эмоции в предложении по, так сказать, общей картине сказанного, как это делает человек. Приходится вот этими мешками слов и прочими векторизациями разбирать фразу на запчасти и по внешнему виду запчастей пытаться догадаться, как работало целое.

Здравствуйте! Спасибо за такой развернутый комментарий и очень рад что прочитали статью и задаете такие осмысленные вопросы. Постараюсь ответить:

" Далее. С предлогами что-то не очень. ....Отсюда вопрос, а как эта очистка внутри датасаенса обосновывается. Почему мы так не теряем что-нибудь сущностное. "

-- Да, конечно теряем, в том числе и удаляя запятые и приводя слова к нижнему регистру мы теряем часть смысла и эмоции, но в тоже время обрасывая некоторую уникальность каждого текста мы получаем возможность привести тексты к некоторому общему знаменателю и лучше находить между ними общие черты, что-то вроде абстрации, но тут, конечно довольно тонкий момент и очень много зависит от корпуса текстов.

"И это, однако, мелочи по сравнению с (см. внутри кода камент) "убираем с помощью запроса пересекающиеся слова". "

-- Слова пересекающиеся убирались только для построения облаков слов, чтобы визуализировать именно то чем отличаются два набора комментариев. При обучении классификатора он сам подобрал веса слов таким образом что негативные слова получили больший отрицательный вес а более позитивные -- больший положительный вес, в чем мы убедились на втором графике.

В целом замечания очень правильные. Метод, описанный мной тут и приведенный для демонстрации базовых техник работы с текстамии, далек от идеала, что видно на примерах оценок в конце статьи. Данный алгоритм в принципе не способен распознавать сарказм иронию и т.д. за этим нужно обращаться к глубоким нейросетям-трансформерам типа GPT, обучение которых требует гораздо более серьезных вычислении. Но даже этот алогоритм на большой статистике, например на тысячах комментариях, вполне способен давать адекватную оценку эмоциональной окраске, ведь большинство людей все-таки еще пишут по-старинке "спасибо" когда им что-то нравится и "уходи" когда не нравится.

Интересное развлечение у Вас на праздниках

Грандиозная работа, призваная заменить простые счётчики лайков/дизлайков.

Еще бы понимать, написан комент ботом или реальным пользователем ютуба.

Годная статья, в избранное. Сразу несколько вещей зацепила, которыми я интересуюсь в перспективе, но руки не доходили. Селениум, сентимент анализ, облако тегов.

Все шикарно, но есть одно душное замечание уважаемому автору. На всех графиках нужны подписи к осям. Всегда и везде. Ну альфа и омега графического представления данных же…

Спасибо! На последнем графике добавил подписи на осях.

А почему для выкачивания комментов не всопользоваться Ютуб АПИ ?

Лишнее доказательство тому, что собранные данные, подсчитанные и представленные в виде красивых картинок - мало что дают потребителю. Нужен специалист способный эти данные правильно интерпретировать и предоставить рекомендации для дальнейших действий.

Простой пример: Путин политик высокого уровня. Любое его слово – это, как минимум чьи-то деньги, а иногда и судьбы. В качестве альтернативы, выбрана журналистка – которая может безнаказанно заниматься популизмом и безостановочно обличать власть.

Разве на основании такой выборки можно сделать вывод о профессиональных навыках кого-то из представленных? Только о том, какой вокруг них эмоциональный фон. А полагаться, даже на чужие эмоции при принятии решения – та ещё рулетка.

Вот она, народная любовь ) Екатерина Шульман - безусловно политолог здорового человека )

'''AttributeError: module 'selenium.webdriver.support' has no attribute 'ui'''' - как исправить эту ошибку?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории