Как стать автором
Обновить

Спарсил 700к ютуб каналов и построил 16 графиков которые вы навряд ли где-то видели

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров13K
Всего голосов 49: ↑46 и ↓3+63
Комментарии38

Комментарии 38

Если вам нужен датасет, то в этот раз я не смогу отдать,

А почему? // PS: Мне не нужен, просто любопытствую)

сделал коммерческий сервис чтобы собирать контакты и соц.сети из под видео и ищу клиентов сейчас (не скажу как называется чтобы не обвиняли в том что реклама)

если сервис не зайдет то, думаю, датасет опубликую для всех желающих

А предполагаемое использование, создание базы для спама?

Это называется Cold - маркетинг ;-)

такой сервис действительно может быть использован для спама, но лично мне не хотелось бы двигаться в эту сторону, я буду думать как я могу влиять на это со своей стороны и буду стараться пройти по тонкой грани если это возможно

Почти любые коммерческие контакты по моему опыту должны быть массовыми иначе они не имеют смысл для привлечения клиентов / контактов с ца. Почти для любого бизнеса нет смысла в 1 клиенте. Всегда нужна воронка. воронка = массовость контактов на входе.

Спам/не спам - по моему мнению определяется не массовостью сообщений, а качеством и ценностью которую закладывает отправитель в сообщения. Я думаю никто не против массовых сообщений если человек который их пишет, реально предлагает что-то взаимовыгодное. Проблема скорее в том, что рассылки часто предлагают какой-то скам/шлак и это тратит время/внимание впустую.

Спам/не спам - по моему мнению определяется не массовостью сообщений, а качеством и ценностью которую закладывает отправитель в сообщения.

По-моему тут какая-то подмена понятий. Согласно википедии: "Спам - массовая рассылка корреспонденции (чаще всего рекламы) лицам, не выражавшим желания её получить."

Согласен насчёт массовости, но не согласен насчёт ценности. Насколько бы распространяемая спамером информация и письмо не были бы качественными и полезными, сам факт рассылки без согласия на получение такого рода рассылки - это спам.

Я думаю никто не против массовых сообщений если человек который их пишет, реально предлагает что-то взаимовыгодное.

Я против. Даже если мне предложат что-то выгодное, спам есть спам. Почему я должен доверять "выгоде" от того, кто не уважает моё информационное пространство? Тем более, что с большой долей вероятности такое взаимовыгодное предложение будет интересным и полезным лишь небольшой доле из всех получателей такого письма. Так что "никто не против" - это очень сильное обобщение.

Это не нарушает условия пользования YouTube?

я не могу сказать на 100% уверенно, но парсить открытые данные без авторизации - можно точно, а мои данные получены именно таким образом.

Чтобы парсить я не принимал никакие соглашения, поэтому думаю что эти данные я могу использовать как и любые другие в обычной жизни + в интернете есть похожие сервисы давно живущие

А как это с европейским GDRP согласуется? Похоже что ни как. Так что кроме спамеров никто не купит….

не могли бы вы аргументировать на счет того что такой проект не согласуется с европейским GDPR?

на сколько мне известно, GDPR не запрещает сбор общедоступной информации такой как емейлы, телефоны и ссылки на соц.сети, которые авторы каналов сами разместили для общего доступа

если у вас есть другой опыт - я был бы благодарен вам если бы поделились

Запрещает. Вы должны обосновать с какой целью вы их собираете. Сей час даже хедхантеры раз в пол года просят н согласие что у них данные дальше хранится будут. А вы их сами им передали. ..

В Германии фамилии на почтовых ящиках и дверях подъездов пишут. Теоретически вы можете пройтись по городу и собрать всю эту информацию- она же общедоступная. Но думаю у вас сразу проблемы возникнут. …

Кстати, насчёт соблюдения GDPR в Германии. Насколько законно тогда парсить, к примеру, отзывы на Amazon и собирать отзывы на продукты без логинов?

Это офигенно интересные данные. Прям очень. А можно подробнее по методике сбора информации?

У меня вопрос есть или это немного критики. Вы пишите "Метод сбора: перебор наиболее частотных английских ключевых слов.". Правильно ли я понимаю, что такой подход дает сильный перекос по усреднению результата? Ну условно, если инопланетянин попадет на фудкорт в развитой стране, то он подумает, что пища для землян это: McDonald's, Burger King, Five Guys, Dunkin' Donuts, Krispy Kreme, Taco Bell, Wendy's и далее по списку. А мы то с вами знаем, что часть жителей вообще не есть фастфуд, часть ест его редко, есть веганы, есть те кто вообще отказался от сильно обработанной пищи и тд. Продолжая логику: в кинотеатре сегодня показывают блокбастеры этого года, а фактически люди дома на Netflix могут смотреть классическое кино 80-х или вообще чб из 40-х... Я верно рассуждаю или нет?

по моим ощущения такого перекоса скорее не будет

перебор по ключевым словам примерно так выглядит по моему опыту:
1) вставляем популярное слово в поиск ютуба
2) получаем все каналы которые выдает ютуб по этому ключу от первого до последнего
3) скорее всего ютуб отдает все каналы которые хоть как-то содержат ключевое слово (= содержат ключ в описании, названии или даже контенте мб)

то есть:

- перекос будет в сторону англоязычных каналов, и если канал полностью на китайском/французском/тайском/арабском например, а мы перебираем английские слова, то в этом случае такие каналы скорее всего не попадут в результаты.
- в выдачу не попадут каналы, где нет описания возможно

но может быть даже и все сложнее и я что-то не понимаю

+ то что ютуб выдал много ру-каналов, означает что ютуб так же скорее всгео ориентировался в выдаче каналов на айпи сервера где запущен скрипт

есть веганы, есть те кто вообще отказался от сильно обработанной пищи

Неужели есть кто-то сильнее веганов?

Конечно есть ещё две степени вглубь шизодуизма: 1. сыроеды. 2. праноеды

Я понимаю, что двухбуквенные коды стран можно нагуглить и вывести на соседней вкладке, или вообще выучить наизусть. Но всё-таки для удобства читателей можно на первом графике показать имена стран вместо кода?

Я немного завис на "PK" пытаясь подобрать название, но потом сменил подход и начал вспоминать страны с большим населением. Сразу дошло, что это Пакистан

Отличная работа, спасибо, положил в закладки (правда не знаю зачем)!
Хотел добавить, что среднее оно конечно среднее, но многое зависит от контент-плана и таргет-аудитории: мы на 70 видео набрали 500k+ подписчиков (тематика "knowledge"), т.е. примерно в 500 раз больше, чем у вас в таблице.

А есть в разрезе языков канала?

Графики, несомненно, интересны, но практической пользы от них фактически нет. Все результаты примерно очевидны. А почему были выбраны английские слова вместо русских? Мне кажется, для русскоговорящей аудитории было бы интереснее посмотреть по русским ключевым словам.

для русскоговорящей аудитории

мне, наоборот, интереснее выборка по английским словам. Да и думаю, многим на хабре это ближе. Если чисто для себя. Если же для деньгогенерации, то и так понятно, что надо снимать: детский контент, муз.клипы, автомобильная тематика

1) все зависит от цели, моя цель была в том, чтобы понять как монетизируются каналы успешные => поэтому я анализировал ссылки под видео у каналов которые выглядят успешнее остальных

2) выбрал англ слова чтобы зацепить как можно больше каналов в первую очередь. Англ слова часто используются в ру каналах в названии и где-нибудь еще поэтому попали в выборку, но обратное не верно.

Спарси базу rawg

а эта база лучше стима чем-то например? или ни чем = то же самое?

Да лучше

завести ютуб канал и стать знаменитым,

Сейчас на ют наблюдаю явление молодых каналов, где люди просто общаются, нет монетизации. И она как будто не предполагается: то есть контент немассовый, автор не гонится за увел.показателей, ничего не выпрашивает, снимает как оно идёт иногда одним дублем без монтажа. Вот, есть и такой подход, он больше про самовыражение

да, так тоже пробовал и мне так больше зашло как подход

оказалось что снимать оч искренне видео одним дублем в закрытый канал на 50 человек друзей про то что мне интересно - гораздо интереснее, чем выдавливать из себя умные слова и пытаться впечатлить неограниченную незнакомую аудиторию

скорее всего распределение не мэтчится с жизнью и в реальности Россия не на втором месте по каналам

На картинке Россия на четвертом месте, а не на втором. Или я что-то не понял?

спасибо, поправил

Вы выложили статистику, ну так примените к ней статистику.

Но позиция тематики "бизнес" меня переубедила. Если вы хотите денег, то как говорится, идите в бизнес а если хотите просмотров на ютубе то в R&B. Скорее всего "R&B" и "Film" имеют такие цифры, потому что под эти категории попадают популярные музыкальные клипы и трейлеры фильмов.

Гляньте на сырые данные и исключите выбросы типа Рианны с миллиардами просмотров, может что изменится. Но скорее всего данные кластеризуются, и применять к ним средние и медианы вообще не вариант.

график о том, сколько существует каналов на ютубе с разным кол-ом подписчиков, чтобы вы могли прикинуть априорную вероятность стать популярным

Вы много раз за статью упоминаете "вероятность", опираясь просто на распределение. Это некорректно. Во-первых, большой процент роликов никогда не пытались стать популярными, а кто-то, наоборот, изначально был популярной персоной и нагнал в подписоту уже имеющихся фанатов. Во-вторых, если вы будете очередным школьником, читающим рэп - это большая разница с очередной, но фигуристой няшей-геймершей, и для оценки интересности того или иного контента следовало бы популярность нормировать еще и на количество каналов, то есть, исследовать общую удельную популярность темы. То есть, когда вы показываете график

каналы созданные не позднее 3х лет назад, только тематики для которых нашлось 100+ каналов. Фильтр по каналам от 1000 до 2000 подписчиков. Сначала не поверил в график, но перепроверил пару раз и всегда получалось так.

то тут речь как раз об этом! Ну не может быть, чтобы нишевые индюшатина и христианский рок вот так же быстро привлекали трафик, что и хип-хоп. Вот тут и недочет аналитики: вы опираетесь на абсолютные цифры просмотров/подписоты/трафика. Но то, что достижение для христианского рока, есть старт для латиноамериканки, начавшей петь и двигать тазом. Это говорит о принципиально различной величине фанбазы - из условно миллиона поклонников христианского рока любой новичок, зашедший в тему с 30 видосами, наберет там бОльшую долю от общей фанбазы христиан-рокеров, чем тверкающая под фанеру девочка от миллиарда поклонников гетто-музыки, но в абсолютных цифрах просмотров это будет примерно одно и то же значение.

тобы набрать первую тысячу подписчиков готовьтесь снять что-то между 50 и 131 видео. Агрегация не различает шортсы и длинные видео, поэтому короткие и длинные видео учитываются вместе

Ну это совсем методологически грустно. Учитываю вирусную клиповость шортсов, это прям сильный статистический skew.

синяя линия = среднее кол-во подписчиков у каналов в категории. Зеленые столбцы = среднее кол-во видео у каналов в категории. Можно грубо интерпретировать так, какое кол-во видео нужно снять (зеленый столбец) чтобы получить X (синяя линия) кол-во фанатов

Вот это гораздо ближе к тому, что я говорил. Но тут речь скорее о том, что люди подписываются и не смотрят все эти каналы со стендапом, скетчами, трейлерами фильмов. Подписался и ладно.

Это к вопросу про НЕ блокировку ютуба в России. Одним из аргументов когда-то был такой: ютуб гнет свою политическую повестку и массово влияет на мнение граждан из рф. По графикам видно, какую долю занимает политика в интересах этих граждан на ютубе .

можно было бы извлечь и озвучить больше интересной статистики, а в таком виде мало кого заинтересует, только если вы не отдадите все как есть кому-то другому. + надо учесть что ютуб тема в рф скорее умирающая

на самом деле не так просто придумать хорошие идеи для визуализации

если у вас идеи интересных графиков по датасету - предлагайте, постараюсь сделать

надо подумать, можно названия роликов проанализировать на слова, как отдельные слова влияют или нет на просмотры, какие есть сочетания слов. можно в теории нейросети подключить типа bert для анализа

анализировал частоту ключевых слов (моно/би-грамм) из заголовков видео

сначала казалось что будет оч интересно
но оказалось бесполезно в результате, поэтому не включал в этот текст

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации