Search
Write a publication
Pull to refresh
22
0
Send message

анализировал частоту ключевых слов (моно/би-грамм) из заголовков видео

сначала казалось что будет оч интересно
но оказалось бесполезно в результате, поэтому не включал в этот текст

на самом деле не так просто придумать хорошие идеи для визуализации

если у вас идеи интересных графиков по датасету - предлагайте, постараюсь сделать

не могли бы вы аргументировать на счет того что такой проект не согласуется с европейским GDPR?

на сколько мне известно, GDPR не запрещает сбор общедоступной информации такой как емейлы, телефоны и ссылки на соц.сети, которые авторы каналов сами разместили для общего доступа

если у вас есть другой опыт - я был бы благодарен вам если бы поделились

я не могу сказать на 100% уверенно, но парсить открытые данные без авторизации - можно точно, а мои данные получены именно таким образом.

Чтобы парсить я не принимал никакие соглашения, поэтому думаю что эти данные я могу использовать как и любые другие в обычной жизни + в интернете есть похожие сервисы давно живущие

а эта база лучше стима чем-то например? или ни чем = то же самое?

да, так тоже пробовал и мне так больше зашло как подход

оказалось что снимать оч искренне видео одним дублем в закрытый канал на 50 человек друзей про то что мне интересно - гораздо интереснее, чем выдавливать из себя умные слова и пытаться впечатлить неограниченную незнакомую аудиторию

1) все зависит от цели, моя цель была в том, чтобы понять как монетизируются каналы успешные => поэтому я анализировал ссылки под видео у каналов которые выглядят успешнее остальных

2) выбрал англ слова чтобы зацепить как можно больше каналов в первую очередь. Англ слова часто используются в ру каналах в названии и где-нибудь еще поэтому попали в выборку, но обратное не верно.

по моим ощущения такого перекоса скорее не будет

перебор по ключевым словам примерно так выглядит по моему опыту:
1) вставляем популярное слово в поиск ютуба
2) получаем все каналы которые выдает ютуб по этому ключу от первого до последнего
3) скорее всего ютуб отдает все каналы которые хоть как-то содержат ключевое слово (= содержат ключ в описании, названии или даже контенте мб)

то есть:

- перекос будет в сторону англоязычных каналов, и если канал полностью на китайском/французском/тайском/арабском например, а мы перебираем английские слова, то в этом случае такие каналы скорее всего не попадут в результаты.
- в выдачу не попадут каналы, где нет описания возможно

но может быть даже и все сложнее и я что-то не понимаю

+ то что ютуб выдал много ру-каналов, означает что ютуб так же скорее всгео ориентировался в выдаче каналов на айпи сервера где запущен скрипт

такой сервис действительно может быть использован для спама, но лично мне не хотелось бы двигаться в эту сторону, я буду думать как я могу влиять на это со своей стороны и буду стараться пройти по тонкой грани если это возможно

Почти любые коммерческие контакты по моему опыту должны быть массовыми иначе они не имеют смысл для привлечения клиентов / контактов с ца. Почти для любого бизнеса нет смысла в 1 клиенте. Всегда нужна воронка. воронка = массовость контактов на входе.

Спам/не спам - по моему мнению определяется не массовостью сообщений, а качеством и ценностью которую закладывает отправитель в сообщения. Я думаю никто не против массовых сообщений если человек который их пишет, реально предлагает что-то взаимовыгодное. Проблема скорее в том, что рассылки часто предлагают какой-то скам/шлак и это тратит время/внимание впустую.

сделал коммерческий сервис чтобы собирать контакты и соц.сети из под видео и ищу клиентов сейчас (не скажу как называется чтобы не обвиняли в том что реклама)

если сервис не зайдет то, думаю, датасет опубликую для всех желающих

это были новогодние распродажи, поэтому рядом указана полная цена без скидки

я не приведу код, не оч много смысла в этом
но рекомендую как можно скорее попробовать запрогать что угодно и не писать при этом код руками, а написать тз, отдать гпт и посмотреть что получится

парсил без авторизации
расположерние сервера = СНГ
дата = после новогодних праздников этого года, поэтому действительно были скидки и поэтому спарсил обе цены со скидкой и без

спасибо 🙏🙏🙏

абсолютно без преувеличения скажу: чатгпт единственное что нужно уметь сейчас чтобы спарсить почти любые данные с интернета

как сделал тут и вообще делаю:
написал короткое ТЗ, вставил в гпт, получил готовый скрипт, сразу запустил через командную строку, получил результат через неск часов. Сам я не знаю питон вообще, прогал всегда на пхп на любительском уровне.

уже спарсил так десяток крупных сайтов
прокси ни разу не использовал для парсинга, обычно срабатывает размазать запросы во времени. 1 запрос в 2-3 секунды почти любой сайт позволяет делать без банов.

например с версткой: просто вставляю в гпт кусок html кода и прошу написать регулярки чтобы вытащить "все полезные данные" или сразу готовый скрипт. с первого запуска все работает очень часто.

если вам это интересно - напишите в тг, пришлю вам датасет целиком бесплатно как и всем остальным кто мне написал

обычно те данные, которые можно увидеть глазами зайдя на сайт, можно так же получить программным образом написав не сложный скрипт.

Общий принцип такой: если я вижу нужные данные глазами на сайте через браузер (как обычно) => то можно сделать так, чтобы скрипт это все открыл по очереди и автоматически собрал в табличку.

Иногда проще написать такой скрипт, иногда сложнее - это уже технические детали и зависит от конкретного сайта и навыков человека которые парсит.

сори, случайно поставил даунвоут на ваш коммент, не вижу кнопки как убрать(

1

Information

Rating
Does not participate
Registered
Activity

Specialization

Specialist
Senior
Git
SQL
Python
Database
PHP
MySQL