не могли бы вы аргументировать на счет того что такой проект не согласуется с европейским GDPR?
на сколько мне известно, GDPR не запрещает сбор общедоступной информации такой как емейлы, телефоны и ссылки на соц.сети, которые авторы каналов сами разместили для общего доступа
если у вас есть другой опыт - я был бы благодарен вам если бы поделились
я не могу сказать на 100% уверенно, но парсить открытые данные без авторизации - можно точно, а мои данные получены именно таким образом.
Чтобы парсить я не принимал никакие соглашения, поэтому думаю что эти данные я могу использовать как и любые другие в обычной жизни + в интернете есть похожие сервисы давно живущие
да, так тоже пробовал и мне так больше зашло как подход
оказалось что снимать оч искренне видео одним дублем в закрытый канал на 50 человек друзей про то что мне интересно - гораздо интереснее, чем выдавливать из себя умные слова и пытаться впечатлить неограниченную незнакомую аудиторию
1) все зависит от цели, моя цель была в том, чтобы понять как монетизируются каналы успешные => поэтому я анализировал ссылки под видео у каналов которые выглядят успешнее остальных
2) выбрал англ слова чтобы зацепить как можно больше каналов в первую очередь. Англ слова часто используются в ру каналах в названии и где-нибудь еще поэтому попали в выборку, но обратное не верно.
перебор по ключевым словам примерно так выглядит по моему опыту: 1) вставляем популярное слово в поиск ютуба 2) получаем все каналы которые выдает ютуб по этому ключу от первого до последнего 3) скорее всего ютуб отдает все каналы которые хоть как-то содержат ключевое слово (= содержат ключ в описании, названии или даже контенте мб)
то есть:
- перекос будет в сторону англоязычных каналов, и если канал полностью на китайском/французском/тайском/арабском например, а мы перебираем английские слова, то в этом случае такие каналы скорее всего не попадут в результаты. - в выдачу не попадут каналы, где нет описания возможно
но может быть даже и все сложнее и я что-то не понимаю
+ то что ютуб выдал много ру-каналов, означает что ютуб так же скорее всгео ориентировался в выдаче каналов на айпи сервера где запущен скрипт
такой сервис действительно может быть использован для спама, но лично мне не хотелось бы двигаться в эту сторону, я буду думать как я могу влиять на это со своей стороны и буду стараться пройти по тонкой грани если это возможно
Почти любые коммерческие контакты по моему опыту должны быть массовыми иначе они не имеют смысл для привлечения клиентов / контактов с ца. Почти для любого бизнеса нет смысла в 1 клиенте. Всегда нужна воронка. воронка = массовость контактов на входе.
Спам/не спам - по моему мнению определяется не массовостью сообщений, а качеством и ценностью которую закладывает отправитель в сообщения. Я думаю никто не против массовых сообщений если человек который их пишет, реально предлагает что-то взаимовыгодное. Проблема скорее в том, что рассылки часто предлагают какой-то скам/шлак и это тратит время/внимание впустую.
сделал коммерческий сервис чтобы собирать контакты и соц.сети из под видео и ищу клиентов сейчас (не скажу как называется чтобы не обвиняли в том что реклама)
если сервис не зайдет то, думаю, датасет опубликую для всех желающих
я не приведу код, не оч много смысла в этом но рекомендую как можно скорее попробовать запрогать что угодно и не писать при этом код руками, а написать тз, отдать гпт и посмотреть что получится
парсил без авторизации расположерние сервера = СНГ дата = после новогодних праздников этого года, поэтому действительно были скидки и поэтому спарсил обе цены со скидкой и без
абсолютно без преувеличения скажу: чатгпт единственное что нужно уметь сейчас чтобы спарсить почти любые данные с интернета
как сделал тут и вообще делаю: написал короткое ТЗ, вставил в гпт, получил готовый скрипт, сразу запустил через командную строку, получил результат через неск часов. Сам я не знаю питон вообще, прогал всегда на пхп на любительском уровне.
уже спарсил так десяток крупных сайтов прокси ни разу не использовал для парсинга, обычно срабатывает размазать запросы во времени. 1 запрос в 2-3 секунды почти любой сайт позволяет делать без банов.
например с версткой: просто вставляю в гпт кусок html кода и прошу написать регулярки чтобы вытащить "все полезные данные" или сразу готовый скрипт. с первого запуска все работает очень часто.
обычно те данные, которые можно увидеть глазами зайдя на сайт, можно так же получить программным образом написав не сложный скрипт.
Общий принцип такой: если я вижу нужные данные глазами на сайте через браузер (как обычно) => то можно сделать так, чтобы скрипт это все открыл по очереди и автоматически собрал в табличку.
Иногда проще написать такой скрипт, иногда сложнее - это уже технические детали и зависит от конкретного сайта и навыков человека которые парсит.
анализировал частоту ключевых слов (моно/би-грамм) из заголовков видео
сначала казалось что будет оч интересно
но оказалось бесполезно в результате, поэтому не включал в этот текст
на самом деле не так просто придумать хорошие идеи для визуализации
если у вас идеи интересных графиков по датасету - предлагайте, постараюсь сделать
не могли бы вы аргументировать на счет того что такой проект не согласуется с европейским GDPR?
на сколько мне известно, GDPR не запрещает сбор общедоступной информации такой как емейлы, телефоны и ссылки на соц.сети, которые авторы каналов сами разместили для общего доступа
если у вас есть другой опыт - я был бы благодарен вам если бы поделились
я не могу сказать на 100% уверенно, но парсить открытые данные без авторизации - можно точно, а мои данные получены именно таким образом.
Чтобы парсить я не принимал никакие соглашения, поэтому думаю что эти данные я могу использовать как и любые другие в обычной жизни + в интернете есть похожие сервисы давно живущие
а эта база лучше стима чем-то например? или ни чем = то же самое?
да, так тоже пробовал и мне так больше зашло как подход
оказалось что снимать оч искренне видео одним дублем в закрытый канал на 50 человек друзей про то что мне интересно - гораздо интереснее, чем выдавливать из себя умные слова и пытаться впечатлить неограниченную незнакомую аудиторию
спасибо, поправил
1) все зависит от цели, моя цель была в том, чтобы понять как монетизируются каналы успешные => поэтому я анализировал ссылки под видео у каналов которые выглядят успешнее остальных
2) выбрал англ слова чтобы зацепить как можно больше каналов в первую очередь. Англ слова часто используются в ру каналах в названии и где-нибудь еще поэтому попали в выборку, но обратное не верно.
по моим ощущения такого перекоса скорее не будет
перебор по ключевым словам примерно так выглядит по моему опыту:
1) вставляем популярное слово в поиск ютуба
2) получаем все каналы которые выдает ютуб по этому ключу от первого до последнего
3) скорее всего ютуб отдает все каналы которые хоть как-то содержат ключевое слово (= содержат ключ в описании, названии или даже контенте мб)
то есть:
- перекос будет в сторону англоязычных каналов, и если канал полностью на китайском/французском/тайском/арабском например, а мы перебираем английские слова, то в этом случае такие каналы скорее всего не попадут в результаты.
- в выдачу не попадут каналы, где нет описания возможно
но может быть даже и все сложнее и я что-то не понимаю
+ то что ютуб выдал много ру-каналов, означает что ютуб так же скорее всгео ориентировался в выдаче каналов на айпи сервера где запущен скрипт
такой сервис действительно может быть использован для спама, но лично мне не хотелось бы двигаться в эту сторону, я буду думать как я могу влиять на это со своей стороны и буду стараться пройти по тонкой грани если это возможно
Почти любые коммерческие контакты по моему опыту должны быть массовыми иначе они не имеют смысл для привлечения клиентов / контактов с ца. Почти для любого бизнеса нет смысла в 1 клиенте. Всегда нужна воронка. воронка = массовость контактов на входе.
Спам/не спам - по моему мнению определяется не массовостью сообщений, а качеством и ценностью которую закладывает отправитель в сообщения. Я думаю никто не против массовых сообщений если человек который их пишет, реально предлагает что-то взаимовыгодное. Проблема скорее в том, что рассылки часто предлагают какой-то скам/шлак и это тратит время/внимание впустую.
или колд аутрич как говорят в америке)
сделал коммерческий сервис чтобы собирать контакты и соц.сети из под видео и ищу клиентов сейчас (не скажу как называется чтобы не обвиняли в том что реклама)
если сервис не зайдет то, думаю, датасет опубликую для всех желающих
это были новогодние распродажи, поэтому рядом указана полная цена без скидки
я не приведу код, не оч много смысла в этом
но рекомендую как можно скорее попробовать запрогать что угодно и не писать при этом код руками, а написать тз, отдать гпт и посмотреть что получится
парсил без авторизации
расположерние сервера = СНГ
дата = после новогодних праздников этого года, поэтому действительно были скидки и поэтому спарсил обе цены со скидкой и без
спасибо 🙏🙏🙏
абсолютно без преувеличения скажу: чатгпт единственное что нужно уметь сейчас чтобы спарсить почти любые данные с интернета
как сделал тут и вообще делаю:
написал короткое ТЗ, вставил в гпт, получил готовый скрипт, сразу запустил через командную строку, получил результат через неск часов. Сам я не знаю питон вообще, прогал всегда на пхп на любительском уровне.
уже спарсил так десяток крупных сайтов
прокси ни разу не использовал для парсинга, обычно срабатывает размазать запросы во времени. 1 запрос в 2-3 секунды почти любой сайт позволяет делать без банов.
например с версткой: просто вставляю в гпт кусок html кода и прошу написать регулярки чтобы вытащить "все полезные данные" или сразу готовый скрипт. с первого запуска все работает очень часто.
если вам это интересно - напишите в тг, пришлю вам датасет целиком бесплатно как и всем остальным кто мне написал
обычно те данные, которые можно увидеть глазами зайдя на сайт, можно так же получить программным образом написав не сложный скрипт.
Общий принцип такой: если я вижу нужные данные глазами на сайте через браузер (как обычно) => то можно сделать так, чтобы скрипт это все открыл по очереди и автоматически собрал в табличку.
Иногда проще написать такой скрипт, иногда сложнее - это уже технические детали и зависит от конкретного сайта и навыков человека которые парсит.
сори, случайно поставил даунвоут на ваш коммент, не вижу кнопки как убрать(