Комментарии 50
Но где же слайды? С графиками анализ всегда веселее. )
имеете ввиду круговые распределения диаграмы тем/языков? или какие данные из текста напрашиваются на график?
Лучше столбики. Круговые диаграммы вообще не рекомендуются, а уж когда много категорий так вообще.
Напишите мне в ЛС я увлекаюсь power bi и мне было бы интересно построить интерактивный график в BI по вашим данным. Чисто для портфолио мне
Да ну хоть что-то. Скриншоты таблички в экселе - такая себе статья. Не говоря уже, что остальные с этим работать не могут - сиди все ссылки ручками вбивай.
Материал больше получился маркетинговым, нежели аналитическим. И больше похож на "я пиарюсь". В то же время потенциал есть, хотя бы вместо таблиц в формате изображений дать нормальные таблицы с текстом. А в идеале, как уже предложили, в заметке дать диаграммы для наглядности, и данные к ним в csv хоть бы даже по ссылке на тг. В любом случае, спасибо
это мой первый пост здесь и в целом первый пост в таком формате
я планирую написать еще 2 поста здесь с исследованием крупных фриланс бирж и доходов там и мне было полезно увидеть ваши замечания - спасибо!
моя конечная цель действительно заработать, потому что веб-сервисы и данные - мой хлеб, но заработать не через "само-пиар" на хабре и продажи в лоб у себя в телеграме
а чтобы через реакцию на текст и общение понять ценность данных, понять людей для которых эти данные могут быть действительно ценными и понять какой сервис на основе этого я мог бы сделать в будущем
Спасибо ! Очень интересная инфа. Если не секрет, поделитесь пожалуйста, как Вы вообще получаете подобные данные ? В смысле не как задаете вопросы уже набранное базе данных, а как набираете её саму ?
"На платформе можно увидеть, сколько студентов зарегистрировались на каждом курсе. Это, вероятно, те, кто оплатил и завершил курс"
"Занимаюсь сбором открытых данных из интернета "
Что в этих фразах вызывает вопросы? Как написать бота, который будет ходить по сети и парсить открытые данные?
Да бота я и сам могу любого написать. Мне немного непонятно где такая инфа в принципе ищется. На udemy давно не заходил, так что не знаю. Но где такая инфа по ютубу, телеграму или стиму ???
Всё равно не понятно, что именно вы спрашиваете. Вы пишете, что можете и сами написать бота, значит вы понимаете, что чтобы написать бота, нужно самому открыть конкретный сайт и изучить, как он работает и какие данные на нём доступны вообще.
При этом, вы задаёте вопрос, как будто этого понимания у вас нет. Это-то как раз и сбивает с толку в вашем вопросе.
нужно самому открыть конкретный сайт и изучить, как он работает и какие данные на нём доступны вообще
Вот этого я и не понимаю. Человек говорит, что у него база по каналам ютуба. Простейший вопрос к такой базе - число подписчиков. А оно указано далеко не на каждом канале. Вот и спрашивается, где брать такие данные ???
Спасибо ! Я вот например этого не знал. Как не знаю про источники открытых данных ещё кучу всего. Потому и спрашиваю, где это искать.
обычно те данные, которые можно увидеть глазами зайдя на сайт, можно так же получить программным образом написав не сложный скрипт.
Общий принцип такой: если я вижу нужные данные глазами на сайте через браузер (как обычно) => то можно сделать так, чтобы скрипт это все открыл по очереди и автоматически собрал в табличку.
Иногда проще написать такой скрипт, иногда сложнее - это уже технические детали и зависит от конкретного сайта и навыков человека которые парсит.
Не всегда. Есть куча сайтов где публичного API либо вообще нет, либо он платный. Так что несложным скриптом тут никак не обойтись. Скрипт должен уметь парсить исходный html, а очень часто бывает, что и запускать джаваскрипты. А ещё бывает, что с сайта нужно скачать кучу коротких данных, но они на тысячах и тысячах страниц. А сайт при этом поддерживает не более одного-двух соединений с одного ip. И тогда нужно откуда-то брать прокси, список которых тоже на халяву не особо скачаешь, все денюх хочуть. Даже за то что халява в принципе. Писал такую хрень для скачивания данных с сайта избиркома. У небезызвестного Шпилькина качалось двое суток. У меня за три часа, ибо там работало по 30 халявных проксей(если больше - уже начинал слегка подтормаживать комп). Если тема интересна, гляньте https://github.com/Karabass-Barabass/FreeProxy . Заранее прошу прощения, так и не довел эти статьи до ума, не почистил грязь. И не знаю, работает ли это сейчас. Писалось это давно, и с тех пор защиты могли измениться. Но для тех кто думает, что парсинг html это НЕСЛОЖНЫЙ скрипт, может быть вполне поучительно. Да, бывает что и несложный. Но далеко не всегда.
абсолютно без преувеличения скажу: чатгпт единственное что нужно уметь сейчас чтобы спарсить почти любые данные с интернета
как сделал тут и вообще делаю:
написал короткое ТЗ, вставил в гпт, получил готовый скрипт, сразу запустил через командную строку, получил результат через неск часов. Сам я не знаю питон вообще, прогал всегда на пхп на любительском уровне.
уже спарсил так десяток крупных сайтов
прокси ни разу не использовал для парсинга, обычно срабатывает размазать запросы во времени. 1 запрос в 2-3 секунды почти любой сайт позволяет делать без банов.
например с версткой: просто вставляю в гпт кусок html кода и прошу написать регулярки чтобы вытащить "все полезные данные" или сразу готовый скрипт. с первого запуска все работает очень часто.
Спасибо, вот это уже реально крайне интересная инфа. Чатгпт пока не пользовался. В планах попробовать делать с помощью сеток арт для игр. Плюс в качестве хобби пробую обучить с нуля сетку играть в одну несложную игру https://unixpapa.com/floodit/ . Алгоритм(написанный мной своими ручками) играет в неё почти оптимально, во всяком случае гораздо лучше меня. Но я хочу чтобы сетка научилась с нуля, ничего об игре заранее не зная. Может напишу об этом статью на хабре. А что чатгпт уже может делать такие вещи - понятия не имел. Вы не могли бы привести пример Вашего запроса к чатгпт ??? Любопытно было бы на это поглядеть...
я не приведу код, не оч много смысла в этом
но рекомендую как можно скорее попробовать запрогать что угодно и не писать при этом код руками, а написать тз, отдать гпт и посмотреть что получится
Спасибо, попробую. Боевой код разумеется буду писать только руками, он у меня обычно бывает довольно навороченный. Новые алгоритмы, оптимизация по быстродействию и памяти, и т.п. Но я крайне скептически относился к возможностям сеток делать в этом плане вообще хоть что-то практически полезное. Вы первый человек за многие годы, которому удалось меня чем то удивить. Так что попробую обязательно. Самому дико интересно.
Да, в качестве эпиграфа к моим статьям на гитхабе (Блин, надо же, когда писал, как-то не подумалось, а сейчас пришло в голову :)))
В одном маленьком уездном городке, блестящий польский офицер познакомился со скромной, умной и воспитанной русской барышней. Они прекрасно провели время. Утром кавалер поправляет мундир перед зеркалом и собирается откланяться. Барышня скромно вопрошает "А деньги ???". На что кавалер с достоинством отвечает - "Польский офицер с русской пани денег не берет !"
Напоминает бессмысленные комментарии от нейросетевых аккаунтов тут и на виси. "Очень хорошая статья и как же автор до такого додумался, я бы тоже хотела так" стиль.
С другой стороны, данный автор писал такие каменты ещё в 2020 году...
Ниже другой комментатор восхищается выдающейся структурой этой статьи.
Реклама, да еще из Песочницы, к сожалению Хабр идет прямым курсом на дно
если вам это интересно - напишите в тг, пришлю вам датасет целиком бесплатно как и всем остальным кто мне написал
Заголовок кликабельный. Спарсил и вот что узнал. Что? Суммаризируйте, приведите выводы к чему пришли
Нисколько. Вы спи@дили чужую интеллектуальную собственность, а теперь гордитесь этим. Я бы вас отнес к людям с низкой социальной моралью. Ваша деятельность не только аморальна, но и вредит развитию сферы образования, т.к. уничтожает мотивацию авторов. Вы для начала хоть что-то стоящее создайте, а то, откровенно говоря, пишите полную муть в своих постах.
А по-моему, как раз наоборот. Такие данные очень могут быть полезны для людей, думающих о том, чтобы запустить собственные курсы. Могут помочь найти ниши с большим спросом и маленьким предложением, что как раз только на пользу для образования, потому что потенциально может вполне привести к появлению нужных людям курсов.
Странно выглядит revenue1 для испанского языка с локалью es_LA со значением в три раза выше, чем с испанской, колумбийской или мексиканской локалью
es_LA - Латинская америка, почему странно?
сложно представить наличие в этой локали большого числа курсов, за которые платят в разы больше, не имеющих аналогов по контенту и качеству в других испанских локалях. Испаноговорящему в целом без разницы в какой локали будет курс, поэтому выбираться будет более дешевый. Т.е. значение должно быть плюс минус как в остальных локалях
Так udemy ставит цены от региона так что где автор видел цену по скидке=10$? то другой человек, например: покупающий первый курс на платформе видел цену 5$)
попробуем посмотреть те тематики, которые очень популярны в мире, но по которым мало курсов в россии (мб пригодится на будущее)
Скрытый текст

Отличный материал и в целом годный аналитический материал.
Благодарность автору за его труд 🙏.
Буду рекомендовать Вас.
Зная стоимость курса, количество студентов и комиссию платформы, можно рассчитать выручку как отдельного курса, так и целой категории или заработок автора.
На основе лишь только этих данных сложно рассчитать выручку. На Udemy есть региональные цены, которые могут отличаться в несколько раз (в турецких лирах дешевле, чем в евро, и т.д.). Кроме этого регулярно проводятся скидки на курсы, причем даже размер скидки тоже определяется регионом (валютой) - где-то не более 50%, а где-то этот же курс будет иметь скидку в 80%. Все свежезарегистрированные аккаунты получают скидку независимо от расписания распродаж. Цена на курс может меняться со временем, причем иногда только для некоторых валют (корректировка из-за инфляции)
"Россия" пишется с заглавной буквы

Сразу видно, человек работает с данными и навык структуризации отлично развит, что видно по структуре самой статьи. Кайфанул от просмотра.
P.S. суммы некрасиво оформил в таблице. Плохо читаются
P.S. 2. Было интересно посмотреть, спасибо за труды
"Согласно данным ChatGPT, комиссия Udemy составляет:"
Спасибо, что в самом начале статьи написали, сразу стало понятно что дальше можно не читать.
Сортировка-то всё-таки по количеству студентов языка, а не количеству курсов (17-е место у русского языка).
Русский язык занял скромное 17-е место, подтверждая, что глобальное онлайн-образование пока говорит не на нашем языке.
Отчасти неверный вывод, нас там забанили, выплату не производят ссылаясь якобы PayPal аккаунт подключен неверно.
Что вы все какие токсичные? Не нравится - не читай. Самый умный - сделай как "надо" и пришли ссылку на свою статью, мы почитаем. Аж тошнит
По поводу стима - есть удобный сайт https://steamdb.info/
тут, что приятно, история изменения цен на игры в разрезе по странам
Имхо, популярность без учёта фактора времени сложно оценить. Какие-то курсы были 10 дней назад выпущены, какие-то - 10 лет назад. Существенно влияет на количество накопленных учеников.
Я как раз вчера похожий датасет себе прикопал, из курсэры, с фокусом на ИИ. Около 400 записей.
Можешь спросить игровую базу rawg ?
Спарсил 240к курсов Udemy и вот что я узнал