Не сталкивался с такой проблемой поэтому не могу ничего сказать. На Python я использовал только Selenium и работал со страницей через него. У меня само сохранение разделено на два этапа: сохранение http ответа и сохранение уже готовых данных.
Я получал простой http ответ в виде страницы, затем использовал библиотеку HtmlAgilityPack чтобы вырвать из кода страницы нужный элемент в котором находятся данные и сохранял html код только этого элемента дабы уменьшить занимаемое место.
После вручную из этого блока кода так же с помощью HtmlAgilityPack вырывал нужные мне значения в определённый элементах. Подставлял в переменные класса, и сам класс уже просто сохранял.
Да точность там и правда сомнительная. Но 2 примера из выборки в 38 тысяч? Серьёзно? Пара примеров из 38 тысяч это черипикинг, а не вывод. Даже если бы точность была 99,9% на такой выборке всё ещё будут десятки статей с некорректными результатами. То что на какой то статье не тот результат, который бы вам хотелось увидеть, это не проблема алгоритма, а исключительно ваша проблема. Выдёргивать 2 статьи из выборки в 38 тысяч и вместо аргументации, фактов, анализа и указания на ошибки в методологии, говорить лишь:
Посмотрел статистику по своим статьям, про которые точно знаю, что писались на основании своего опыта в Word...
... основанная на выступлении на СЕКР-2018 (на сайте конференции есть видео)...
Я не очень понимаю каким образом это вообще может быть аргументом. Я ничего не говорю сейчас о самом докладе или статье, но сама аргументация полностью ошибочна. Если какая то идея прозвучала на популярным мероприятии, это не значит что она автоматически хорошая или верная. Даже в научных журналах часто публикуются сомнительные материалы, а тут логика даже ещё круче 'статья написана по докладу на СЕКР, если доклад был на СЕКР значит он хороший, а если доклад хороший то статья которая написана по этому докладу хорошая, а значит она не написана с помощью ИИ'. Это уровень аргументации на детской площадке, а не профессиональной дискуссии.
Лично я не готов рассматривать критику не подкреплённую фактами и на её основании полностью перепроверять результаты даже если сама идея в этой критике кажется 'логичной'. Пока полученные мной результаты не опровергнуты - я прав, а критика без фактов - обычные домыслы уровня каких-нибудь надписей на заборе.
Все данные в открытом доступе, в том числе дата сет. Ничего не мешает шаг за шагом повторить анализ и воспроизвести полученные результаты, но неужели вместо этого проще начать не подкреплённое конструктивными фактами шапкозакидательство? Если пальцем в небо - покажите, куда именно, вместе посмотрим на облачка. Если не можете, то может быть виноват не неправильный алгоритм?
Да, думаю частично так и есть. Однако получить доступ к заблокированным статьям или хотя бы прикинуть сколько из них было сначала опубликовано, а уже потом скрыто - очень и очень сложно. Поэтому приходится исходить из того что есть. В статье по статистике от Хабра за 2024 указано что из 39776 публикаций только 1503 были возвращены в черновики, однако не очень понятны критерии по которым считается это число. В целом я придерживаюсь мнения что после публикации крайне небольшой процент статей скрывается хотя проверить это достоверно не выйдет. Огромная разница между пулом id и тем сколько статей реально было доступно можно объяснить тем что банально половина статей после сохранения черновика и присвоения id, никогда не будет опубликована. Id для каждой статьи уникальный и не переиспользуется, вероятно даже в случае удаления черновика с этим id.
Было бы хорошо если бы это и в самом деле было так, однако у меня складывается ощущение что модерация Хабра живёт в другом мирке отгородившись от сообщества и старательно не замечает проблемы. Большинство авторов могут позволять публиковать откровенный шлак сгенерированный нейронкой и эти статьи часто будут иметь положительный рейтинг. В статье есть два хороших примера: полностью написанная нейронкой статья, факты искажены, имена в некорректном контексте, небольшие ошибки характерные для нейронок, даже в комментариях на это указали; второй пример как раз когда окончание ссылок было с меткой '?utm_source=chatgpt.com'. Обе эти статьи доступны, обе имеют положительный рейтинг. Претензия к определению ИИ - в точку. Именно поэтому он бесполезен для оценки конкретной статьи и может использоваться только на большей выборке. Меня огорчает не наличие контента от ИИ в статье, а статьи низкого качества, которые часто идут за ручку с использованием ИИ.
И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг. Так как нет препятствий, штампованных статей от нейронок становится всё больше и больше что видно по динамике за 2024 год. И по своему личному опыту могу сказать что это косвенно влияет на общее качество статей которое продолжает стабильно падать из года в гож. Так вот, если всё же присутствует модерация, то почему я не вижу никаких попыток скорректировать ситуацию?
В общем и целом да. ИИ позволяет быстро и без особых затрат накидать статей пустышек которые ещё будут в среднем незначительно выше рейтингом чем статьи без ИИ. Выпустить 10 статей ужасного качества сделанных с помощью ИИ быстрее чем написать одну статью среднего качества. Поэтому приходят разные нехорошие человеки которые это используют для своих грязных целей.
Опять особенный авторский стиль не признают и называют ошибкой орфографии :( По поводу рейтинга, в статье дважды было упомянуто что он рассчитывается по разному: на сайте используется весовая система где 1 голос может давать и +1 и +5, я же использовал обычную систему в виде 'рейтинг = количество плюсов - количество минусов'. Не уверен что для репозитория нужно делать хоть какое либо оформление, как по мне это в целом не имеет смысла. Основную ценность из всего того что туда залито представляют сами статьи, которые в виде таблиц продублированы ещё на диск, остальное вероятно никогда не будет использовано. И да, хотелось бы лонгрид, но к сожалению моё свободное время не позволяет вытворять нечто подобно поэтому пришлось ужаться максимально коротко.
Мне очень интересно каким образом это статья попала в Научно-популярное, когда её уровень не выше какой-нибудь выдуманной истории в дешёвой газете. Автор не удосужился предоставить ссылки, а лишь использовал текст из малоавторитетных источников немного его изменив. Но обо всём по порядку.
В выступлении на TED в 2012 году Паоло Кардини предложил прекрасное средство от многозадачности — однозадачность.
Во первых почему дизайнер к тому же не имеющий учёной степени, является авторитетом в вопросах вне своей квалификации? Во вторых заявления даже авторитетного лица не подтверждённые исследованиями - ничто.
Профессор Калифорнийского университета Г. Марксчитает ... При этом Маркотмечает ...
Вероятно автор не способен выполнить действия которые сложнее чем копипаста текста с других ресурсов, ведь если бы он хотя бы гуглил имя профессора то вероятно узнал бы что её полное имя "Gloria Mark". И да, у неё на самом деле есть серия исследований по мультизадачности и вот вероятно то на которое автор ссылается (так же в этом материале ссылаются на это иследование). К самому исследованию тоже конечно есть вопросы, но сейчас не об этом, главное что там нет не слова о том что автор вывалил далее и приписал этому исследованию, на деле же исследовалась корреляция между стрессом и 'мультизадачностью'. Как я и говорил к исследованию есть вопросы и в качестве показателя по которому эту самую мультизадачность отслеживали являлось время между сменой окон на компьютере, а выборка была всего лишь 46 человек, впрочем это не отменяет не правоту автора который пытается опереться на это исследование, поэтому я приведу выдержку и вывод из него.
Скрытый текст
While HCI has focused on multitasking with information workers, we report on multitasking among Millennials who grew up with digital media - focusing on college students. We logged computer activity and used biosensors to measure stress of 48 students for 7 days for all waking hours, in their in situ environments. We found a significant positive relationship with stress and daily time spent on computers. Stress is positively associated with the amount of multitasking. Conversely, stress is negatively associated with Facebook and social media use. Heavy multitaskers use significantly more social media and report lower positive affect than light multitaskers. Night habits affect multitasking the following day: late-nighters show longer duration of computer use and those ending their activities earlier in the day multitask less. Our study shows that college students multitask at double the frequency compared to studies of information workers. These results can inform designs for stress management of college students.
Скрытый текст
Although our study found that increased use of computers (both in terms of window switching and duration) were associated with increased stress, our results suggest that type of computer activity may be correlated with lower stress. Social media use was found to coincide with less stress, echoing other studies that suggest the socio-emotional benefit of using social media, e.g. [10]. Higher use of academic sites was also correlated with less stress. Future studies might further explore the relationship among college students’ computer time spent on task, stress, and performance. Additionally, our study identified a variety of computer usages. The fact that late night use predicted more window switching and longer use the following day may indicate that some students simply consume more media. However, the finding that participants who ceased activity earliest had the most negative affect (and for females, the highest stress), suggests that differing computer usage may be related to a student’s ability to cope with stressors.
Исследование Лондонского университета показало, что участники, которые выполняли несколько когнитивных задач одновременно продемонстрировали снижение IQ.
Это такой бред что тут даже не чего обсуждать, невозможно в таком формате отследить изменение iq.
Дальше на протяжении статьи так же цитируются 'авторитетные' люди, никаких ссылок на исследования или источники. Вероятно все приведённые аргументы так же легко разбиваются просто прочтением исследования на которое они пытаются опереться.
В заключении скажу что статья является не более чем простой интерпретаций статей из других источников: 1, 2, 3, 4, 5, 6. Попрошу заметить что я критикую не тему описанную в статье, а саму статью, она не имеет никакого отношения к научно-популярному контенту и у меня возникает лишь один вопрос - каким образом статья прошла модерацию и была опубликована фактически являясь сборкой разного рода фейков @moderator?
В статье с которой я брал пример при написании алгоритма так же реализован ии для овцы, поэтому я даже как то и не задумывался об этом. Идея конечно хорошая: можно реализовать смену сторон за которую ии делает ход; но не думаю что я буду заниматься этим в ближайшее время. Однако статью подкорректировал: добавил ссылку на билд где можно более детально потрогать ии.
Не сталкивался с такой проблемой поэтому не могу ничего сказать. На Python я использовал только Selenium и работал со страницей через него. У меня само сохранение разделено на два этапа: сохранение http ответа и сохранение уже готовых данных.
Я получал простой http ответ в виде страницы, затем использовал библиотеку HtmlAgilityPack чтобы вырвать из кода страницы нужный элемент в котором находятся данные и сохранял html код только этого элемента дабы уменьшить занимаемое место.
После вручную из этого блока кода так же с помощью HtmlAgilityPack вырывал нужные мне значения в определённый элементах. Подставлял в переменные класса, и сам класс уже просто сохранял.
Да точность там и правда сомнительная. Но 2 примера из выборки в 38 тысяч? Серьёзно? Пара примеров из 38 тысяч это черипикинг, а не вывод. Даже если бы точность была 99,9% на такой выборке всё ещё будут десятки статей с некорректными результатами. То что на какой то статье не тот результат, который бы вам хотелось увидеть, это не проблема алгоритма, а исключительно ваша проблема. Выдёргивать 2 статьи из выборки в 38 тысяч и вместо аргументации, фактов, анализа и указания на ошибки в методологии, говорить лишь:
Я не очень понимаю каким образом это вообще может быть аргументом. Я ничего не говорю сейчас о самом докладе или статье, но сама аргументация полностью ошибочна. Если какая то идея прозвучала на популярным мероприятии, это не значит что она автоматически хорошая или верная. Даже в научных журналах часто публикуются сомнительные материалы, а тут логика даже ещё круче 'статья написана по докладу на СЕКР, если доклад был на СЕКР значит он хороший, а если доклад хороший то статья которая написана по этому докладу хорошая, а значит она не написана с помощью ИИ'. Это уровень аргументации на детской площадке, а не профессиональной дискуссии.
Лично я не готов рассматривать критику не подкреплённую фактами и на её основании полностью перепроверять результаты даже если сама идея в этой критике кажется 'логичной'. Пока полученные мной результаты не опровергнуты - я прав, а критика без фактов - обычные домыслы уровня каких-нибудь надписей на заборе.
Все данные в открытом доступе, в том числе дата сет. Ничего не мешает шаг за шагом повторить анализ и воспроизвести полученные результаты, но неужели вместо этого проще начать не подкреплённое конструктивными фактами шапкозакидательство? Если пальцем в небо - покажите, куда именно, вместе посмотрим на облачка. Если не можете, то может быть виноват не неправильный алгоритм?
Хабр выпускает каждый год свою статистику в которой обычно это число указано. За 2024 год полноправных пользователей от общего числа всего 7%.
Да, думаю частично так и есть. Однако получить доступ к заблокированным статьям или хотя бы прикинуть сколько из них было сначала опубликовано, а уже потом скрыто - очень и очень сложно. Поэтому приходится исходить из того что есть. В статье по статистике от Хабра за 2024 указано что из 39776 публикаций только 1503 были возвращены в черновики, однако не очень понятны критерии по которым считается это число. В целом я придерживаюсь мнения что после публикации крайне небольшой процент статей скрывается хотя проверить это достоверно не выйдет. Огромная разница между пулом id и тем сколько статей реально было доступно можно объяснить тем что банально половина статей после сохранения черновика и присвоения id, никогда не будет опубликована. Id для каждой статьи уникальный и не переиспользуется, вероятно даже в случае удаления черновика с этим id.
Было бы хорошо если бы это и в самом деле было так, однако у меня складывается ощущение что модерация Хабра живёт в другом мирке отгородившись от сообщества и старательно не замечает проблемы. Большинство авторов могут позволять публиковать откровенный шлак сгенерированный нейронкой и эти статьи часто будут иметь положительный рейтинг. В статье есть два хороших примера: полностью написанная нейронкой статья, факты искажены, имена в некорректном контексте, небольшие ошибки характерные для нейронок, даже в комментариях на это указали; второй пример как раз когда окончание ссылок было с меткой '?utm_source=chatgpt.com'. Обе эти статьи доступны, обе имеют положительный рейтинг.
Претензия к определению ИИ - в точку. Именно поэтому он бесполезен для оценки конкретной статьи и может использоваться только на большей выборке. Меня огорчает не наличие контента от ИИ в статье, а статьи низкого качества, которые часто идут за ручку с использованием ИИ.
И вот получается интересная ситуация: модерация пропускает статьи низкого качества, а сообщество либо не хочет либо не может отправлять такие статьи в отрицательный рейтинг. Так как нет препятствий, штампованных статей от нейронок становится всё больше и больше что видно по динамике за 2024 год. И по своему личному опыту могу сказать что это косвенно влияет на общее качество статей которое продолжает стабильно падать из года в гож. Так вот, если всё же присутствует модерация, то почему я не вижу никаких попыток скорректировать ситуацию?
В общем и целом да. ИИ позволяет быстро и без особых затрат накидать статей пустышек которые ещё будут в среднем незначительно выше рейтингом чем статьи без ИИ. Выпустить 10 статей ужасного качества сделанных с помощью ИИ быстрее чем написать одну статью среднего качества. Поэтому приходят разные нехорошие человеки которые это используют для своих грязных целей.
Опять особенный авторский стиль не признают и называют ошибкой орфографии :(
По поводу рейтинга, в статье дважды было упомянуто что он рассчитывается по разному: на сайте используется весовая система где 1 голос может давать и +1 и +5, я же использовал обычную систему в виде 'рейтинг = количество плюсов - количество минусов'.
Не уверен что для репозитория нужно делать хоть какое либо оформление, как по мне это в целом не имеет смысла. Основную ценность из всего того что туда залито представляют сами статьи, которые в виде таблиц продублированы ещё на диск, остальное вероятно никогда не будет использовано.
И да, хотелось бы лонгрид, но к сожалению моё свободное время не позволяет вытворять нечто подобно поэтому пришлось ужаться максимально коротко.
Мне очень интересно каким образом это статья попала в Научно-популярное, когда её уровень не выше какой-нибудь выдуманной истории в дешёвой газете. Автор не удосужился предоставить ссылки, а лишь использовал текст из малоавторитетных источников немного его изменив. Но обо всём по порядку.
Во первых почему дизайнер к тому же не имеющий учёной степени, является авторитетом в вопросах вне своей квалификации? Во вторых заявления даже авторитетного лица не подтверждённые исследованиями - ничто.
Вероятно автор не способен выполнить действия которые сложнее чем копипаста текста с других ресурсов, ведь если бы он хотя бы гуглил имя профессора то вероятно узнал бы что её полное имя "Gloria Mark". И да, у неё на самом деле есть серия исследований по мультизадачности и вот вероятно то на которое автор ссылается (так же в этом материале ссылаются на это иследование). К самому исследованию тоже конечно есть вопросы, но сейчас не об этом, главное что там нет не слова о том что автор вывалил далее и приписал этому исследованию, на деле же исследовалась корреляция между стрессом и 'мультизадачностью'. Как я и говорил к исследованию есть вопросы и в качестве показателя по которому эту самую мультизадачность отслеживали являлось время между сменой окон на компьютере, а выборка была всего лишь 46 человек, впрочем это не отменяет не правоту автора который пытается опереться на это исследование, поэтому я приведу выдержку и вывод из него.
Скрытый текст
Скрытый текст
Это такой бред что тут даже не чего обсуждать, невозможно в таком формате отследить изменение iq.
Дальше на протяжении статьи так же цитируются 'авторитетные' люди, никаких ссылок на исследования или источники. Вероятно все приведённые аргументы так же легко разбиваются просто прочтением исследования на которое они пытаются опереться.
В заключении скажу что статья является не более чем простой интерпретаций статей из других источников: 1, 2, 3, 4, 5, 6. Попрошу заметить что я критикую не тему описанную в статье, а саму статью, она не имеет никакого отношения к научно-популярному контенту и у меня возникает лишь один вопрос - каким образом статья прошла модерацию и была опубликована фактически являясь сборкой разного рода фейков @moderator?
В статье с которой я брал пример при написании алгоритма так же реализован ии для овцы, поэтому я даже как то и не задумывался об этом. Идея конечно хорошая: можно реализовать смену сторон за которую ии делает ход; но не думаю что я буду заниматься этим в ближайшее время. Однако статью подкорректировал: добавил ссылку на билд где можно более детально потрогать ии.