Comments 40
Скажите, words.tar.gz содержит пометки из mistadataset.mat?
Потому что столкнулся с аналогичной задачей :) И пока нормального датасета с руганью не нашел.
Добрый день, а вы не пробовали попросить данные у владельца сервиса?
Огромная работа, но кажется нарушает 272 УК в части копирования информации.
Этот датасет может быть интересен, если сопоставить его с лексикой языка — чтобы понять, какие грабли популярны у мистян.
И еще сопоставить статистику успешных внедрений с оф.сайта 1С и вопросы по соответствующим конфигурациям.
В-третьих, 99.99% пользователей форума сторонники
Это не 99% сторонники, там банят не-сторонников, я два бана отхватил только за то что сказал пару слов с «опозиционной окраской» (на 10 лет и на полтора года, там с «изменниками» не церемонятся)
99.99% форума? Да ладно, там меньше сотни человек в политике срутся, еще некоторое количество в остальном лайфе типа ЗОЖ или авто. Остальным все равно и они получают информацию. Если уж зудит, то можно в настройках лайф просто выключить, останутся только тематические ветки. Кстати, интересна статистика по соотношению тематики и лайфа.
Ильдар, проанализируй сообщения от своих «пацанских» ников на мисте (Нуф-Нуф, Бешеная Нога, Бешеный Член и т.д.). Крайне интересна статистика по ругательствам.
И да, выкачивать гигабайты с сайта без спроса — это вандализм, излишняя нагрузка на сервер, который денег стоит, между прочим. Ты бы просто спросил, я бы тебе просто нужные таблички скинул в сжатом виде.
И да, выкачивать гигабайты с сайта без спроса — это вандализм, излишняя нагрузка на сервер, который денег стоит, между прочим. Ты бы просто спросил, я бы тебе просто нужные таблички скинул в сжатом виде.
Плохой матофильтр… заколебаться туда попало почему-то :)
Ну и еще забавно, что в топ-флудерах есть пожизненно забаненые.
Скорее всего отток пользователей связан с альтернативной одаренностью хозяина площадки.
Давайте это обсудим. Каждый год звучит «Миста уже не та» и «Миста умирает», но посещаемость держится стабильно из года в год на уровне 50 тыс. в сутки. А то что стали меньше задавать тупых вопросов, это точно. Люди научились пользоваться поиском. Гугл и Яндекс часто выдают страницы мисты первыми ссылками.
люди никогда не научатся пользоваться поиском. тупые вопросы просто оперативно трут и банят, а зарегистрироваться повторно — утомительно
Да ладно! Первыми ссылками всегда идут инфостарта и devtrainingforum. Даже хабр с тостером на некоторые вопросы выше мисты.
Может на вас заявление в полицию написать? То, что какой-то элемент из вашей кодлы меня «наркоманом» назвал? И сделал это, скорее всего публично: перед вашим составом модераторов. Поразвлекаемся, поразбираемся?
Лет десять назад по сложным вопросам искал инфу на форумах, но это в прошлом. Сейчас форумы смотрю лишь когда интересен именно живой опыт — физкультура, йога — как это делают реальные люди и что получают в итоге. Практически всё, что связано со стандартным софтом — быстрее решить с помощью гугла, а в поисковой выдаче форумы не часто бывают на верхних строчках, да и доверия к статьям больше, чем к форумам (при прочих равных). Так что просто нет смысла регистрироваться на форуме
"нафига нифига" — с какого боку мат, обычные фразеологизмы же.
Знающие люди, как код в спойлеры засунуть? У меня Markdown.
Интересно, сколько постов с форума за 18 лет стало мусором…
Отличное исследование, поздравляю! Результаты и их интерпретация совпадают с субъективными ощущениями.
Не знаю, насколько это сложно, но на этом наборе данных, наверное, можно было бы определить пол, возраст, образование, место проживания, происхождение, службу в армии, род занятий и прочие данные профиля участника форума и построить зависимость позиции по конкретным вопросам (вера в лунный заговор, например).
Еще интересная задача — по триграммам дубликаты аккаунтов попытаться определить.
Не знаю, насколько это сложно, но на этом наборе данных, наверное, можно было бы определить пол, возраст, образование, место проживания, происхождение, службу в армии, род занятий и прочие данные профиля участника форума и построить зависимость позиции по конкретным вопросам (вера в лунный заговор, например).
Еще интересная задача — по триграммам дубликаты аккаунтов попытаться определить.
Суперработа, прямо сминаю шляпу!
Интересно, а можно на основе анализа этой бигдаты формировать некий «типовой портрет пользователя»? К примеру, некий персонаж регистрирует пачку ников и начинает под ними флудить. Но, поскольку не все обладают талантами Каплея, некие общие черты в постах всё равно прослеживаются. Вот вычислять таких персонажей было бы интересно.
Интересно, а можно на основе анализа этой бигдаты формировать некий «типовой портрет пользователя»? К примеру, некий персонаж регистрирует пачку ников и начинает под ними флудить. Но, поскольку не все обладают талантами Каплея, некие общие черты в постах всё равно прослеживаются. Вот вычислять таких персонажей было бы интересно.
А выкачать сайт банальным wget не пробовали или тут он не подошел бы?
А вы статью вообще читали?
После 20 запросов GET запросов форум переставал отвечать. В веб-бекэнде не силен, но подозреваю, что частые запросы с одного ИП отслеживались и на все, что было не похоже на запросы от обычного пользователя, ставился бан. Куча перебранных скачивалок и грабберов сайтов натыкались на те же грабли и шли в корзину. Нужна была свежая идея.
Спасибо за результаты интересной работы. Чувствуется знание внутренней кухни Мисты и трепетное продолжительное отслеживание истории общения ее пользователей. Но историю форума можно было рассказать и без результатов данных изысканий, жаль что исследование ушло в степь «кто кого троллил» и «за что забанили»…
Когда мне рассказывали про корпусную лингвистику, я мысленно крутил пальцем у виска — тысячам лингвистов нефиг делать как изучать частоту встречи словосочетаний в привязке к историческим событиям и прочие синтетические ресерчи. А вот на таком датасете столько всего интересного можно было бы выжать — как изменялась частота вопросов «о взломе», «сбросе паролей», «установке на линуксе» и прочих типовых вопросов при переходе между 8.0, 8.1, 8.2, 8.3. Как изменялись вопросы связанные с вебом, после выхода 8.2; как изменились вопросы связанные с мобильной разработкой после выхода 8.3. Как повлияло на частоту вопросов по построителю отчетов появление механизма компоновки. Как изменялось соотношение вопросов управляемого и обычного интерфейса после выхода типовых на управляемых формах. И так далее…
Когда мне рассказывали про корпусную лингвистику, я мысленно крутил пальцем у виска — тысячам лингвистов нефиг делать как изучать частоту встречи словосочетаний в привязке к историческим событиям и прочие синтетические ресерчи. А вот на таком датасете столько всего интересного можно было бы выжать — как изменялась частота вопросов «о взломе», «сбросе паролей», «установке на линуксе» и прочих типовых вопросов при переходе между 8.0, 8.1, 8.2, 8.3. Как изменялись вопросы связанные с вебом, после выхода 8.2; как изменились вопросы связанные с мобильной разработкой после выхода 8.3. Как повлияло на частоту вопросов по построителю отчетов появление механизма компоновки. Как изменялось соотношение вопросов управляемого и обычного интерфейса после выхода типовых на управляемых формах. И так далее…
off\ Да, миста быстро начала расти и развиваться вслед за 1С, но увы, оказалась в руках запутинцев, мыслящих критериями запретить, посадить.
Результат оказался немного предсказуем, проект сливается, как и многое из того, что оказалось в руках у сторонников бронзовеющего.
Результат оказался немного предсказуем, проект сливается, как и многое из того, что оказалось в руках у сторонников бронзовеющего.
Комментарий от пользователя, который по разными причинам не смог написать его тут и отправил личным сообщением:
1 Просьба к вам. Никогда, НИКОГДА не шарить файлы через гуглодиски, яндекс-драйвы и облака мейл ру и прочие сайты, специально не работающие без js. Это сделано специально чтобы шпионить за скачивающими (по принципу «нет js — нет скачивания»), хостить на них файлы — это неуважение к пользователям. Есть масса файловых хостингов, хостящих десятки гибибайт «бессрочно», без регистрации, без смс и без js. Атещё можно выкладывать в релизы на гитхабе. Ещё лучше выложить, взять абсолютную ссылку, и создать торрент-файл, прописав её в веб-сиды, и выложить торрент-файл или магнит-ссылку (убедитесь, чтобы в ней были вебсиды) в тот же релиз. Тогда можно будет качать через торрент, что быстрее, особенно если скачает больше одного человека, и держать свой комп включённым не нужно — торрент-клиент будет качать параллельно из вебсида и p2p.
2 файлы лучше перед всем сжать xz -9e. Некоторые дейтасеты сжимает больше чем в 10 раз.
3 а полные исходники то на гитхаб зальёте?
4 статья на самом деле выглядит как будто админ форума вас чем-то сильно разозлил и вы решили ему отмстить, написав статью. А на деле я уверен что у форума резко подскочила посещаемость из-за того, что всем стало интересно, что же это за форум такой.
5
>А теперь посмотрим на моральный облик «администрации» форума. А именно на то, какое у них отношение к нецензурной лексике.
Как будто что-то плохое.
1. Спасибо, принято. В дальнейшем буду использовать отличные от гугло-яндекса площадки. Гитхаб если не ошибаюсь дает хранить большие файлы, но за деньги.
2. Спасибо, проверю.
3. Исходники после приведения в порядок опубликую на гитхабе.
4. Админы на самом деле мне не нравится, но в целом мне пофиг, упадет или подрастет у них чего-нибудь там. Я форум использовал просто как площадку.
5. Да ничего плохого нет. Но я много раз видел как админы посылают в грубой форме. Имхо это низко.
2. Спасибо, проверю.
3. Исходники после приведения в порядок опубликую на гитхабе.
4. Админы на самом деле мне не нравится, но в целом мне пофиг, упадет или подрастет у них чего-нибудь там. Я форум использовал просто как площадку.
5. Да ничего плохого нет. Но я много раз видел как админы посылают в грубой форме. Имхо это низко.
Sign up to leave a comment.
Анализируй это. Mista.ru