Как стать автором
Обновить

Теория большой свалки: ищем научные документы на просторах интернета

Время на прочтение7 мин
Количество просмотров13K
Всего голосов 33: ↑30 и ↓3+27
Комментарии10

Комментарии 10

О, это вы круто придумали. Я правильно понимаю, что это скорее про генерацию датасета для каких-то дальнейших работ, чем про исследование статистики русскоязычной науки в целом? С удовольствием почитал бы про распределение межотраслевых заимствований, например, если есть такие.

И ещё (возможно, дилетантский) технический вопрос: при ассемблировании тематических классификаторов откуда брались веса? Какая-нибудь функция точности на тренировочной выборке?
Генерация датасета — это возможное использование в будущем, но основные мотивы, все-таки, это категоризация по жанрам и по темам. Нам действительно стало важно узнать по какой теме сколько у нас проиндексировано документов.
Вы правы, веса в ансамблировании настраивались на тот же самый материал обучения. Единственное, старались контролировать степень переобученности.
А можно ли как-то запретить вносить например мою дипломную работу в реестр антиплагиата?
Может я наоборот, чтоб ее активно плагиатили как только можно. У подавляющего большинства студентов сейчас большие проблемы в написании различных макулатурных работ (тех что нужны чисто для галочки и потом уйдут в макулатуру, всякие эссе, рефераты, практики и тд) Людям приходится платить деньги, чтоб за них написали работу, которую можно пропихнуть через антиплагиат. И проблема совсем не в том, что люди не хотят думать а хотят на халяву скопировать с интернета. Проблема в том, что темы для работ не меняются десятилетиями и если первые 5-6 лет все было нормально, то потом антиплагиат накопил критическую массу и большинству людей просто нет ни сил ни желания пытаться превзойти всю ту кучу работ, что были написаны до него. Ведь им надо не просто выполнить работу, а выполнить ее так, как никто до них не выполнял и с каждым годом рожать ежа все сложнее. Дошло до того, что даже за деньги на некоторые темы работы писать отказываются — тупо не пропускает антиплагиат.
Я не в теме, поэтому мне не понятно, почему нельзя выбрать другую тему для реферата? И неужели кто-то требует уникального отчета по производственной практике?
в разных вузах по разному… но например там где я учился — давали 30 тем на выбор и все. Сменить нельзя, они у них забиты в учебную программу аж с 97 года. Конечно многое зависит от преподавателя, которому ты будешь сдавать свое творение — нормальный закроет глаза на антиплагиат, потому как прекрасно понимает проблемы и прочитал 100500 таких же за свою жизнь. Но в последнее время прохождение антиплагиата стало обязательным, теперь от преподавателя уже ничего не зависит и результаты проверок уходят из вуза куда-то дальше. Вобщем все печально. Отчет о производственной практике… подавляющее большинство студентов просто не имеют возможности пройти производственную практику, а вузы не обязаны предоставлять им такую возможность, поэтому отчет о практике заменяется рефератом с фиксированной темой и опять таки требует прохождения антиплагиата. Более того у меня знакомый жаловался, что даже ЛАБЫ через антиплагиат прогоняют… вот уж действительно бред.
Ваши комментарии не совсем по теме статьи, а скорее по теме нашей деятельности. Тем не менее, вопросы важные.
1. Ваша работа может попасть Антиплагиат двумя разными путями: (1) она окажется среди общедоступных источников в интернете, где мы ее и проиндексируем, (2) вуз, в который вы эту работу сдали, добавит ее в свой индекс. Соответственно, единственное, что вы сможете сделать, это отследить, чтобы работа от вас не попала тем или иным образом в сеть. Кстати, если работу заказывали, то попадет в сеть почти наверняка — вопрос времени.
2. Вопрос тем работ. Здесь мы понимаем, что приходится «лечить» проблемы российского высшего профессионального образования. И получается, что лечить приходится большей частью за счет студентов. Как сделать по-другому, пока не знаем.

Отчёт должен быть не уникальный, а проходить антиплагиат, все больше критериев нет.


У нас в отрасли новых производств нет и не предвидится.
Соответственно практика одна, технологические схемы одни и те же их описание одно и то же.
И как со всем проходить антиплагиат?

Сложилось странное предубеждение: «пройти антиплагиат» означает — получить процент оригинальности не хуже заданного. И это становится единственным критерием качества документа. Вспоминается поговорка: научи дурака Богу молиться — он и лоб расшибет.
Можете рассказать, откуда берёте материалы для проверки на плагиат? Elibrary, Истина, Киберленинка, диссеркат… Какие ещё?
Конечно. Elibrary — да. Истина — подписали соглашение, но пока индексирование не проводилось, Киберленинка — в режиме обычного сайта. Диссеркат — нет. Что касается диссертаций, то наиболее полная коллекция — у РГБ, с которой мы сотрудничаем.
В статье речь идет про открытые сайты, то есть из перечисленного только статьи из Киберленинки проходили через классификатор.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий