Комментарии 9
А как исключить ложноположительный результат? Ну вот пишет человек монотонно, повторяется, шаблонно составляет тексты - выгорел на работе копирайтера для сайтов с рецептами.
Во первых, во всех компаниях, над статьями работают минимум два человека(редактор и писатель), так что вряд ли монотонная статья должна проходить. К тому же у многих есть шаблоны текстов
ну что вы, в каких компаниях? Есть же люди которые пишут тексты на всякие сайты типа 1000 рецептов которые начинаются из разряда "Рецепт вареной картошки: Картофель это благородный овощ знаменитый своей историей. Он был завезен в Россиию в конце 17 века и поначалу был принят потребителями в штыки, вплоть до "Картофельных бунтов" которые шумели по всей стране не одно десятилетие. Однако... "
ну вы поняли. Какие там ещё редакторы, вы о чем? Фрилансер, который строчит тексты уровня первых моделей чата гпт
Увы, ситуация с контролем качества текстов во всех компаниях — идеальна, то бишь к реальности отношения не имеет: вон сколько мусора псевдоспецы в сеть от имени компаний накидали задолго до LLM. ) Зачастую в не самые крупные конторы заказывает контент несведущий человек в надежде на спеца (который легко может оказаться понтующимся профаном, а заказчик этого и не поймёт даже по результатам работы).
Как редактор, писатель и копирайтер говорю: хоть коммерческий, хоть художественный текст плохого автора не получится по перечисленным признакам отличить от нейроночного "невооруженным глазом". Там и повторения, там и вода, и прочая-прочая, — всё есть. ) Правда, именно таких авторов ИИ уже и "поприжали" в первую очередь, ибо заказчикам всякой пустой ерунды стало выгоднее ее генерировать, а не заказывать у людей. )
Некоторое время назад я работал в типографии, а после - в издательстве, и меня очень беспокоило отсутствие материалов на сайте обоих компаний. Дело в том, что интернет заполнен текстами по полиграфии, написанными либо не полиграфистами, либо слишком полиграфистами. В связи с этим выходит ситуация, что информацию которую ты можешь найти либо бесполезная по тому что это просто общие знания, либо слишком профессиональная и не доступная человеку "извне". Первое что мне предложили - нанять копирайтера, но сколько мы не старались - получался первый вариант(слишком общие знания). В итоге, пришлось все писать самому, но это с меня как с менеджера сняло ОГРОМНОЕ количество головной боли с объяснением каждому новому человеку всего по кругу. Отличным примером является объяснение дизайнеру как делаются вылеты под обрез. В текстах, которые есть в интернете либо просто написано "делать так и так, столько мм, в этом окне в индизайне" либо "вылеты под обрез это дополнительное расстояние, необходимое для резки", всё, что, зачем, как итд не поясняется. Пришлось самому расписывать как резка происходит, что она не идеально точна, что стопки сколько не сбивай, между листами будет погрешность и вот чтобы не получить проблемы на резке нужно в дизайне вот так и вот заложить расстояния, и не просто расстояния, а элементы разместить так, чтобы не было элементов прижатых в упор к краю или слишком близко, и вот такие примеры как делать не надо и вот такие примеры как делать нужно и тд. и тп. В дальнейшем мои тексты вычитал редактор, и только так удалось эти тексты заполучить
Я уж думал NB и SVM давно уже нигде не используются и вот вдруг. ) Так то они неплохи для текстов, я когда-то давно, когда баловался с текстами (тогда ещё просто с "мешком слов", ну и с word2vec тоже), у меня как-раз NB, SVM и ExtraTrees неплохо взлетали. Но с тех пор я думал бустинги всех универсально зарулили. SVM ещё и очень медленный и жрущий память кроме всего прочего.
Спасибо за статью! Почему я ожидал вот такой развязки "Этот текст тоже был сгенерирован. А вы смогли это определить?"
Возможно ли все еще отличить сгенерированный текст от написанного человеком?