Как стать автором
Обновить

Не те игрушки: как мы научили нейросеть бороться с порно в стримах

Время на прочтение 8 мин
Количество просмотров 26K
Всего голосов 20: ↑17 и ↓3 +14
Комментарии 45

Комментарии 45

НЛО прилетело и опубликовало эту надпись здесь
А как же мануальное тестирование?
Как я уже писал выше, с данными туго. Никто их публиковать не хочет, это сложно с юридической и этической точек зрения — начиная от лицензий и заканчивая согласием каждого причастного к контенту лица.

То есть я правильно понимаю, что свой датасет вы тоже публиковать не будете?

Короткий ответ — пока таких планов нет
Без тестирования непонятно какая будет точность определения контента. Как вариант берите записи готовых стримов и прогоняйте тесты. Без тестов и, хотя бы примерных данных о точности толку мало.
Тестовый датасет есть, мы просто пока не планируем его выкладывать. Метрики на нем указаны на графике под спойлером в конце статьи. Из него можно понять а) какие категории данных есть в датасете б) как наши решения ведут себя в сравнении с открытыми.

Слайды, Слайды. Были слышны выкрики из зала (Ц)


Технологии это конечно прекрасно, но еще не мешает культуру нести в массу.
Просто не понятно с культурной части зачем пихать порно-контент туда где он особо и не нужен.


А вот то что с данными плоховато я бы усомнился, насколько знаю хомяк (xhamster) позволяет в полуавтоматическом режиме загружать к себе контент, даже есть несколько публичных зеркал откуда можно скачивать.
Второй момент это "живые трансляции" там в основном помогает контекст происходящего, так как иногда модели скрывают голосовой и текстовый чат так как трансляция идет на несколько серверов сразу. И самое интересное не всегда в самом начале или в конце.


Третий момент, не можешь победить возглавь. Может стоит делиться пользовательским контентом? Конечно на сторонней плащадке))

Сырые и размеченные данные — два разных зверя. Не все кадры в порно порнографического содержания, об этом я более подробно говорю в статье. Туго именно с размеченными данными.

Контекст важен. Девушки в машине в фильмах)

А кто знает, насколько легально использовать эти данные для обучения сети? Ну т.е. навряд ли в пользовательском соглашении ютуба и порносайтов оговорено, что они прямо разрешают использовать их контент в посторонних целях, пусть и для автоматизированного деперсонализированного анализа. Может быть какой-нибудь известный актер боится, что его одетые видео теперь будут баниться на одной из платформ в России, т.к. нейросеть переобучится на его бэкграунде? И совершенно не хочет, чтобы его лицо участвовало в обучении нейросетей?
Понятно, что так делают практически все, но в каком сейчас состоянии законодательство на этот счет?
НЛО прилетело и опубликовало эту надпись здесь

Какой смысл рассуждать о легальности, если никто не узнает о факте использования?

О-о, так далеко можно зайти.
НЛО прилетело и опубликовало эту надпись здесь

Лучше бы научили нейросеть искать самое отпадное порно

Слишком субъективная вещь, под каждого человека долго подгонять.

Скорее научатся генерировать индивидуальное. Обучение с учителем :)


P.S. И хорошо если с осознанным обучением типа кнопок лайк/дизлайк, а не по физиологическим признакам с фитнес браслетов и камер, плюс скорость реакции на дизлайк :)

Скорее научатся генерировать индивидуальное. Обучение с учителем :)

До этого ещё очень далеко: раз, два.

Я не разбираюсь в теме, а звук не помогает? По моему его проще анализировать, но он может дать довольно большой прирост качества, а иногда и скорости(мне кажеться))
Извините, если в статье есть про это, со второй половины читал по диагонали.

Могут начать банить видеозаписи матчей по теннису.

Или серии винкс :)

Звука в видео может и не быть.
А что делать, если видеоряд идет под музыку, в тишине, или в других неочевидных условиях?
НЛО прилетело и опубликовало эту надпись здесь
60-е годы двадцатого века: System/360, хиппи, сексуальная революция… 20-е годы двадцать первого века: сотни тех 360 в кармане, нейросети, используем их для цензуры сексуального контента. Печалька.

Первая половина 19-го века: лошади, мустанги, ковбои, прерии и просторы дикого запада, фронтир, приключения и исследования.
20-е годы двадцать первого века: сотня лошадей под капотом самого захудалого А-класса ограничение <100 км/ч на >99.5 мировых автодорог, все уголки планеты исследованы, путешествия — теперь commodity ширпотреб, а космос или глубины океанов — удел немногочисленных смельчаков.

Плохая аналогия подобна котёнку с дверцей.

Подскажите, пожалуйста, я не совсем понял из текста. Проделанная работа облегчает жизнь официальным модераторам twitch.tv или происходит вмешательство в трафик передаваемый по шифрованному соединению от twitch.tv до абонента?

Речь не о твитче, а о нашей платформе — твитч был упомянут для упрощения понимания кейса. Модель ускоряет время реагирования модераторов васда, так как они получают алерты в прямом эфире
Есть несколько вопросов:
1) сколько по времени от начала и до завершения проекта? и если есть возможность то временные рамки этапов (сбор данных, разметка, итд)
2) система банит автоматом или подсовывает оператору видео и тот уже принимает решение?
Первая итерация была реализована за месяц с небольшим, и она работала довольно неплохо. Это был сбор первой итерации данных, более-менее сбалансированная нарезка, поиск моделей, эксперименты, написание какой-то обвязки. Дальше в течение года велись доработки, улучшение качества кода, серверного бэкенда, создание вышеупомянутого пайплайна, потихоньку пополняли каталог видео. Благодаря подходу с компиляциями видео разметка шла относительно быстро.

На сегодняшний день система не банит автоматом. Модераторы получают уведомления в прямом эфире. Никто не хочет повторения кейса tumblr
Датасет состоит из видео — значит, надо откуда-то взять видео. Есть два варианта, как их получить: скрапинг с порносайтов и ютуба и сбор видео вручную.

Есть же и третий вариант — создать самому :D

Конечно, можно. Но тогда детектор будет натренирован только на то, что хватило людей, фантазии и финансирования. Иными словами, у итогового детектора будет слишком много ложноотрицательных срабатываний.

Хм, а как насчет порно где сумоисты занимаются сексом на ринге, и на голове каждого надета пиратская шляпа?))
Месье знает толк…

И первая же мысль "любопытно — а как оно с какой-нибудь Байонеттой, ложноположительно не срабатывает ли?"

Да вроде нормально, не замечали особых срабатываний на условных бронелифчиках, панцушотах и zettai ryouiki. К тому же опять же, у нас есть система для дообучения на фолс позитивах, даже если на чем-то валимся, мы это исправляем
Так все же, чем порно отличается от непорно?
Тверкающая девушка — не порно. А если на заднем плане перед тверкающей девушкой стоит некто?
Если в кадре нет половых органов, можно ли однозначно утверждать, что это непорно?
Демонстрация половых органов без цели возбуждения (в медицинском аспекте, например) — порно?
Т.е., как вы формализовали разметку?
Как можно потестить на предмет ложнопозитивных \негативных?
НЛО прилетело и опубликовало эту надпись здесь

Фетишисты внесут шум

Буду отвечать в удобном порядке.
Демонстрация половых органов без цели возбуждения (в медицинском аспекте, например) — порно?

Может быть, это и не порно, но это точно небезопасный контент, который мы хотим обрабатывать (и скорее всего банить). Напоминаю, мы не блокируем стрим автоматически, мы ускоряем работу модераторов с помощью алёртов.
Если в кадре нет половых органов, можно ли однозначно утверждать, что это непорно?

Если в кадре нет ни первичных, ни вторичных половых признаков, мы размечали кадр как непорно. Например, если речь идет о крупном плане на участника процесса. Да, у него/нее странная гримаса, ну и что? Столько сейчас «безопасных» мемов из порно, что не хочется на это переобучаться. Вы КДПВ-то вообще видели :)?
Как можно потестить на предмет ложнопозитивных \негативных?

Никак из-за прослойки в виде человека-модератора
Тверкающая девушка — не порно. А если на заднем плане перед тверкающей девушкой стоит некто?

Это пример далеко из хвоста распределения :). При отлове таких случаев решаем с бизнесом.
Ну в общем, все идёт по заветам Пелевина. SNUFF не за горами, прямым путем идем к дерпантину.
Заголовок спойлера
Сегодня в дерпах заняты специальные актеры, которые много лет занимались по системе Станиславского. Во время съемок они всего лишь воображают, что видят детскую порнографию. Это оговорено в дисклеймере.

Ибо главный половой орган женщины — это, конечно, лицо. Не зря ведь чуткие к тихому голосу природы орки так его и называют: «е*а*ьник».

НЛО прилетело и опубликовало эту надпись здесь
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.