Инженеры Facebook сомневаются в способности ИИ модерировать контент

18.10.2021, 17:49,
Информационная безопасность

Как показывают внутренние документы, компания удаляет лишь часть сообщений, нарушающих ее правила.

Инженеры Facebook сомневаются в способности ИИ модерировать контент

Компания Facebook неоднократно заявляла, что используемые ею технологии искусственного интеллекта решат проблемы с разжигающим ненависть контентом и призывами к насилию на ее платформе.
Однако, судя по внутренним документам компании, оказавшимся в распоряжении The Wall Street Journal, все не так радужно, как пытается представить Facebook. Используемые ею технологии ИИ не способны выявлять видео стрельбы, снятое от первого лица, расистские высказывания и, к большому удивлению исследователей, даже не отличает петушиные бои от автокатастрофы.
Судя по документам, специалисты Facebook решили определить, насколько платформа преуспела в обеспечении соблюдения собственных правил в отношении пользовательского контента. Как выяснилось, компания удаляет лишь часть сообщений, разжигающих ненависть и нарушающих ее правила. По словам специалистов, это небольшой процент с однозначным числом. Когда алгоритмы Facebook недостаточно уверены в том, нарушает контент правила или нет, он отображается в ленте пользователей реже, но разместившие его учетные записи остаются безнаказанными.
Как показывают внутренние документы, два года назад компания сократила время, отведенное рецензентам на обработку жалоб пользователей на разжигание ненависти. Также были внесены другие изменения, уменьшившие общее количество жалоб. Таким образом, в вопросе обеспечения соблюдений правил Facebook стала больше полагаться на ИИ, что увеличило очевидный успех технологии в ее публичной статистике.
Согласно документам, лица, ответственные за защиту платформы от оскорбительного и опасного контента, признают, что компания еще не приблизилась к тому, чтобы надежно его проверять.
"Проблема в том, что у нас нет и, возможно, никогда не будет модели, которая фиксировала хотя бы крупные нарушений целостности, особенно в чувствительных областях", - сообщается в записке старшего инженера, датированной серединой 2019 года.
По его оценкам, автоматизированные системы удаляли сообщения, генерировавшие всего 2% просмотров разжигающих ненависть высказываний на платформе.
«Последние оценки показывают, что, если не произойдет серьезных изменений в стратегии, будет очень трудно поднять этот показатель выше 10-20% в краткосрочной перспективе», - сообщал инженер.
В марте нынешнего года другая команда специалистов Facebook пришла к аналогичному выводу. По их оценкам, автоматизированные системы удаляли сообщения, которые генерировали от 3% до 5% просмотров разжигающих ненависть высказываний на платформе, и 0,6% всего контента, нарушающего политику Facebook, запрещающую пропаганду насилия и подстрекательство.

SECURITYLAB.RU

рейтинг: