алгоритмы
не проявляют социальной сознательности и делают неполиткорректный вывод, что негры чаще ругаются нехорошими словами ("offensive language") в твиттере, чем белые (
via birdwatcher, oригиналы исследований
тут и
тут.) Примечательно, что в первой работе проблематичным сочли уже сам вывод, что черные могут чаще сквернословить, независимо от его фактической верности. Авторы второй, хотя бы, посадили специально обученных исследователей, которые знали, какой расы пишущий твит, и правильно понимали, что неграм так ругаться можно, не классифицировали их твиты как оскорбительные, и поэтому смогли показать, что алгоритм ошибается и дискриминирует негров.
Вообще, страшная наивность со стороны исследователей надеяться, что слепые к расе и прочим защищенным признакам пишущего алгоритмы могут определять offensive или hate speech так, чтобы это удовлетворяло современное американское общество. Стандарты позволенного поведения явно сформулированы так, что специальному набору привилегированных групп позволяется куда больше, чем простым людям.
При этом для не слепых к защищенным признакам алгоритмов задача довольно проста и даже не требует особого машинного обучения для вполне приличной точности. Дело в том, что семантическая система сейчас радикально упрощена по сравнению с табу в другие времена и в других обществах. Например, в Советском Союзе 70х можно было вылететь с работы и/или получить разные неприятности за выкрик, скажем, "Да здравствует фашизм!", но просто за употребление просто слова "фашизм", или любого другого, в подходящем контексте, санкций не следовало ни для кого. А сейчас страшное "n-word", аналогичное русскому "негр", настолько запретно, что административное расследование начинается даже из-за употребления слова в максимально санитизированном академическом контексте, когда
профессор с неправильным цветом кожи цитирует черного корифея. Мне как-то не приходит в голову, когда в предыдущий раз в европейской культуре был такой запрет на слова в реальности, а не в фантазийном контексте (типа "неназываемого" Вольдеморта.) В любом случае, задачу алгоритмической классификации это радикально упрощает, просто нужно сначала явно сообщать алгоритму, что именно разрешено автору высказывания в текущей социально-политической ситуации и в соответствии с его набором расовых и половых признаков.