加利福尼亚大学开发模型，可减少AI数据集的性别偏见

2018年09月10日由浅浅发表 17149 0

词嵌入是一种将单词和短语映射到实数向量上的语言建模技术，是自然语言处理的基础部分。这就是机器学习模型如何“学习”语境相似性和词语接近的重要性，以及它们如何最终从文本中提取意义。只有一个问题：数据集往往表现出性别刻板印象和其他偏见。可以预见的是，在这些数据集上接受训练的模型会发现甚至放大这些偏见。

为了解决这个问题，加利福尼亚大学的研究人员开发了一种新颖的训练解决方案，即“保留单词向量中的性别信息”，同时“强迫其他方面不受性别影响。”他们在一篇论文“Learning Gender-Neutral Word Embeddings”中描述了他们的模型。

“研究表明......从人类生成的语料库中学习的机器学习模型往往容易出现社会偏见，例如性别刻板印象，”该团队写道，“例如，'程序员'这个词在定义上对性别不敏感，但是在新闻语料库上训练的嵌入模型将“程序员”与“男性”更接近“男性”而非“女性”。这种偏见会严重影响下游应用。

他们的学习方案，他们称之为Gender-Neutral Global Vectors（GN-GloVe），识别性别中性词，同时学习词向量。该团队声称它优于以前的方法，因为它可以应用于任何语言，不会从单词中删除任何性别信息，并排除单词被错误分类并影响模型性能的可能性。

与GloVe和Hard-GloVe（两种常用模型）相比，GN-GloVe对新注释的数据集中的性别刻板词非常敏感。虽然GloVe的定型词如“医生”和“护士”，但GN-GloVe却没有。此外，它总体上表现出较少的偏见，在研究人员的测试中，GloVe倾向于将职业与特定的性别联系在一起，GN-GloVe的偏差减少了35％。

在未来，该团队计划扩展该方法以模拟其他单词属性，例如情绪。

论文：arxiv.org/pdf/1809.01496.pdf

更多AI数据集请点击“这里”下载：AI数据集

标签：

机器学习数据集人工智能未来

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌在Kaggle上发起包容性图像挑战赛

下一篇谷歌发布What-If工具：分析ML模型无需代码

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）