Twitter是训练AI模型的金矿
2023年05月24日 由 Camellia 发表
342428
0
数据是金子,那么Twitter就是训练AI模型的金矿。在该平台上发布的每一条推文都成为这家社交媒体巨头的财产,可以被访问其API的其他人使用。
Meta旗下的Instagram正在计划进军微博领域,挑战Elon Musk的Twitter。据彭博社报道,Instagram目前正在开发一款类似Twitter的微博应用程序,将于6月底前首次亮相。这个新平台在内部被称为P92或Barcelona,旨在结合Instagram和Twitter的最佳功能。
在开发Instagram的时候,Jack Dorsey正在开发他的去中心化社交网络Bluesky,Bluesky有点类似于Twitter,但却是开源的。一个类似的平台例子是另一个基于Twitter的去中心化社交网络Mastodon。
根据最近的报道,Instagram即将推出的应用程序将作为一个基于文本的对话平台。用户将能够直接与关注者和同行进行交流。
这款应用程序将为用户提供各种创意工具来制作他们的信息,包括选择链接、照片和视频。
法律纠纷
Instagram尝试创建Twitter替代品的同时,Twitter和微软之间正在发生法律纠纷。Twitter对微软提起诉讼,指控微软未经授权使用Twitter数据用于培训目的,Twitter认为这是“非法的”。
当微软拒绝为使用Twitter的API付费时,冲突就出现了。Twitter最近推出了新的付费等级。以前,开发者可以免费使用Twitter的API,但为了优化收入,Twitter的首席执行官Musk宣布结束这种免费访问。
围绕这场诉讼的各种事件,Twitter决定将其API货币化,以及Meta引入类似Twitter的应用程序,都暗示了一个更大的背景。Twitter传统上是一个独特的平台,它培养了大量文本内容,使个人能够自由表达自己的意见,与其他虚伪内容普遍存在的平台相比,它带来了更真实、更人性化的体验。
Twitter的这种独特性质为旨在增强与GPT类似的语言模型的人类反应的研究人员提供了宝贵的数据。虽然Elon Musk起诉微软的具体动机尚不清楚,但微软利用Twitter数据训练OpenAI的GPT模型的可能性不能排除。
在过去,微软也曾冒险使用Twitter的数据来训练机器人。一个值得注意的例子是2016年推出的Twitter机器人Tay,该公司将其定位为“对话理解”的实验。
微软表示,用户与Tay的互动越多,它就会变得越智能,适应通过随意和有趣的对话吸引人们。不幸的是,对于这个软件巨头来说,这一努力失败了。
用户开始用性别歧视、种族主义和受Donald Trump影响的言论让这个机器人应接不暇。结果,本质上是一只联网的机器鹦鹉Tay,开始向用户回应这些情绪。
与用户冲突的训练数据
Twitter的隐私政策明确规定,通过公开发布内容,用户正在指示平台尽可能广泛地披露该信息,包括通过平台的API,并指示通过平台API访问该信息的用户也要遵循同样的规定。尽管如此,大部分用户往往忽略了这一点。
这本质上意味着,在该平台上发布的每一条推文都成为了这家社交媒体巨头的财产,可以被访问其API的其他人使用。
然而,自从Twitter将其API置于付费墙之后,许多公司都推出了自己的类似Twitter的平台,声称可以为用户提供更丰富的体验。用户可能并不想要这个体验。
他们利用社交媒体平台表达自己的观点,而不是为人工智能公司提供大量的数据集来训练大型语言模型。
欧盟人工智能法案草案
目前,只要平台在隐私政策中包含用户观点和帖子被用作数据的说明,它们就可以使用这些数据作为模型的输入,但重要的是要确保用户充分了解这一点。
过去,网站通常使用 cookie 来增强访问者的浏览体验,但通常不会像我们现在经常遇到的那样弹出是否同意的弹窗。同样,如欧盟人工智能法案草案的法律文件主张公司披露其用于模型训练的数据集,这可以在前面提到的场景中提供宝贵的见解。
为了有效地解决这个问题,可以在社交媒体平台上引入一个通知,比如弹出消息,明确告知用户他们的观点正在被用来训练人工智能模型。
来源:https://analyticsindiamag.com/data-is-gole-twitter-the-goldmine-to-train-ai-models/