如果互联网上越来越多地充斥AI生成的内容,就将可能成为AI公司自己的麻烦。
最近,关于AI污染网络环境的消息多了起来。
前段时间,一篇名为《AI,正在疯狂污染中文互联网》的文章刷屏,文中有网友发现某平台上一个AI账户,以极快的速度将未经核实的信息输出到中文互联网,并且误导了Bing AI,以至于Bing给出了错误答案。
这不是孤例,而且不止国内,海外的情况也是如此。
美国生活杂志《国际生活》的主编Jennifer Stevens在第一次听说ChatGPT后,她想知道这对她编辑的杂志意味着什么。
几个月后,她万万没想到,自己花了很多时间在筛选无用的文章。
据报道,包括Stevens在内的很多在线新闻主编看到,人工智能生成了越来越多的质量远远低于他们标准的内容,他们认为这是一种新型的垃圾信息。
生成式AI可以根据简单的提示回答问题、生成图像,甚至生成文章。其中一些技术还有望增强数据分析,消除单调的写作任务,就像计算器改变了数学一样。
但最近的情况也显示了生成式AI垃圾信息激增并可能在互联网上蔓延的潜力。
5月初,新闻网站评级公司NewsGuard发现了49家使用AI生成内容的假新闻网站。据该公司联合创始人Gordon Crovitz说,截至6月底,这一数字已达到277个。
“这是指数级增长,”Crovitz说。
Crovitz曾担任专栏作家和出版人,他说,这些网站的创建似乎是为了通过谷歌的在线广告网络赚钱。
研究人员还指出,人工智能技术有可能被用来制造政治虚假信息和用于黑客攻击的有针对性的信息。
网络安全公司Zscaler表示,现在断定犯罪分子是否正在广泛使用AI还为时过早,但该公司预计,AI将被用于创建高质量的虚假网络钓鱼网页,这些网页旨在诱骗受害者下载恶意软件或泄露他们的在线用户名和密码。
在YouTube上,ChatGPT淘金热正如火如荼,数十个关于“如何靠生成式AI技术赚钱”的视频观看次数在十万次以上,许多博主提出的建议疑似涉及垃圾内容。一些博主告诉观众,他们每周可以赚数千美元,敦促他们写电子书,或者创建AI运营的博客账号,账号内容可以通过出现在谷歌搜索中来产生广告收入。
OpenAI的一位发言人曾说,ChatGPT善于回答问题,但它偶尔会产生错误的答案。
“很多人认为它(ChatGPT)是一个搜索引擎,但它不是。”
美国知名科幻电子杂志《克拉克世界》(Clarkesworld)的总编Neil Clarke说,今年早些时候,该杂志不得不暂时停止接受在线投稿,因为其被数百篇人工智能生成的故事给淹没。
Clarke说,这些投稿是由在线视频推动的,这些视频建议使用ChatGPT给Clarkesworld投稿。
他说,他的杂志拒绝所有AI生成稿件,这些稿件很容易识别,它们“拼写和语法都没问题,但却是一个完全不连贯的故事”。
“通常,它们从一个世界即将结束的大问题开始,1000个字后,这个问题就以某种方式结束了,没有任何解释。”
《国际生活》的Stevens则说:
“它们都是以一种相当平淡和普通的方式写成的,语法上都是正确的,只是觉得很公式化,对我们来说真的没用。”
分析称,如果互联网上越来越多地充斥AI生成的内容,就将可能成为AI公司自己的麻烦。
因为AI生成的内容本身就存在不够准确的问题,AI模型获得大量互联网数据,但却无法很好地辨别信息的真实性和可信度,而如果ChatGPT这些大模型使用AI生成的内容进行训练,模型就会变得不那么有用,这种现象被称为“模型崩溃”。
不仅仅是垃圾内容会导致模型崩溃,越来越多的人已经在使用人工智能来生成整体内容了。
上个月,洛桑联邦理工学院的研究人员在网上聘请了自由撰稿人,对《新英格兰医学杂志》上发表的摘要进行总结,结果发现其中超过三分之一的人使用了人工智能生成的内容。
当AI生成的内容越来越多,未来想找到未被AI训练的数据,将难上加难。
牛津大学应用与理论机器学习小组的研究员Ilia Shumailov认为,模型崩溃是不可避免的,但有一些潜在的技术解决方案可以解决这个问题。例如,能够访问真人生成内容的公司,仍然能够构建高质量的大型语言模型。
来源:华尔街见闻
红商网优质内容还将同步分发到公众号、视频号、头条号、西瓜抖音、网易号、搜狐号、企鹅号、百家号、好看视频、新浪微博等国内主力流量平台。