就在2019年7月30日,“灵犬3.0”发布,升级了识别类型和模型能力,支持图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。
快手则在下架风波时回应称正全面整改中,采取对现有库存视频加大清查力度、控制每日短视频上传总量等7大措施,并将审核团队从2000人扩充至5000人。其招聘信息显示,“内容审核编辑”的工作要求为:审核用户上传到快手的视频、图片、评论的合法性、合规性,对违规账号进行合理处置,维护社区的绿色与健康。
除了建立自己的风控体系之外,一些公司也会去找第三方合作。
为各类平台提供审核服务的从业者江洋对燃财经表示,人工审核和机器审核相辅相成,有一部分机器不能拦截到的东西,通过人工去提供一些标签,算法就可以去验证,同时捕捉到跟这个账号有关联的群组和账号,这样效率会更高。
内容审核难在哪儿?
即使企业大力审核,各类APP仍然难逃被下架的命运。那么,内容审核难在哪儿?有哪些新模式与技术应用在审核上?
江洋告诉燃财经,目前审核方面的技术已经经历了四个阶段。
第一代审核解决方案以名单类(如黑名单)等方案为主,技术上比较简单,建立基于数据的名单,根据一些关键词,并通过大数据AI技术收集数据名单中的有效信号,拦截相关信息。
第二代审核方式由公司启用专家系统,即把行业专家多年积累的风控和业务知识通过系统的方案固化下来,做出一些拦截欺诈的规则模型,并在风控中做一些自动化的决策。比如可以设置一个账号发广告不能发超过50条,到第51条账号就会被封。
第三代开始了机器学习,或者说有监督的机器学习。即给风控案例或数据做一些标签,通过各种机器学习的手段,把它固化成模型,通过不停的迭代,做风控和反欺诈方面的决策。
他举例,比如系统监测到某账号或登陆IP之前有过欺诈行为,通过这些有限的数据让机器去学习,总结出一些规则来拦截。例如有的用户把涉黄的词汇用拼音代替,或加一个隔断符号,机器可以通过一千条类似的文本学习到这个规则,有效拦截掉类似的不良内容,这种方法强依赖于大量打上标签的数据。
第四代审核技术则进入了无监督的机器学习,对于很多缺乏标签的问题和不断更新进化的新问题,运用无监督机器学习检测信息。
江洋表示,现代的欺诈和黑产趋向于群组性的行动,这样的组织甚至有上中下游产业链,可能购买了1万个账号通过群控的软件发布违规信息。这些账户的行为比较异常,且多个账号有紧密联系,无监督机器学习就是利用了这一点,比如账号注册时间在某个时间段内,IP有时在美国,有时在越南,账号之间可能存在过交易行为,交易数额在一定范围内。在这样的情况下,即便没有数据贴标签,系统也能捕捉出来群组进行拦截。
他举例解释第三代和第四代的差别,比如一群猫和狗混在一起,有监督的机器学习需要一条一条的列出猫的胡须长、走路更轻等,把这些特征各打一个标签,再到群组里去识别匹配,而无监督的机器学习是在没有标签的时候,通过这些动物之间的特性和关系来区分。
但是,如果不是有组织大批量的账号行为,可能就需要人工审核或其它舆情监测的平台来辅助。目前各平台采用的多是系统拦截加人工的方式,有规则、黑名单、人工智能风控,也有人工审核,二者结合进行欺诈信息和不良内容的清洗。
除了技术因素之外,平台的主观选择也是一大重要因素,很多社交平台存在涉黄问题,但如果不打擦边球,平台活跃度可能降低。所以,在审核上,一方面黑产组织在不断与规则作斗争,开发新模式,再加上用户数巨大,技术加人工的审核难度依然不小,另一方面,平台在权衡内容和活跃度的时候,也要做出取舍。
推荐虚假种草帖需担责
小红书平台上用户发布违规内容,板子是否该打到小红书身上?
中国政法大学传播法研究中心副主任朱巍对燃财经表示,小红书上的“种草帖”本质上就是广告,因为它们都可以通过内容引流直接变现,按照2016年《互联网广告管理暂行办法》的规定,媒介方平台经营者、广告信息交换平台经营者以及媒介方平台成员,对其明知或者应知的违法广告,应当采取删除、屏蔽、断开链接等技术措施和管理措施,予以制止。
朱巍指出,假如一个用户发布了内容,平台没有推荐,点击量不高,小红书不承担责任。但如果是一些小红书进行算法推荐且内容达到很高的浏览量和成交额的内容出了问题,或是用户举报平台不处理、竞价排行内容出问题、卖家留的联系方式是虚假等情况,小红书要承担连带责任。
“小红书的模式可以说是社交电商中最成功的一种模式,获得了大量用户的信任。现在问题出来,对小红书来说未必是坏事。小红书应该把篱笆墙扎好,用更高的水平来要求自己。这并非是提高运营成本,而是以用户的信任和保障产品质量为基础,将来会更多地占有市场。”朱巍表示。
小红书原本在商业化之路上就面临着保证用户体验与合理变现的挑战,如今,强化审核走向合规成为了更急迫的命题。
文中江洋为化名。
来源:燃财经 唐亚华
共2页 上一页 [1] [2]
关注公号:redshcom 关注更多: 小红书