2
技术人士:网络爬虫抓取评论很简单
一位互联网从业者向《国际金融报》记者表示,简单来讲,此次事件,就是利用一些技术手段,用机器代替人,进行重复性劳动,类似新闻聚合类的网站、搜索引擎、论坛广告等都会使用爬虫技术。
他表示,项目在冷启动的时候会用爬虫数据,自己网站活跃度不高,UGC不够,只能每天去爬点数据过来。
一位后端程序员在浏览了大众点评和携程之后称,网络爬虫想要获取评论数据很简单,这两个网站本身的爬取难度不高,很多开源框架在网上有很清楚的教程,成本很低,甚至不需要学会爬虫的开发过程。
该技术人员向《国际金融报》记者介绍了具体的爬取过程——网络爬虫先设置好目标网站的url,这些页面的布局都是有固定格式的,爬虫工作时,按照事先设置好的爬取规则,抓取网页上的特定元素,元素内就包含着目标数据。
关于马蜂窝用户评论中出现的乱码、广告等内容,该技术人士称,这是因为网站识别出来是爬虫了,就返回一些设置好的信息给爬虫,爬虫误以为是真实内容。
他还表示,爬虫和反爬虫永远在更新,但是爬虫还是会更先进一些,更快地产生应对策略,有些爬虫还能把自己伪装成百度,对其他网站进行访问,这样能更安全地避开反爬虫策略。
3
内容搬运工层出不穷
从上个世纪90年代起,互联网就面临着信息爆炸的问题,从这个角度看,在互联网时代,最不缺的就是内容,但是正因为信息泛滥,原创内容、优质内容才是这个时代所稀缺的,原创内容生产者也成为各大内容平台所争抢的资源。
今年7月,小红书接到大量用户反映称,大众点评疑冒用小红书用户名称账号,批量建立虚假账号,抄袭及搬运用户在小红书发布的原创笔记。大众点评随后称是新上线试运营的推荐栏目在未经授权的情况下对相关内容进行了违规转载。
不仅是文字和图片内容,视频内容也逃不过被抄袭和搬运。
今年5月,抖音海外版Tik Tok第一季度登顶苹果商店下载全球第一,引发张一鸣和马化腾在朋友圈掐架,张一鸣在评论区中的一句“微信的借口封杀,微视的抄袭搬运挡不住抖音的步伐”似乎在暗指微视搬运抖音内容。
随着短视频行业的火爆,记者在网上搜索“搬运短视频”时发现了大量关于如何搬运视频、如何去水印的教程。
抄袭、搬运内容事件频发,平台、用户维权也有一定的难度。关于此次马蜂窝评论内容疑似搬运事件,北京康达律师事务所韩骁律师向记者表示,根据《著作权法》,合理使用必须具有一定的正当目的或特殊的情形,如果马蜂窝涉嫌抄袭用户评论,其具有一定的营利目的,一般不应被认为是合理使用。
但是从事件本身来看,马蜂窝是否构成侵犯著作权的行为,还需要充足的证据证明。韩骁律师称,目前国际上普遍认可的判断原则是实质性相似+接触原则,即如果被控侵权作品的作者曾接触过原告受著作权保护的作品,同时该被控侵权作品又与原告的作品存在内容上的实质性相似,除非有合理使用等法定抗辩理由,否则即可认定其为侵权作品。因此不论是判断马蜂窝是否构成侵权,还是类似内容平台的抄袭,都需要对侵权行为进行举证,从而判断是否构成侵权。
来源:《国际金融报》 共2页 上一页 [1] [2] 搜索更多: 马蜂窝 |