解密游走于法律边缘的爬虫技术

(原标题:解密游走于法律边缘的爬虫技术)

游走于法律边缘的爬虫业务

中国新闻周刊记者/赵一苇

发于2019.10.21总第920期《中国新闻周刊》

一场席卷大数据风控行业的风暴仍在继续。

从9月下旬开始,多个业内闭门交流会紧急召开,每个会场都摆出严防死守的架势。“参会者中不乏近期被查或有关联的大数据公司高管。”一位接近会议的业内人士向《中国新闻周刊》透露,这些闭门会严格保密参会名单,拒绝外部报名,会场门口都会严格逐一核验参会者身份,尤其严禁媒体进入,“大家都是来讨论以后怎么办,能不能活下去都是个问题。”

这是一场针对大数据服务商的强监管风暴。自9月初起,多家杭州、上海的大数据风控公司被调查,业内知名的集奥聚合、新颜科技、公信宝等多家公司的核心高管被警方带走调查,连一些与这类数据公司有过交易经历的公司高管也被警方带走协助调查,其中包括中国电信旗下征信机构天翼征信的多位核心高管。但在消息传出后,天翼征信和新颜科技方面仍向《中国新闻周刊》表示,“公司业务一切正常。”

业内已风声鹤唳,尤其以惯用网络爬虫技术爬取并违规使用数据的公司最为恐慌。

所谓网络爬虫,即一种按照一定规则,自动抓取互联网信息的程序。在大数据风控行业中,以网络爬虫获取信息数据的做法盛行,而违规使用、买卖爬虫得来的数据则是导致数据泄露、隐私泄露等一系列问题的根源。

“爬虫技术本身是中性的,关键在于是否合规使用爬虫数据。”中关村大数据联盟副秘书长陈新河在接受《中国新闻周刊》采访时表示,如果通过爬虫抓取网络公开信息或授权信息,并不违规;但如果抓取的是未公开、未授权的个人敏感信息,且违规留存、使用、买卖这些隐私数据,就属于违规行为。

“真正合规的公司数据来源都是有官方授权的,能获得这类授权的公司少之又少。”一位长期与大数据公司打交道的甲方公司高管告诉《中国新闻周刊》,大数据风控行业门槛低,业内鱼龙混杂,且监管难度大,“行业混沌,监管层只能先一刀切”。

大数据公司被查的蝴蝶效应迅速传导至信贷市场。最近一个月里,多家中小银行和金融机构纷纷收紧信贷产品审批,多家网贷公司和贷款超市平台大面积下架借贷产品。

“许多中小银行和金融机构的风控模型对第三方数据有较大依赖性,自身风控体系不完善,依赖的外部数据被切断,风控势必会受到影响。”一家与持牌金融机构有多年合作经验的第三方风控公司高管告诉《中国新闻周刊》。

很快,监管层表明了督促银行加强自主风控的态度。10月12日,北京银保监局印发《关于规范银行与金融科技公司合作类业务及互联网保险业务的通知》,要求规范辖内银行与金融科技公司合作类业务及互联网保险业务,促进银行保险机构加强风险管控和合规管理,明确强调要严格落实自主风控原则。

“监管层对数据公司的整顿酝酿已久,但完备的数据安全法还暂时不会出台。”一位接近监管层的人士向《中国新闻周刊》透露,“如何界定个人数据的法律性质,仍然是一个需要探讨的问题。”

暂停爬虫业务

这一轮强监管从深圳、杭州、上海等地开始,已经迅速席卷了整个大数据风控行业。整顿力度之大,令业内和相关合作方人人自危。

“现在行业内基本暂停了爬虫业务,很多之前做爬虫的也都在清理数据库,就怕被查。”一位大数据金融业内人士告诉《中国新闻周刊》,不仅是互联网金融公司,连与大数据公司只有过零星合作的招聘公司、风控公司最近也纷纷切断了合作,“数据公司被查,相关行业都会受到波及。”

在大数据行业中盛行的爬虫技术,主要分为公开爬虫和授权爬虫两类。前者只能爬取机构或网站公开发布的信息数据,如工商信息等;而后者则需要取得用户的个人授权,以爬取个人通讯录、邮箱、网银、电商平台等个人隐私数据。

根据全国信息安全标准化技术委员会于今年6月发布的《个人信息安全规范》征求意见稿,个人信息控制者在收集个人敏感信息前,应征得个人信息主体的明示同意,并应确保个人信息主体的明示同意是其在完全知情的基础上自主给出的、具体的、清晰明确的意愿表示。

“所有数据授权都需要明显明确地告知消费者,授权获取数据是关键。”深圳中兴飞贷金融科技公司副总裁孟庆丰在接受《中国新闻周刊》采访时表示,“不可否认的是,数据行业内确实存在许多不合规的做法,尤其是未经授权的爬取数据。”

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/3e452fc0010f79fbd187cce6a36b85eb.html