企业与个人网络营销一站式服务商
网站建设 / SEO优化排名 / 小程序开发 / OA
0731-88571521
136-3748-2004
一半是海水 一半是火焰 互联网大数据行业生死劫
信息来源:转 凤凰网智库观察   发布时间:2019-12-22   浏览:
一半是海水 一半是火焰 互联网大数据行业生死劫

     这可能是大数据行业经历的最寒冷的一个冬天。年关将至,国人习惯于用各种圆满的方式给即将过去的一年划上句号,不过,这对于许多大数据行业从业者来说,似乎有些奢望。

     整顿、倒闭、离职......最近数月以来,股股冷峻的气息一直笼罩在行业上空。多次监管动作不断提醒和鞭策着大数据公司,是时候告别野蛮生长的时代了,合规才是正途。

巨变启幕

     监管重锤落地,此前狂飙突进的大数据产业突然被按下“暂停键”。

     自今年 9 月以来,多家大数据公司接连被查,巨变启幕,行业“一夜入冬”。

     9 月 6 日,大数据智能风控服务供应商魔蝎数据被警方调查,一位核心高管被带走,官网至今无法正常访问;另一家大数据公司新颜科技的 CEO 黄向前也在同一天被警方带走调查;这天,聚信立发通知主动停止了爬虫业务,然未能幸免于“难”,仅过了几天后,聚信立被爆有警方进驻公司调查;

     9 月 11 日,知名币圈项目公信宝运营主体被杭州警方查封;次日,有媒体报道,集奥聚合深圳分公司十余人被带走,北京办公室也有多人被深圳警方带走;另有爆料称,天翼征信的总经理、副总经理及市场人员被警察带走。

     一周之内,5 家公司被查,如此阵势引发业内恐慌,但这可能只是刚刚开始。

     紧接着,有传言称百融云创数据查询受影响、个人征信数据业务被暂停,深圳分公司员工被带走,后被官方否认。9 月 27 日,同盾科技子公司信川科技高管被带走协助调查;10 月 21 日,51 信用卡委托外包催收公司因涉嫌寻衅滋事等罪被调查;10 月 25 日,新京报报道称,央行发文紧急调研银行与上述第三方数据公司合作情况,排查的合作内容主要涉及数据采集、信用欺诈、信用评分、风控建模....

     有业内人士分析称,上述公司被查与其开展的“爬虫”业务有关,根源亦在于涉足现金贷、715 高炮、套路贷、暴力催收、“超利贷”等业务。

     据 AI 前线不完全统计,此次清查波及的大数据公司至少 15 家左右(以下根据公开资料整理,力有不逮,难免遗漏或错误,请见谅):


     那个“2019 年,捕获独角兽最多的机构:红杉、阿里、腾讯和警方”的网红段子在引人发笑的同时,也反映出了当下大数据公司的尴尬处境。

     今年 11 月以来,公安部加大了 APP 违法违规采集个人信息集中整治力度,共下架整改 100 架 APP,其中考拉海购、房天下、樊登读书、天津银行等知名 APP 也在列,这些 APP 多涉及无隐私协议、收集使用个人信息范围描述不清、超范围采集个人信息和非必要采集个人信息等情形。据悉,今年以来,公安部“净网 2019”专项行动,已查处违法违规采集个人信息的 APP 共 683 款。

监管风暴席卷而来。大数据行业内人心惶惶,经此一击,许多大数据公司遭受重创,大量数据接口被切断,数据产品停售,部分公司业务部门解散、裁员,还有一些公司濒临倒闭。据一本财经统计,或有上万人因此离开大数据行业。


祸起爬虫?市场已是风声鹤唳。

     一时间,人人闻“爬虫”色变。白骑士、葫芦数据、天机数据、立木征信、聚信立等大数据公司纷纷宣布暂停爬虫业务;还有的公司在几天之内火速将爬虫业务从经营业务范围中“抹掉”,招聘“爬虫工程师”的公告信息也被紧急撤下;一些爬虫程序员因为担忧是否游走在违法边缘,头发又多掉了几根....

     业内有这样一种说法,爬虫贡献了互联网 50% 的流量,它对于互联网的繁荣功不可没。但该技术同时也因“用途”而充满争议。爬虫是一项见不得“阳光”的技术,它广泛运用,却少有人愿意承认在使用它。因为它常常被用作非法收集信息的工具,站上数据隐私、数据安全的对立面。

     “爬虫技术本身并无对错,但要看怎么用,用错了肯定违法啊。”一位程序员向 AI 前线表示,“技术无罪,关键在于人。”

网络爬虫是非常普遍的一种数据挖掘技术,它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。爬虫技术最早主要运用在搜索引擎中,它满足了人们的数据获取、分析需求。早在 1995 年,为了不越“边界”,互联网搜索引擎与网页持有者之间达成了一项“君子协定”——robot 协议。该协议规定了哪些信息该爬,哪些信息不该爬,20 多年来,该协议一直沿用至今。

     在遵循 robot 协议的前提下使用爬虫技术,是没有任何风险的。但往往有些“作恶者”试图越过红线,一些大数据公司打着“大数据分析”的名头违规违法,爬取任何网页及访问用户的数据,致使“虫灾”泛滥。

     现在的爬虫似乎无所不能,只要有账号密码都可以爬,包括电商平台、外卖平台、地图、旅行网站、共享单车、等平台的个人信息,用户的通讯录、上网地址、收货地址、聊天记录、搜索记录、支付记录,甚至央行的征信报告......总之,一切皆可爬,还可进行定制化爬取。

在互联网金融领域,上述数据主要被滥用于借贷、风控环节,具体多用在导流获客和暴力催收上。除了支付宝爬虫、微信爬虫,甚至还有同业爬虫,同业爬虫即爬取同行的信息。据了解,摩羯科技曾推出该款产品,其要求借贷者提供在其它平台上的用户名与密码,并通过爬虫爬来竞品的贷款额度及还款记录,这样便相当于剽窃了同行的风控成果。

     今年 3 月,号称拥有中国最大的简历数据库的巧达科技被警方一锅端,该公司的简历数据库全部是通过非法手段爬取而来,非法获取的简历超过 2 亿条,它将简历库以 13800 元每年的价格出售,非法获利。光是 2017 年,巧达科技凭此业务营收高达 4.11 亿元。泄露、买卖、滥用,这些违规收集来的数据被肆无忌惮的曝光、出售,令用户信息犹如在裸奔,严重侵犯了用户个人隐私。

爬虫也是一项“矛盾”的技术。爬与反爬的“斗争”每天都在上演,力量此消彼长。

     据一位资深程序员介绍,现在比较常见的反爬虫技术手段主要有,检测 Header 信息;设置 IP 访问频率,分析同一 IP 或同一设备在短时间内多次访问同一页面或进行相同操作;识别 UA、通过动态页面增加爬取难度等方式。

     这几年,随着随着 AI 的发展,一些机器学习、canvas 指纹等智能反爬虫技术也被运用起来。例如,腾讯云网站管家 WAF 就将 AI 检测引擎能力,运用到了爬虫 Bot 程序检测的环节上,AI 引擎能够对站点访问流量的会话进行追踪,通过流量画像,匹配行为模型及行为标签进行识别,进而识别出爬虫 Bot 程序流量行为。

     今年 5 月,被称为“中国版 GDPR”的《数据安全管理办法》征求意见稿发布,第 16 条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

     一位业内人士认为,技术只是工具,在获取数据时需要考虑数据到底有没有获得授权,需要几方授权,在拿到用户授权的情况下,有没有拿到网站等数据来源方的授权,这其中涉及到的权责边界应该更明确。

     随着监管越来越严格,爬虫技术的使用边界也将更加明晰。互联网从业者应当怀有敬畏之心,要时时注意不要触碰边界,毕竟爬虫只是技术,灰色的是“助恶者”。


繁荣下的危局

     整顿风波揭开了大数据灰色产业链的冰山一角,也将大数据行业高光背后的暗影一并曝在了阳光下。

伴随着互联网 + 迅速成为潮流,以及深度学习推动下的第三次人工智能热潮,大数据技术备受追捧,“得数据者得天下”是一度被风口裹挟着的大数据产业的繁荣写照。

     金融大数据是大数据产业应用最广的领域之一。2013 年前后,互联网金融开启了发展元年,一大批 P2P、第三方支付等互金平台涌现。P2P 平台一骑绝尘,但缺乏数据能力、风控能力差是其发展掣肘之一,如此一来,就为第三方数据公司提供了诞生的契机。

     同盾科技便是彼时的入局者之一。2013 年,时任阿里巴巴集团安全部技术总监的蒋韬,还曾因离职创办同盾科技在业内引起一番不小的轰动。成立当年,同盾科技便拿到了来自 IDG 资本和华创资本的 A 轮融资。AI 前线查询天眼查显示,同盾科技自成立以来已获 6 轮融资,除 2018 年外,几乎每年都有融资,最近的一次是在今年 4 月完成的超 1 亿美元 D 轮融资,估值近 20 亿美元。

     有数据统计,2013 年到 2015 年,中国市场上 P2P 网贷平台数量从 800 家增长至 2595 家,累计交易规模超过 11.4 万亿。另据亿欧智库《2018 中国智能风控研究报告》显示,截至去年年底,573 家金融风控企业共获得投资金额超过 1000 亿元,其中三成企业获得三次及以上的投资。这些企业中,有 69.8% 成立于 2013 年 -2017 年。

     最近两年,金融科技成为 P2P 热潮落幕后新的创投风口,再次助推大数据产业发展走向新的高潮,同盾科技、51 信用卡等大数据公司也跃升为明星独角兽。

     在草莽生长的早期阶段,不少大数据公司趁机钻了法律不完善的空子,其数据业务游走在道德和法律边缘。自 2015 年以来的多次监管动作也无不为从业机构敲响警钟——要合规化使用数据。

     在很大程度上,这些 P2P 网贷平台与第三方数据公司是“相互成就”的关系。而一荣俱荣,一损俱损,当监管“紧箍咒”收紧之后,大数据产业也迎来了洗牌阶段。“那些能够满足政策及市场客户需求的团队,肯定会越做越好,而那些无法真正满足需求的,将面临淘汰。”一位大数据行业从业者向 AI 前线表示。

     某头部互联网消费金融平台的大数据负责人表示,这次的监管行动从产品—爬虫技术—相关的数据方—网贷平台,可以说是一条链式的查处。尽管有些严格,但如果不经过整治, 行业内存在的“缺乏明确规则”的问题就很难作出改变。一些大数据公司“单纯”的认为自己只是给甲方做数据服务,即便出了问题,也事不关己。但现在来看,这些权责是需要进一步明确的。


渐入寒冬深处,结局也格外凄冷。

     一些重度依赖爬虫业务的大数据公司轻则业务停滞,重则或将因此倒下,即便能勉强活下来的恐怕也要被迫转型。另一方面,一些 AI 公司、金融科技公司也会受到不同程度的影响,没有了大量数据持续“投喂”,模型该如何迭代优化?

     “有时候市场表面上的虚假繁荣是难以持续的,泡沫总有一天要被戳破。这次监管风暴对小机构来说,以后可能更难做了,对一些大机构会有一定影响,但可能影响没那么大,优胜劣汰会加剧。大浪淘沙后留下来的是那些对用户来说定价更低、体验更好的产品,而淘汰掉的绝大部分是那些不合规的企业。因此,从长期来看,通过强监管之后,大数据行业会更合规,总体来说对用户会更友好。”上述大数据负责人继续说道。

     一位第三方数据公司的高管对形势感到乐观。她认为,这次监管风暴对行业的健康发展是有利的,监管介入、政策出台,这都在引导行业往好的方向发展,数据采标清洗质检等流程会逐渐趋向标准化、合规化、安全化,进而提高大数据行业的进入门槛,并倒逼从业者提升服务质量。

     一半是海水,一半是火焰。值得一提的是,一些具有国企背景的大数据公司逆势成为行业里的“香饽饽”。那些不合规的企业终将湮没不断滚滚向前的历史洪流中,未来的大数据产业属于合规的参与者。





上一条: 老师也疯狂:在家播网课,我比直播软件崩溃得还快 远程教育软件的前景
下一条: 50年巨变 互联网精神的现实启示
案例鉴赏
多年的网站建设经验,斌网网络不断提升技术设计服务水平,迎合搜索引擎优化规则
精辟网文
多年的网站建设经验,网至普不断提升技术设计服务水平,迎合搜索引擎优化规则
长沙私人做网站    长沙做网站    深圳网站建设    株洲做网站    东莞做网站    南京防腐木    湖南大拇指养猪设备    株洲做网站    
版权所有 © 长沙市天心区斌网网络技术服务部    湘公网安备 43010302000270号  统一社会信用代码:92430103MA4LAMB24R  网站ICP备案号:湘ICP备13006070号-2