“手机号对应的用户所属家庭是孕期家庭的可能性,分数越高,可能性越大。”
这是登记在上海数据交易所里,一则名为“孕期家庭识别评分”数据产品的说明,输入电话号码、姓名、身份证,可输出对应0~150分值的孕期家庭分数,以及20个数据维度的解释。
点进产品列表,颇令人在意的还有幼儿家庭识别评分、婚恋意愿强度模型、工作地理位置识别……产品功能均为查询某种身份标签,背后的开发者是中国移动“梧桐风控”。6月份,记者查询时,价格在0.9元/次~1.35元/次,8月份查询时,该类产品价格变为“面议”。
近些年,用户对社交平台的数据交易愈加敏感,但对运营商的印象还停留于“办卡办宽带”。运营商大数据变现,这块隐秘的蛋糕很少被端上桌面。
去年三大运营商共收入近1.9万亿元,光中国移动的客户覆盖面已经接近10亿。今年8月发布的半年报中,中国移动首次将数据资源作为资产入表,入表金额达到7000万元。
从采集传输到存储计算,数据流通的每一个环节都需要通信运营商的支撑。修一条路,能跑的只是交通行业这一个行业车子,而在运营商网络上跑的,是十多亿用户的整个数字化世界。
百亿级赛道
互联网平台用算法挖掘用户信息已经不是新鲜事。但真正的数据“富商”——运营商却往往隐匿于公众感知不到的角落“闷声发大财”。
运营商手里有哪些用户数据,如何分析出如此多信息?
不愿具名的运营商内部人士告诉记者,这类大数据产品主要依仗的是运营商三要素:电话号码和真实匹配的姓名、身份证号。在三要素基础上,再结合运营商手中的其他数据进行数据建模。
拿“幼儿家庭识别分”为例,中国移动有亲情副卡或者针对小学生的校园电话卡,办卡登记的信息经过存档后,稍加交叉比对,便能描摹出一条手机号背后的家庭网络。“准确率很高”,前述内部人士说。
浙江移动大数据中心的傅一平曾公开撰文指出,大多身份信息可以通过大数据挖掘出来,比如依托亲情网、依托一群人每天在同一地点连WiFi的位置信息,运营商可以分析出比手动录入更加靠谱的身份数据,他认为这是运营商的王牌资源之一。
另外一类重要的运营商数据是上网内容。
不同于各大APP收集数据的逻辑,运营商收集数据的技术叫DPI。想象一下,DPI像是站在网络路口的交警,不仅能看到每一辆“过路车”的来源地、目的地,并且能深入检查车里携带的数据内容。
尽管许多网站现在会使用加密协议(比如Https开头的网站),让运营商无法轻易窥探用户在网站里到底搜过什么、看过什么,但用户的上网流量流向哪些APP、访问了哪些网站,这类基本的上网活动都可以被运营商追溯。
公开资料显示,2017年,仅浙江地区的移动DPI记录就超过每天700亿条,一天的位置信令打点数据上百亿。如果把数据比作新石油,那运营商可以算得上最大矿主之一。
“组合拳”风险
手握通信网的运营商,握有优质资源。
市场的期待也很直观。去年8月21日,数据资产入表的正式规定刚刚落地,三大通信运营商股价集体走强,增幅均在3%以上。
但是庞大的数据如何合规开采,是一块烫手山芋。
“我们的数据不能出网。”前述内部人员在采访中向21世纪经济报道记者反复提及。虽然有丰富的数据石油,但根据工信部《电信和互联网用户个人信息保护规定》的规定,运营商的原始数据,尤其是个人手机号,不能直接对接外部系统。所谓数据交易,交易的并非数据,而是一个个包装过的数据产品。
多家下游应用端的大数据公司告诉记者,一类最常见的数据产品就是用户标签,主要是为了满足合规要求,避免精确定位到个人信息。比如前文提到的孕期可能性高、工作位置离查询位置为1~3公里,都属于标签型数据。
从法律角度来看,我国个人信息保护法(下称“个保法”)的确不保护用户标签或画像。这是因为个保法的底层逻辑为:如果数据不能识别到个人,就不属于个人信息。
比如,一条数据显示张三的孕期可能性高,但并不足以在人群中找出张三是谁,因此把数据分享给其他人不需要向张三单独申请同意,相当于为大数据行业的发展留出了一定空间。
但预测用户的身份特征,尤其涉及到家庭、孕期,让人难以卸下担忧,这样的标签产品足够安全可靠吗?
观韬中茂律师事务所合伙人吴丹君告诉21世纪经济报道记者,尽管个保法未对用户画像和用户标签作出直接规定,但并不意味着可以随意分析,用户画像仍然可能涉及非法收集或交易个人信息。
在2023年北京互联网法院审理的一起案件中,求职者提交的求职期待、学历背景、婚姻状况等用户画像,均认定为个人信息。法院在判决书中尤其强调了多种数据组合起来的效果:“虽然单独来看未达到识别特定自然人的程度,但在本案的应用场景中,上述信息组合账户名、账户号码,仍可对应到原告这一特定身份的自然人。”
吴丹君说,用户画像的合规关键仍然在于能否指向特定个人。如果属于个人信息,那么交易前需要说明目的、处理方式、数据种类,并取得用户的单独同意才行。
21世纪经济报道记者因此翻阅了三大运营商APP的个人信息保护政策,在共享和交易信息方面,基本采取的是一揽子授权。中国移动、中国联通的条款写道平台分析和使用用户画像,无需得到用户许可。
TalkingData总法律顾问兼数据合规官葛梦莹向21世纪经济报道记者指出,目前的法律法规的确没有限定,某类内容是绝对禁止数据分析的。不过《APP违法违规收集使用个人信息自评估指南》特别指出,如果将个人信息用于用户画像,需要明确说明应用场景以及对用户产生的影响。记者同样未在运营商APP的用户协议中看到相关说明。
在一位不愿具名的数字法学者看来,通过用大数据去预测用户社会身份,或者给用户的家庭、孕期等身份特征标签打分,涉及人格尊严和人身安全等核心利益,甚至有可能被划分为敏感个人信息。如果属于敏感个人信息,这套数据交易则更加难以考过“合规线”。
大数据变现 运营商的纠结与混乱
进一步深究,在合规边缘游走,运营商的一部分挑战来自组织管理。
在过去五年中,浙江移动大数据中心负责数据管理的傅一平反复提到一个难题:集中化运营。
一直以来,运营商数据都是分省运营、分省隔断,背后的逻辑不难理解:对于传统业务“办卡办宽带”,将数据和销售队伍下沉于各省市,能够小步快跑,灵活扩张。但大数据开发要求集中技术、人力、数据,“撒胡椒面”式的传统组织结构便不再合适。
傅一平曾经举了一个现实例子,“如果金融客户找中国移动合作(手机号)验真业务,要一家家谈。运营商可是有90多个独立的经营单位,哪家全国客户都受不了跟90多家省公司去谈一个验真业务,这些运营单位也不大可能都有对应的大数据运营组织,并打造与之配套的流程、人员和产品体系。”
正因如此,电信、联通较早就建立了集团层面的大数据公司,统一对外数据变现。而覆盖了10亿客户的运营商“老大”中国移动,可谓巨轮掉头难——公开资料显示,中国移动直到2018年才正式官宣中移信息技术有限公司,专门推进大数据服务,并且2021年才推出大数据品牌“梧桐大数据”。
前述移动内部人士就职于某中部省级移动公司,根据他的解释,“梧桐大数据”拥有全国数据,省公司如果需要跨省数据,需要向集团申请接入梧桐大数据,可以自己开发数据产品,也可以用集团分发的数据产品。
熟悉三大运营商的技术人士告诉21世纪经济报道记者,直到今天,也只有联通大数据由联通数科统一建设。
中国联通告诉21世纪经济报道记者,公司的大数据集中存储,数据业务统一受理,也就是说任何业务需求都需要通过集团平台统一评估和处理,以此减少各地人员素质参差、合规标准不同的局限。
而据前述技术人士透露,中国移动可以说是在集中式和分布式中摇摆,目前采取是两级管理制:集团掌握全国数据,授权数据使用,省公司自行制定标准。天眼查数据显示,中国移动通信集团100%投资的子公司达到36个。这意味着,起码36个省级移动公司和其他专业子公司,都能参与建设大数据产品。
记者看到的婚恋意愿强度模型,分别由中国移动上海有限公司、广州有限公司在两地交易所上架。而幼儿家庭识别分、孕期家庭识别分,目前只有中移上海公司提供。
截至发稿,中国移动未回复21世纪经济报道记者的问询。
“满足公司的研发指标吧,让报告好看一点。”前述移动内部人士看到幼儿家庭识别分产品时,第一反应是发出如此感慨。他无奈地解释,自己所在省公司的研发部门,每年就有一定的产品开发指标。
在这种模式下,地方公司的一线业务人员也背负着销售指标,难免出现动作变形。对于大数据交易而言,无疑意味着更多隐患。