前段时间,谷歌为了配合“世界地球日”的主题列举了一些使用谷歌数据资源进行研究和决策的实例。比如Doodle、“天窗计划”、通过谷歌地图怎么标注数据保护老虎等等,这些实例主要得益于Google Maps、Google Earth、Panoramio三大地理类产品和谷歌搜索引擎平台及大数据分析技术。看到地图鼻祖对大数据这般玩法,不由让笔者联想到我国地理大数据产业。
Google是硅谷大数据公司四大巨头之一,说Google是大数据时代的开拓者不为过,Google的大数据技术架构一直都是全球互联网企业争相学习和研究的重点。即便是一向以大数据见长的百度地图在前一阵宣布全球化战略时,也不得不说不予谷歌竞争。
谷歌构建了这样的大数据生态闭环:Google大数据架构大致分为数据中心、搜索引擎平台和大数据分析技术,云服务、智能应用服务。BigQuery 和 GAE(Google App Engine)等 Google 自有业务服务器构建了一个大数据生态圈,程序创建、数据收集、数据处理和数据分析等形成了闭环,这种模式值得我们地信产业学习和思考。
硅谷大数据公司大致被分为四类,数据拥有者、数据源;做大数据咨询的;做大数据工具的;做整合应用的。对照我国地理信息产业链的划分,上游数据采集、数据制作;中游平台软件、数据库管理;下游行业应用,数据挖掘与咨询。如此看来,地理大数据的生态体系与硅谷大数据生态体系基本一致,当然,地理数据是任何大数据除自身属性信息外必然含有的位置信息,这个特殊性不容小觑,不过今天我们主要探讨生态模式。
地理数据的“资质”问题
十一年前谷歌地图问世,同年被视为我国地理信息产业发展的元年,一定程度上说,地图的发展可以从侧面反映地理信息产业链的一些情况。到目前Google maps在全球移动地图市场拥有超过 40% 的市场占有率的产品,它几乎标示了全球有互联网覆盖的每个角落,不幸的是Google maps已被“赶”出中国。在国内Google maps经常打不开,即使打开也会遇到地图版本过于老旧等低级问题,在国内产品体验远远无法和百度地图、高德地图比较。
百度地图与高度地图最大的差别在于,百度的地图数据主要靠买,高德地图数据以自己采集生产为主。因为百度首先是一家互联网公司,在2014年才具备甲级测绘资质,而高德是握着“身份证”出生的。这也是为什么百度地图无论在市场占有率、还是用户体验上都一直无法赶超高德地图的原因。高德多年的老竞争对手四维图新,同样具有资质的优势,在做B端地图数据服务上有着相同的优越感。
大数据生态圈与地信产业链对照
在我国地图测绘资质具有严格的管控,国家地理数据属于机密数据,这也是谷歌地图被赶走的原因,某种意义上说我国地理大数据拥有者拼的是资质,对照地理信息产业链上游数据采集者来看,硬件销售的厂商中只有合众思壮、苍穹数码等少数几家企业具有甲级测绘资质,而中海达、北斗星通等并没有,南方测绘集团的测绘资质存在于旗下子公司南方数码科技公司。
这些测绘仪器厂商的产品通常销售给具有测绘资质的测绘工程单位,因此数据拥有者是这些测量单位而不是硬件提供商本身。如此看来产业链上游的硬件供应商并不具有数据优势,而是输在了地理大数据产业的起跑线上。
中游平台软件厂商对应大数据公司的数据工具生产者,在ESRI、超图、中地数码、武大吉奥四家平台厂商中,除国外软件提供商ESRI之外,其他三家均具有甲级测绘资质。下游企业以行业应用为主,对应整合应用型的大数据公司。对于他们来说做项目是公司最主要的业务来源,没有测绘资质将意味着难拿到项目,因此几乎都有。中下游企业主要业务几乎与数据采集无关,但这并没有影响他们的数据来源,更没有影响数据服务业务,如此看来地理大数据服务活跃于地理信息产业链中下游。
通过上中下游企业营收也可以看出一些端倪。中海达、超图软件、数字政通三家上市公司分别代表地理信息产业链上中下游。中海达2015总营收6.38亿,其中90%多为数据采集装备营收,而数据及行业应用解决方案营收0.63亿,不到10%。2015年超图软件总营收4.52亿,其中包括基础平台、应用平台和项目服务。数字政通2015年6.51亿营收都来自应用平台和项目服务。
把上述产业链与大数据生态一一对照,上游硬件厂商、中游平台厂商、下游应用厂商可以算到地理大数据收益的比例约为1:7:10。笔者认为与谷歌大数据闭环最像的是中游的平台厂商,虽然他的大数据绝对产值不如下游企业多,但他既是大数据生态圈中的数据拥有者,也是工具制造者,还是整合应用者。平台厂商不需要在数据采集硬件和团队花费成本,却能通过与行业政府和上游企业合作得到数据积累,又与下游企业一样具有整合应用能力,而独具有平台优势,最容易形成地理大数据生态闭环。
大数据的AI与地理数据的BI
就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用人工智能(Artificial Intelligence,简称AI),进行分析的能力会变得更为关键。
AI的食物是数据,具有数据积累的地信公司正在讨论地理商业智能(GEO-BI),可以看到地信公司想要将手上的地理大数据变的更加智能化的理想。比如ESRI旗下公司智图(GeoQ)产品,超图地图慧产品,地信企业愿意发掘数据价值的理想是好的,但是实际产品与其说是地理商业智能不如说是地图可视化,目前还仅停留在展示阶段,并没有像真正大数据公司一样去挖掘数据,更不要说到AI的阶段。
大数据需要什么样的人才
笔者认为,地理大数据挖掘始终停留在初级阶段的一个原因是人的问题,那么最后一个问题要思考的是大数据公司需要什么样的人,地信企业从业者大多为测绘专业、计算机专业、地信或遥感专业,而在硅谷有一个被吵的很热的高频词汇:数据科学家。这个职位的出现是为了更好的匹配整合应用型公司的需要,数据是 AI 当中不可分割的一部分,而且量越大越好,从数学上来说,数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI 越来越智能。
由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,到算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。