大数据时代的"地理画像"(下)

康德的时空观与新一代时空数据模型

地理画像是使用一系列标签对于地理区域进行描述并进行动态监测的方法,也是时空大数据应用的主要方向。地理画像的核心障碍是数据融合,根本原因在于,传统的时空数据模型已经无法适应大数据时代的应用需求,亟需改变。

康德的时空观与时空信息

德国哲学家康德认为:时间和空间是人类的"先验认知",所谓"先验"就是先于经验的,即还没有任何知识的时候,时空就已经存在每个人的意识当中,人对所有事物的认知要放在时间和空间的框架中来, 时空即成为了所有知识的共同基础,正是这样,人类才能清晰的认知事物之间关系。

引入康德时空观来观察空间信息系统,始终缺少一个统一的基础时空框架来承载所有的数据内容,而是面向具体应用独立定义各自的空间和时间体系,这也是数据融合困难的根本原因。 经纬度坐标系是所有数据的共同基础,但其本质上是一个空间位置参考系统,无法成为数据承载框架。

新一代时空数据模型的基本要求

借鉴康德的时空观,在大数据时代,如果要实现多源异构数据的融合,必须构建一个独立于具体数据的基础框架,才能够实现数据之间的融会贯通,可以称之为新一代的时空数据模型,需满足以下几个条件——

第一、 具有全局性和独立性

所谓全局性,有两个含义,第一个可以作为承载所有类型数据的共同框架,第二个是成为跨越数据集之间的全局索引。

所谓独立性,是指独立于具体的数据内容而存在,不依赖特定的数据类型。

第二、 继承传统GIS数据

新的时空数据模型需要兼容和继承传统GIS数据,可以方便调用、抽取和整合数据。

第三、 适应各类传感器数据

新的时空数据模型需具备组织、管理和调度传感器数据的能力。传感器数据是时空大数据的主要来源,包括遥感数据、各类监测传感器和泛物联网数据。

第四、 具备时空一致性和稳定性

时空定义模式要保证不同时空尺度下时空定义的一致性和稳定性,使时空范围可以作为数据汇聚和融合的线索。

第五、 适应大数据IT架构

数据模型需要适应分布式计算、分布式存储和机器学习。

第六、 普适性

时空属性是所有数据的共同特征,新的时空数据模型可为任意类型的数据添加时空标签。

时空信息网格:新一代时空数据模型的探索

通过以上分析可知,时空大数据需要新的数据模型以应对诸多挑战,多年来,国内外的专家学者和企业都在进行着不同方向的研究和探索, 新的理论架构、应用模式和相关技术层出不穷,切实推动了时空大数据的进展。

云游九州团队经过了大量的学习和研究之后,总结出一套新型时空大数据理论框架,并在其基础上设计了技术架构。

基础理论框架

(1)将需要认知的空间划分为多级网格体系,上下级之间有层级关系,可以拆分与合并,每一个网格有一个固定的编码;

(2)空间范围可以是全球范围,也可以是一个局部。

(3)将网格作为数据承载、检索和分析的基本单元,根据不同的尺度选择不同层级的网格单元,每条网格信息保存为数据库中的一条记录;

(4)在空间维度上,可以是二维平面空间,也可以是三维立体空间;

(5)在时间维度上划分时间网格,作为空间网格的一个属性内容。

时空数据模型应用方法概要

(1)在指定的空间范围内,指定一套统一的时空网格规则;

(2)用网格集合定义所有的空间范围;

(3)将所有的空间数据按照统一网格体系进行存储和管理,传统矢量数据进行网格化处理,传感器数据直接保存为网格数据

(4)以网格为单元进行数据检索、数据调度和空间分析。

网格数据模型的特点

(1)数据离散化,空间信息融入IT

网格数据模型中,每个网格代表一个空间范围,在计算机中保存为一个编码,利用网格集合定义空间范围,摆脱了空间数据对地图的依赖, 消除了空间信息和非空间信息之间的差别,任何数据加一个编码即可定义空间范围。实现了数据的逻辑离散化,适合机器学习和大数据分析,空间信息融入IT。

(2)多源异构数据归一化,消除了不同空间信息之间的差别

将所有空间数据的组织模式统一为网格,实现了数据的归一化,各种空间数据都可以用统一的网格模型来描述。网格中的像素值就是遥感, 网格中的实时数据来源于物联网,网格中的土壤信息、高程信息、人口信息等等来源于传统GIS。

(3)保证对象的一致性,可作为空间数据融合线索

网格模型可以避免了手工划定区域带来的不一致性,数据精度可以用不同网格级别来确定。不同级别的网格具有明确的层级关系,进行大数据分析时, 研究区域用某一级别的网格来定义,数据融合即可按照网格编码到不同的数据库中筛选和提取数据。

以新理论为基础的工程实践

以上新理论的提出,融合了国内外众多学者的思想,其可行性需要在实践中检验。云游九州团队基于新理论进行了技术框架设计,面向具体应用进行了底层引擎和应用产品研发,取得了一定成果,验证了基础理论的可行性。

核心技术底层:空间网格引擎

空间网格引擎(Spatial Grid Engine)是我们的核心技术底层,主要实现网格定义、数据索引、数据调度,向下对接数据存储,向上为应用提供数据服务。根据应用需要,可以定义不同的网格规则。

一代产品研发:汇影云储——遥感数据智能存储一体机

基于新的时空数据模型设计,我们首先将相关技术路线应用到遥感影像的数据组织、管理和服务上,开发完成了汇影云储——遥感数据智能存储一体机。该产品为软硬一体化设计, 集成了经过优化的硬件、操作系统、数据库和专用软件,实现了"存入即管理、数据即服务、所得即所需"的海量遥感数据的高效管理模式, 在数据和应用之间搭建了快速通道,可以实现高效时空检索、免切片无缝浏览、在线裁剪和在线分析的新型应用模式。

该产品的研发成功,验证了技术路线的可行性,空间网格引擎(SGE)发挥了预想作用,在开发过程中进一步丰富了基础理论内容,提升了对时空大数据的认识和理解。

二代产品规划:以空间数据仓库技术为核心

第二代产品的目标是面向更广泛类型的数据源,实现数据抽取、组织、存储和服务,支持多源数据融合与大数据分析,包括传统矢量数据、信令数据、泛物联网数据等。

多源异构、时空密集是时空大数据的基本特征,数据融合需要进行归一化处理,即按照规则对原始数据进行自动化的抽取和重新组织,以便支持按主题汇聚融合数据, 这种数据处理过程与"数据仓库"概念相同,所以我们将其定位为"空间数据仓库"技术,并围绕其进行技术研发。

数据仓库:事务处理和分析处理具有极不相同的性质,要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离, 必须把分析型数据从事务处理环境中提取出来,按照决策支持系统(DSS)处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术,数据仓库在空间数据库上表现

继往开来,时空大数据任重道远

时间和空间是人类认知世界的基本框架,在此方向上的研究和探索,古今中外经久不息。大数据在任何领域的应用, 都无法避免时空维度的数据分析,究竟什么才是适应大数据、机器学习和人工智能的时空大数据模型,还需要相当长时间的探索和实践,任重而道远。

我们对时空大数据的思考,来源于对多位专家学者研究成果的学习和解读,并在技术产品设计和研发过程中不断总结而得出,是否能够解决现存的若干问题尚不得知, 仍需要进一步的深入研究和实践,也希望能够与更多的学者、用户和合作伙伴一起共同探究时空大数据的真谛。