基于(yú)NoSQL數據庫的(de)空間大(dà)數據

李紹俊,楊海軍,黃耀歡,周芹

1 中國(guó)科學院地(dì / de)理科學與資源研究所,北京,100101
2 環境保護部衛星環境應用中心,北京,100094
3 地圖生活(北京)信息技術有限公司,北京,100015

論文來(lái)源:《武漢大(dà)學學報 · 信息科學版》第42卷 第2期2017年2月

摘要(yào / yāo):基于(yú)關系型數據庫的(de)空間數據存儲與處理是(shì)地(dì / de)理信息系統(geographic information system,GIS)領域的(de)主流模式,但伴随着物聯網、移動互聯網、雲計算及空間數據采集技術的(de)發展,空間數據已從海量特征轉變爲(wéi / wèi)大(dà)數據特征,對空間數據的(de)存儲和(hé / huò)管理在(zài)數據量和(hé / huò)處理模式上(shàng)提出(chū)了(le/liǎo)新的(de)挑戰...

關鍵詞: 空間數據庫,大(dà)數據,NoSQL數據庫,分布式存儲

新技術的(de)發展給空間數據存儲與管理又提出(chū)了(le/liǎo)新的(de)挑戰。物聯網、移動互聯網和(hé / huò)雲計算技術及應用的(de)蓬勃發展,使得空間數據在(zài)數據量和(hé / huò)應用模式上(shàng)發生了(le/liǎo)轉變;此外,傳感器技術的(de)發展,使采集數據的(de)空間分辨率和(hé / huò)時(shí)間分辨率顯著提高,導緻所獲取的(de)數據規模成指數級快速上(shàng)升,面對動辄以(yǐ) TB(trillionbyte ),甚至PB(petabyte)計的(de)數據,也(yě)給空間數據存儲和(hé / huò)處理帶來(lái)巨大(dà)的(de)壓力。

傳統的(de)基于(yú)關系型數據庫的(de)空間數據存儲與管理已經無法滿足大(dà)數據存儲和(hé / huò)處理的(de)實際應用要(yào / yāo)求,随着互聯網領域雲技術、非關系型數據庫技術的(de)迅速發展,各種分布式 GIS技術的(de)研究成爲(wéi / wèi)研究熱點。本文主要(yào / yāo)着眼于(yú)空間大(dà)數據的(de)存儲與管理,首先分析了(le/liǎo)傳統集中存儲模式在(zài)大(dà)數據存儲方面的(de)局限性;然後,針對互聯網領域大(dà)數據的(de)成功解決方案,研究當前主流 NoSQL數據庫的(de)特點,分析其在(zài)處理空間數據時(shí)的(de)優勢與不(bù)足;最後,針對這(zhè)些需求和(hé / huò)存在(zài)的(de)問題,本文提出(chū)空間大(dà)數據分布式存儲與處理策略,并在(zài)原型系統中進行試驗驗證。

1 空間數據存儲技術現狀

基于(yú)成熟的(de)關系型數據庫設計空間數據引擎,集中存儲和(hé / huò)管理空間數據是(shì)當前應用的(de)主流模式。

1.1 空間數據集中存儲模式及其局限性

從空間數據引擎和(hé / huò)關系數據庫與應用程序結合的(de)緊密程度來(lái)看,可以(yǐ)将空間數據引擎的(de)體系結構分爲(wéi / wèi)内置模式、三層結構模式和(hé / huò)兩層結構模式,這(zhè)些集中存儲模式很好地(dì / de)解決了(le/liǎo)海量空間數據存儲和(hé / huò)管理的(de)問題。

目前,各種地(dì / de)理空間信息獲取手段多樣、數據規模巨大(dà)、更新頻率快、數據應用現勢性強。傳統的(de)空間數據集中,單一(yī / yì /yí)的(de)存儲方式不(bù)能滿足大(dà)數據高并發甚至高時(shí)效的(de)應用要(yào / yāo)求,空間數據從海量特征轉變爲(wéi / wèi)大(dà)數據特征對存儲技術的(de)要(yào / yāo)求主要(yào / yāo)表現如下

  • 1)存儲對象的(de)變化。關系型數據庫不(bù)擅長處理大(dà)量位置相關的(de)視頻、音頻、圖片等數據。
  • 2)存儲能力的(de)擴展。在(zài)容量上(shàng),傳統關系型數據庫難以(yǐ)維護動辄千萬級别的(de)二維表,且存儲能力的(de)橫向擴展也(yě)非常困難。在(zài)性能上(shàng),由于(yú)需要(yào / yāo)維護數據的(de)完整性、一(yī / yì /yí)緻性,數據存儲的(de)性能受到(dào)很大(dà)影響。
  • 3)并發訪問能力。關系型數據庫區别傳統文件的(de)最大(dà)優勢在(zài)于(yú)其對數據的(de)多用戶并發訪問能力,但在(zài)雲服務、互聯網等應用領域,用戶的(de)并發量要(yào / yāo)求是(shì)關系型數據庫無法滿足的(de)。

1.2 基于(yú) NoSQL的(de)空間數據單一(yī / yì /yí)存儲模式優勢與不(bù)足

在(zài)互聯網領域,基于(yú)非關系型數據庫的(de)NoSQL數據庫技術已經得到(dào)成功應用。從數據存儲的(de)角度來(lái)說(shuō),NoSQL數據庫非常适合空間大(dà)數據的(de)存儲,但互聯網領域的(de)應用模式與 GIS領域存在(zài)一(yī / yì /yí)定差異,由此産生的(de)局限性主要(yào / yāo)包括如下方面

  • 1)數據操作方式的(de)局限性。在(zài)空間數據庫中對數據的(de)修改是(shì)常用操作,但 NoSQL數據庫一(yī / yì /yí)般不(bù)建議對數據進行修改,不(bù)慎重的(de)修改操作甚至會因爲(wéi / wèi)引起相關存儲數據的(de)大(dà)量遷移而(ér)導緻性能急劇下降。
  • 2)數據查詢方式的(de)局限性。基于(yú)空間數據的(de)各種專題圖展示能力以(yǐ)數據庫的(de)查詢能力爲(wéi / wèi)重要(yào / yāo)基礎,需要(yào / yāo)按圖層的(de)屬性信息提取數據,因此基于(yú)數據庫的(de)按字段查詢、排序、統計等功能是(shì)重要(yào / yāo)基礎。NoSQL數據庫提供的(de)查詢能力非常有限,MongoDB也(yě)不(bù)能滿足 GIS常用查詢的(de)需要(yào / yāo)。
  • 3)單一(yī / yì /yí)空間索引算法或技術的(de)局限。類似關系型數據庫,空間數據的(de)索引技術是(shì)空間數據存儲技術的(de)重要(yào / yāo)研究内容,但有一(yī / yì /yí)定局限性。在(zài)大(dà)數據應用環境下,應該考慮把空間索引技術從算法層面提升到(dào)方法策略層面,才能解決空間數據的(de)高效檢索問題。

本文綜合 NoSQL數據庫和(hé / huò)關系型數據庫各自的(de)優勢,提出(chū)一(yī / yì /yí)種混合的(de)空間大(dà)數據分布式存儲策略,既滿足大(dà)數據存儲的(de)需要(yào / yāo),又能滿足傳統GIS應用的(de)需求。

更多内容請點擊下方的(de)PDF下載