Esri自2013年發(fā)布了GIS tools for Hadoop,正式加入互聯(lián)網(wǎng)大數(shù)據(jù)廠商的行列,至今已經(jīng)3年了。在這3年中風云變幻,業(yè)界技術在不斷的發(fā)生著變更,Esri的大數(shù)據(jù)戰(zhàn)略也在不斷的向前推進。 在剛剛結束的2016Esri空間信息技術開發(fā)者大會上,在IT熱點技術專場的《ArcGIS平臺下的大數(shù)據(jù)挖掘》,與往年相比,發(fā)生了明顯的變化。往年因為Esri自身的原因,將大數(shù)據(jù)限定在空間大數(shù)據(jù)這個領域里面。但是今年很明顯的發(fā)現(xiàn),在ArcGIS的平臺上,已將傳統(tǒng)的空間二字去掉,使得平臺支持的領域更加廣泛。
實際上,地理信息發(fā)展了這么多年,如果說最能與互聯(lián)網(wǎng)大數(shù)據(jù)概念掛鉤的,只有LBS(基于位置的服務)數(shù)據(jù)和遙感影像的數(shù)據(jù)。這兩類數(shù)據(jù)無論是從體量上,還是從生成速度、數(shù)據(jù)結構、維度以及價值密度上,都能夠與互聯(lián)網(wǎng)大數(shù)據(jù)的概念貼合。但是傳統(tǒng)的空間分析乃至于空間數(shù)據(jù)挖掘領域,卻更多是在地理空間統(tǒng)計樣本上進行分析。而且因為空間數(shù)據(jù)的特點,諸如空間自相關、空間異質性等空間統(tǒng)計學與傳統(tǒng)統(tǒng)計學截然不同的概念,使得很多的分析,無法采用互聯(lián)網(wǎng)大數(shù)據(jù)中那些分布式計算的方法來實現(xiàn)。
在Esri中國高級咨詢師盧萌看來,“這一次開發(fā)者大會,從大數(shù)據(jù)的熱炒狀態(tài)中,回歸了地理分析的本源?!?/p>
盧萌在其《ArcGIS平臺下的大數(shù)據(jù)挖掘》講座中談到,地理分析一直是地理信息系統(tǒng)區(qū)別于其他系統(tǒng)最大的不同點。地理信息首先是一個從不一樣的視角來看待整個世界。很多人都說,做地理信息的人,每天都像神一樣,在離地幾百米以上的高空俯視著整個大地。而地理分析讓這個視角更進了一步,不但是從高空俯視著大地,而且通過不同的痕跡,可以讓我們的視野穿越過去未來,在更廣闊的空間和時間線了解發(fā)生了什么事情。
其次,地理學研究的領域是所有領域中最為廣泛的,上至無窮的太空,下至人類所能探測到的最深的地底,都是地理學的研究范圍,很多研究都在改變著我們的生活。這樣一個廣泛的領域構成了一個巨復雜的系統(tǒng),比之這個系統(tǒng)的龐大程度,特別是隨著人類觀察手段的日益提升,互聯(lián)網(wǎng)所謂的大數(shù)據(jù),在它面前,也都是九牛一毛。
在回歸地理分析本源的情況下,盧萌還介紹了新一代技術能夠給地理分析帶來什么。
他認為,首先就是業(yè)界最流行的Hadoop的MapReduce框架進化到2.0之后,對地理分析帶來的價值。本次開發(fā)者大會,首次在GIS領域演示了新一代大數(shù)據(jù)分析框架Spark的應用。
因為傳統(tǒng)的MpaReduce架構對迭代運算的支持很不好,所以很多地理分析都無法運行在其上面,更多的只是在它上面運行諸如過濾、聚合這樣的簡單的空間分析。而新一代的Spark框架,因為其采用了彈性分布式數(shù)據(jù)集(RDD)這一特性,能夠使得在Spark框架上,進行迭代運算的效率,超過傳統(tǒng)MapReduce的百倍以上。這樣,很多的分析算法就能夠直接跑在Spark上面了,諸如空間分析領域中最重要的前提計算步驟:構建空間權重矩陣。利用Spark的優(yōu)勢,完全可以將龐大的空間權重矩陣加載到RDD中,然后每次運算都可以從預先構建的矩陣中快速獲取鄰近要素。這樣就讓很多在以前不可能實現(xiàn)、具有強空間自相關的分析在分布式集群框架上運行了。
據(jù)盧萌透露,未來,Esri的分布式并行計算框架,將慢慢的從MapReduce上轉移到Spark上來。另外作為空間技術的業(yè)界領導者,Esri也致力于推動開源技術的發(fā)展。所以他建議有興趣的朋友可以從GitHub上下載最新的GIS Tools for Hadoop,開始嘗試Spark分析框架在空間分析領域給我們帶來的變化。
盧萌最后還指出,ArcGIS軟件作為平臺級產(chǎn)品,無論是對空間信息技術的支撐,還是對非空間信息的內容進行支撐,都在不斷的進步?!皬奶蕴璙B,將Python作為官方指定腳本,到能夠在平臺中直接引入R語言,都表明了這種趨勢,未來ArcGIS平臺將更加強大,也會有更廣泛的應用?!?/p>