東網科技:大數據,這樣採這樣用

原標題:大數據,這樣採這樣用

東網科技:大數據,這樣採這樣用

  東北大學東網科技有限公司的超算和雲計算中心。

  本報記者 辛陽攝

  雖然大數據早已不是什麼新鮮詞,而且大家都能說上兩句自己心中大數據的模樣,可一旦細究起來,到底什麼是大數據,大數據從何而來,如何應用,相信不少人就說不清楚了。

  由東北大學、沈陽市政府及戰略投資者共同投資成立的東北大學東網科技有限公司,其超算中心和雲計算中心擁有1170萬億次�秒計算能力、30PB雲存儲空間。目前,東網科技與沈陽市環保局合作,正在通過大數據技術開展大氣環境監測預報。懷揣著對大數據的好奇,記者走訪了這家公司。

  獲取10%的信息量,預測剩余90%,這是小數據﹔而掌握90%的信息量,預測余下的,則是大數據

  在一片尚未平整完畢的荒野中,矗立著一座極具現代科技感的建筑物:深藍色的圓形玻璃幕牆、航空級別的安保設施。此種場景,和美國科幻大片中看到的場景倒有幾分相似。

  經過一系列安保檢查,記者得以進入東網科技的超算中心和雲計算中心,一台台超過2米的黑色機櫃密密麻麻地排列在機房中。“左手邊是超級計算機,右手邊是雲存儲器”,東網科技工作人員許冕介紹說。

  這和大數據有什麼關系?“超算能力和雲存儲就相當於大數據的大腦,是大數據必備的硬件條件”,東網科技總經理楊寶衛打了個比喻。對於東網科技擁有的1170萬億次�秒的超算能力,楊寶衛說,這在目前國內的超級計算機中名列前茅,而30PB則是一個存儲容量,相當於約50萬個容量為64GB智能手機存儲容量總和。

  那到底什麼是大數據?從網絡上查詢,答案五花八門。“針對某一事物,如果了解了10%的信息量,預測剩余的90%,這是小數據,需要抽樣然后概率分析﹔而掌握80%—90%的信息量,預測余下的10%—20%,則是大數據。也就是說,大數據是對某一事物的樣本空間的覆蓋,通過智能分析,對事物進行預測預報”,楊寶衛試圖用最簡單的話來說明他所理解的大數據。

  對於大數據,楊寶衛趣稱為“經驗主義的復活”。過去我們是通過觀察和經驗,經過大腦的分析總結后,指導人類活動,比如一些天象的觀察等。后來,人類發展到一定階段后,信息越來越多,人腦計算不過來,就發明了電腦來幫助處理信息。現在的超算就能夠幫助處理更多的信息,而大數據下的超算,就是通過大量可信賴樣本提供的經驗,對復雜事件進行計算和預測。

  天氣預報就是個直觀的例子。人類能夠進行天氣預報,是因為一個事物通過足夠的數據完全可以在數字世界裡進行虛擬的演化。那麼對天氣預報來說,我們把今天的天氣數據放到電腦裡,在虛擬世界裡模擬天氣的變化。或許超算隻需要10分鐘,就可以預測某地3天后的天氣狀況。

  大數據技術包括數據採集—傳輸—集中存儲—再處理—再應用等過程,其中採集是關鍵

  大數據來自何方,通過什麼途徑我們可以獲取這些數據?不少人直觀的感受是:數據主要來自於互聯網。

  楊寶衛認為,獲取數據目前有三個渠道:第一,來自於互聯網的數據。比如阿裡巴巴的交易數據、百度的查詢數據、騰訊的交流溝通數據,“這些還都是外圍的”。

  第二,來源於政府的數據。這才是真正的核心數據。比如經濟運行數據、人口數據、地理數據、政府服務數據、公共服務數據。

  第三,對原有世界的數據再次採集,這源於我們更多更先進的技術手段採集到更多的數據,這就是如日中天的物聯網。我們要讓每一個物體都是傳感器,時刻在回傳數據,物聯網的發展會極大地豐富數據。

  然而,大數據真正的核心數據——政府所掌握的數據目前大多都處於“死機”狀態,如何激活還有待探索。業內許多專家呼吁,在保証信息安全的基礎上,政府可開放一些並不敏感的數據,實行數據的可交易、資產化,據了解,上海已經開始建設數據交易所。

  楊寶衛認為,大數據技術包括數據的採集—傳輸—集中存儲—再處理—再應用等一系列過程。其中,數據的採集是關鍵。

  “大數據並不是今天做,明天就有,它是台階式的發展。我們目前就在某些領域裡進行數據收集和智能分析,讓它能夠預測預報”,楊寶衛介紹說,比如目前中心與沈陽、本溪合作建設智慧城市,就是把一些相關信息進行集中,同時中心還從事互聯網的一些商業應用。這些都是數據的採集和集中。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzjysw.html