大數據的應用與解決方案淺析
來源:電腦知識與技術雜志 更新時間:2013-12-17

 
從身邊的信息認識大數據。分析了大數據應用的現狀,認識典型的應用領域。分析了大數據解決方案地現狀,指出了面對大數據解決方案所遇到的問題,并通過剖析成功案例闡述了大數據與云計算之間的聯系以及解決方案中不同于分布式架構的特點,表明觀點:大數據解決方案不同于云計算解決方案,它應當兼顧整合與集中的特性。
    1.認識大數據

  相信大家都還記得2013年5月10日淘寶十周年晚會上,阿里巴巴集團董事局主席馬云在其卸任集團CEO職位的演講中說到:“大家還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了。”

  什么是大數據?

  早在1980年,當時著名的未來學家阿爾文·托夫勒便在其著作《第三次浪潮》中熱情洋溢地將大數據贊頌為“第三次浪潮的華彩樂章”。不過直到時光抵達2009年,“大數據”才開始成為互聯網信息技術行業的流行詞匯。

  環顧四周,我們都已經切身感受到了當今的信息量正在以前所未有的速度膨脹。當我們的普通民眾在上世紀90年代剛剛接觸個人計算機的時候,1MB的磁盤,1GB的硬盤已經是不錯的配置。然而現在呢?GB、TB都已經無法滿足我們丈量數據大小的需要,PB、EB、ZB已經義無反顧地承擔起了丈量數據的大任。

    隨著互聯網自媒體的普及,每天都有數以億計的人在發微博、寫微信、更新個人主頁、使用社交網站、發表個人評論……全球互聯網上每天會有220萬TB的新數據產生,90%的數據都是在過去的24個月內創造出來的,如今,這個比例還在不斷上升。

   在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中,他們對大數據的表述是:大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。他們對大數據的特性進行了歸納,提出了4V特點,即Volume(數據量大)、Velocity(要求實時性強)、Variety(數據的種類多樣)、Value(數據是有價值的)。

  而《互聯網周刊》則認為“大數據”的概念遠不止大量的數據和處理大量數據的技術,或者所謂的“4V特點”之類的簡單概念。

  大數據是涵蓋了人們在大規模數據的基礎上所能做到的事務,而這些事務在小規模數據的基礎上是無法實現的。換句話說,大數據讓我們能夠以一種前所未有的方式,通過對海量數據進行分析,獲得具有巨大價值的產品和服務,或者深刻的洞見,進而最終形成變革世界的力量。

  2.大數據應用的現狀分析

  最早提出世界已經迎來“大數據”時代的機構則是全球知名的咨詢公司——麥肯錫。麥肯錫在其研究報告中指出:數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。

  大家都或多或少地意識到應該能從這些海量的數據中獲取些什么,然而究竟我們能獲取到什么呢?

  一個被廣為傳播的典型案例是:在2012年初美國的一家Target超市,一位憤怒的父親突然闖進來對店鋪經理咆哮道:“你們竟然給我17歲的女兒發嬰兒尿片和童車的優惠券,她才17歲啊!”經理下意識地認為是店里出了問題,也許是誤發了優惠券,于是立即向這位父親道歉。然而經理卻沒有意識到,其實這是公司正在運行的一套大數據系統得出的分析結論。

  Target會從其會員的購買記錄中去了解該顧客的性格、類別等一些列業務活動。上面的例子正是Target為適齡女性創建的一套懷孕期變化分析模型,如果相關客戶第一次購買了嬰兒用品,系統將會在接下去的幾年中根據嬰兒的生長周期向顧客推薦相關的產品,從而培養和提高客戶的忠誠度。

  果然,一個月后,該名憤怒的父親打電話給商鋪道歉,因為Target發來的嬰兒用品優惠券不是誤會,他的女兒確實懷孕了。

  利用數據挖掘用戶的行為習慣和喜好,在凌亂紛繁的數據背后發掘出更符合用戶興趣和習慣的信息、產品和服務,并對這些目標化的信息、產品和服務進行針對性地調整和優化,這便是大數據能帶給商家最誘人的價值之一。

  隨著社交網絡在人們生產生活中地位的快速提升,大量UGC(User Generated Content用戶自生成的內容)進入互聯網,上述價值的實現也變得越來越明顯。

  事實上,全球IT業巨頭都已經意識到數據的重要意義和“大數據”時代的到來。包括IBM、EMC、惠普、微軟在內的全球知名跨國公司都陸續通過收購與“大數據”相關的廠商來實現技術整合。

  目前典型的大數據應用領域有:

  商業智能。例如:用戶行為分析,即結合用戶資料、產品、服務、計費、財務等信息進行綜合分析,得出細致、精確的結果,實現對用戶個性化的策略控制,這在營銷網絡的流量經營分析中占有越來越舉足輕重的地位。個性化推薦,即在各類增值業務中,根據用戶喜好推薦各類業務或應用,這已成為運營商和門戶提供商服務用戶的一個最有效方式之一,比如應用商店的軟件推薦、IP?TV視頻節目的點播推薦、購物或旅游網站的猜你喜歡等。

  公共服務。一方面,公共機構可以利用大數據技術把積累的海量歷史數據進行挖掘利用,從而提供更為廣泛和深度的公共服務,如實時路況和交通引導;另一方面,公共機構也可以通過對某些領域的大數據實時分析,提高危機的預判能力,如疾病預防、環境保護等,為實現更好、更科學的危機響應提供技術基礎。

  政府決策。通過對數據的挖掘,從而有效提高政府決策的科學性和時效性。例如:日本大地震發生后僅僅9分鐘,美國國家海洋和大氣管理局(NOAA)就發布了詳細的海嘯預警。并且隨即NOAA通過對海洋傳感器獲得的實時數據進行了計算機模擬,制定出詳細的應急方案,并將制作的海嘯影響模型實時發布在了YouTube等網站上。

  3.大數據解決方案的現狀分析

  以往談及大的數據通常用來形容一個公司創造的大量非結構化和半結構化的數據。如今把“大數據”作為一個專有名詞提及,通常指的是解決問題的一種方法,即通過收集和整理生產生活中方方面面的數據,然后對其進行整理、挖掘、分析、處理,進而從中獲得有用的價值信息。這種衍化出的新的商業模式即為通常意義上的大數據解決方案。

  雖然通常意義上的大數據解決方案描述了一種通常的行為,但要實現這種通常的行為,往往會遇到諸多技術和硬件上的問題。一個顯而易見的問題就是:大數據包絡萬象,而且像音頻、文本信息、視頻、圖片等非結構化數據正以突飛猛進的速度增長,加上移動互聯網的普及所帶來的如位置、生活信息等富含價值的數據,現有的,或者傳統的對數據的處理手段和硬件配置已越來越跟不上數據發展的步伐。

  于是革命爆發了!

  哈佛大學社會學教授加里·金就說道:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”

  數據需要存儲,存儲需要設備,存儲設備的容量和可擴展性以及讀取的速度成為了一大問題(容量問題);大數據不是一日而成的,往往都需要一定周期的積累,在數據的積累過程中,以前的數據和現在的數據在存儲上應該是能保持一致的,無論設備升級與否,而且這些數據要長期有效,這是一個持久的問題(積累問題);與持久相對應的,互聯網是變化的、經濟活動是變化的、整個世界都是變化的,針對某些實時問題,如交易、金融等,用已經過去的數據顯然是不合適的,這也是一大問題(延遲問題);大數據包絡萬象,有些是可以隨意獲得、發布和消除的,有些,如金融數據、醫療信息、政府情報等,則是需要按不同級別進行保護和加密的,特別是在需要交叉數據參考的應用中,不同部分的數據有著不同的安全需要,這又是一大問題(安全問題);為了滿足上述問題,我們顯然可以通過不斷加大投入,購買更多的存儲設備、雇傭跟多的工作人員、建設更多的數據中心和分析中心,但這一切都是由成本的,特別是對于以盈利為目的的商業機構而言,成本和收益永遠都是最優先考慮的問題之一(成本問題);當然還有很多其他的問題,這里就不一一羅列了。

  驅動商業機構解決上述問題的動力肯定是商業利益。以全球知名的IT制造與服務和咨詢提供商IBM為例,其全球CEO調研顯示,唯有在數據獲取、將數據轉換為洞察力、再將洞察力轉化為行動力等方面表現優秀的企業,才能有持續的績效表現。績效突出者從海量數據中挖掘出有價信息的能力是績效不佳者的2倍。

  IBM認為由于當今企業、市場、社會、政府之間的聯系變得越來越緊密,傳統的數據分析正日益呈現出“大數據”時代的新特點,即容量要求更高、速度要求更快、數據類型多樣和數據來源復雜4個方面。結合多家領先市場咨詢機構的調研數據顯示:

  2010-2015年,“大數據”市場年均符合增長率為39.4%,將是整個信息與通信技術市場增速的7倍;管理及維護數據的成本將是購買存儲設備所需成本的4倍;全球數據量的年均復合增長速度為59%;未來需要分析的信息源中,混合類型數據所占比重將高達85%;數據分析直接受到服務器性能制約的數據量將占到總體的87%;僅2012年一年,服務器在整體“大數據”市場投資中就將占去14%的比重。

  這就意味著傳統計算的低效正在為企業發展帶來阻礙,企業感到當前的IT系統變得更加復雜且難以管理。數據顯示:企業用于運營和維護IT系統的費用已經超過整體預算的70%,并且這一比例仍在持續增長;企業有三分之二的IT項目及解決方案部署超出了原定計劃;IT架構的復雜度將以當前速度每兩年就增加一倍。

  于是出乎絕大多數人意料的事情發生了:IT部門,這個曾經作為企業現代化和創新化能力標志的部門,正越來越成為企業新創新的阻力而非動力。

  怎么辦?

  很多人立即想到了另外一個熱詞:“云計算”。

  IBM全球高級副總裁Rod Adkins認為,當前全球IT領域有了令人振奮的發展趨勢和挑戰,現在每天有大量數據和信息生成,這為大數據分析提供了機會;數據中心的挑戰也為IT提供了新機會,比如云計算,能降低數據中心成本。

  EMC資深產品經理李君鵬認為,大數據本身就是一個問題集,云技術是目前解決大數據問題集最重要有效的手段。云計算提供了基礎架構平臺,大數據應用在這個平臺上運行。目前公認處理大數據集最有效手段的分布式處理,也是云計算思想的一種具體體現。Teradata技術總監Stephen Brobst則表示,公有云架構對數據倉庫沒有影響,因為企業的CIO不會無緣無故把財務數據或者客戶數據放到云上,那樣很危險。然而,是私有云架構確實有影響:第一,通過私有云,可以鞏固數據集市,減少利用率不足的問題;第二,可以通過靈敏的方式將數據集成,實現業務價值。

  于是有人就此理解為:大數據的最佳解決方案是采用云計算和分布式處理,利用互聯網將運算能力、存儲能力都做分布式的處理,認為這樣做就可以最大程度上地降低成本、增加擴展性和靈活性。

  然而事實真的如此嗎?

  讓我們來分析一下最近IBM公司在國內針對百萬人口的城市級信息中心制定的解決方案:

  面對數量龐大且增長迅速的各類交通信息:120萬輛機動車電子卡、4萬輛機動車的實時GPS定位、200萬筆公交IC卡數據、518個高清卡口的113億張圖片等,該市信息中心的領導意識到,當前多個項目能源消耗大、占地要求非常高、并且原有的網絡設備難以滿足新增的需求,網絡設備經常更換,并且這些相互獨立的數據庫、服務器和存儲,以及不同的訪問權限和沒有統一的管理界面,讓本就壓力巨大的數據中心的效率大打折扣,同時也極大浪費了寶貴的人力、能源和其他各種資源。

  IBM給出的解決方案是:

  首先,在基礎平臺上摒棄了分布式的服務器架構,而是采用大型服務器在基礎架構上對處理能力、I/O吞吐和主存儲進行了整合,這樣做的最大亮點是,將原有成百計的分布式服務器整合到了個位數,極大地節省了空間和能源,做到綠色環保;因為不用考慮各分布式服務器之間的互通互聯和各服務器之間的狀態及負載均衡與調配,節省了相當數量的管理人員;另外大型服務器自身端到端的管理功能和適用于異構工作負載且基于策略的框架,有效幫助信息中心實現中心控制,實現極高的性能。

  其次,在整合的基礎平臺之上,采用“云計算”框架虛擬化設計,實現了智能交通和政務網站的整合。這一方案讓用戶在使用上可以享受與分布式架構相同甚至更加優越的性能。由基礎平臺通過虛擬化形成的任意數量的虛機,在統一云管理軟件URM的配置下,能夠提供統一的管理視圖和管理機制,簡化在多套異構業務系統環境下系統的運營和維護工作。

  而在本方案中的存儲部分則采用了運行穩定、性能領先、技術成熟的SAN網絡架構,具有很好的穩定性,能為前端各應用提供可靠的數據存儲平臺,并且整個SAN網絡中的部件都配置了雙冗余組件,保證任一部件的損壞不會影響整個系統的運行,而關鍵數據庫的數據都通過合理的備份策略,定期備份在了物理磁帶上,保證關鍵數據的絕對安全。

  總結下來,整合的基礎平臺,“云計算”框架的虛擬化設計,和定制化的高速存儲,打造出了最穩定、最可靠、最安全、最綠色的運行環境,讓政府的大數據應用完美落地。

  可見,大數據的解決方案不同于純粹云計算的解決方案,雖然云計算帶來了看上去更便宜的處理能力和存儲能力,但對于往往都有相當數量級規模的大數據應用而言,在基礎架構上巧妙地整合和部分的集中,反而能更好地解決安全性、可靠性、穩定性和綠色環保的需要。

  4.結束語

  大數據為云計算大規模與分布式的計算能力提供了應用的空間,解決了傳統計算機無法解決的問題,海量的數據需要足夠存儲來容納它,快速、低廉、綠色的數據中心將成為這一切的關鍵。

  然而大數據并不意味著整合的、集中式的服務器架構已走向了末路,相反,大數據所帶來的規模效應,使得我們越來越需要更加高效可靠的大型整合的混合負載服務器,巧妙地整合和適當的集中,將成為大數據解決方案里重要的一種思想和方向,特別是針對關鍵行業的核心數據,高安全、高可靠、高穩定將始終是使用者的首要考慮。



铁牛视频app下载苹果-铁牛视频app下载地址-铁牛视频app破解版ios