通過大數(shù)據(jù)分析企業(yè)生產(chǎn)、管理,明確了企業(yè)環(huán)保、安全生產(chǎn)管理的方向,找出應對措施,使企業(yè)的安全環(huán)保風險防控由定性、感覺、經(jīng)驗向定量化、本質(zhì)化、科學化轉變。
一、基本概念
大數(shù)據(jù):大數(shù)據(jù)是指那些數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復雜的數(shù)據(jù)集,這種數(shù)據(jù)集不能用傳統(tǒng)的數(shù)據(jù)庫進行轉存、管理和處理,是需要新處理模式才能具有更強大的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增差率和多樣化的信息資產(chǎn)。
借用Tableau的目標來說明大數(shù)據(jù)的作用如下:
● 使數(shù)據(jù)能被更好地理解
● 與其他工具一道,使企業(yè)能夠把握不斷增長的數(shù)據(jù)流
● 促進數(shù)據(jù)發(fā)現(xiàn)
● 幫助人們進行更好地決策
大數(shù)據(jù)可以概括為5個V, 數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)、真實性(Veracity)。
注意:大數(shù)據(jù)雖然具有5個V的特征,但在實際中一般認為數(shù)據(jù)處理以速度快,真實有價值為目的。至于數(shù)據(jù)量大、類型多的特點,在不影響真實性的前提下,盡可能節(jié)約處理系統(tǒng)資源,簡化數(shù)據(jù)類型。
二、基本工作流程
1. 大數(shù)據(jù)處理之一:數(shù)據(jù)采集
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。如何在這些數(shù)據(jù)庫之間進行負載均衡和分片是需要深入的思考和設計。
2. 大數(shù)據(jù)處理之二:數(shù)據(jù)導入/預處理
雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,另外,在導入數(shù)據(jù)的基礎上做一些簡單的清洗和預處理工作。
導入與預處理過程的特點和挑戰(zhàn)主要是導入的數(shù)據(jù)量大,每秒鐘的導入量經(jīng)常會達到百兆,甚至千兆級別,為此,有些用戶會在導入時采用對數(shù)據(jù)進行流式計算,不但解決了數(shù)據(jù)量大的問題,還為以后的部分業(yè)務的實時計算需求提供基礎。
3. 大數(shù)據(jù)處理之三:數(shù)據(jù)統(tǒng)計/分析
統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。
統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。
4. 大數(shù)據(jù)處理之四:數(shù)據(jù)挖掘
與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預先設定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到預測(Predict)的效果,滿足高級別數(shù)據(jù)分析的需求。
該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,且計算涉及的數(shù)據(jù)量和計算量都很大。目前,常用數(shù)據(jù)挖掘算法以單線程為主,解決實時/近實時需求的數(shù)據(jù)挖掘算法常與云平臺相結合,通過設計合理的并行計算實現(xiàn)應用的高效解決。
5. 大數(shù)據(jù)處理之四:數(shù)據(jù)展現(xiàn)
數(shù)據(jù)展現(xiàn)即可視化(Visualization),是利用計算機圖形學和圖像處理技術,借助于人眼快速的視覺感知和人腦的智能認知能力,將數(shù)據(jù)基本信息、分析及挖掘結果轉換成圖形或圖像在屏幕上顯示出來,可以起到清晰有效地傳達、溝通并輔助數(shù)據(jù)分析的作用。目的是為了數(shù)據(jù)分析更加便捷、知識獲取更加方便。
大數(shù)據(jù)可視化是大數(shù)據(jù)落地的最后一公里,目前,主要的挑戰(zhàn)是數(shù)據(jù)可視化的交互技術,主要包括自動化的過濾技術、概覽+細節(jié)技術、多視圖關聯(lián)協(xié)調(diào)技術等。通過合理的數(shù)據(jù)可視化展示與分析,轉換在具體行業(yè)應用中的分析決策能力,才能把大數(shù)據(jù)應用于具體業(yè)務場景的預測研判。
大數(shù)據(jù)處理
匯數(shù)據(jù)