面對大數據審計,如果一味沿用傳統的關系型數據庫審計則會出現“水土不服”的問題。在一系列針對大數據審計的項目落地過程中,安華金和總結發現:
1.以操作類型為視角的統計在很多場景不再實用,如HDFS下的數據庫語句實際上是對文件系統的操作命令ls、cp等;
2.由于大數據存儲節點眾多,故數據訪問端口范圍的不確定性也隨之而來,傳統數據庫審計對“IP+端口”的數據模型已不再適用——大數據審計一般都采用動態的端口范圍,而且范圍較大,如某項目現場的Hive端口數量30+;
3.語句模板難以用SQL方式翻譯,在關系型數據庫審計中,語句模板機制能夠很大程度上減少語句的記錄量,業務審計采用模板方式也大大提高了統計和分析的價值;但在大數據應用下,同樣的方式將難以繼續此種業務呈現;
4.業務化語言無法匹配,關系型數據庫的業務化語言翻譯不再適用于大數據時代。
上文所提到的“大數據審計”,共有兩層含義:
第一層:對使用大數據存儲業務數據的“數據庫”的審計;
第二層:對大量業務產生的審計數據,以大數據方式存儲。
前者的本質在于數據庫的審計,后者的核心在于審計數據結果的處理。
在大數據使用愈發普及的市場背景下,上述兩個方面常常同時出現:一方面,伴隨大數據形態的不斷擴展與業務的逐漸成熟,大數據審計成為剛需;另一方面,海量的審計數據結果需要更龐大的存儲空間及后續統計分析,而這正是大數據的優勢所在,因而演變成為“用一個大數據應用來審計業務系統的大數據”的新局面。
在完成對大數據審計的協議解析后,又該如何呈現更合理的審計結果和統計分析?安華金和的思路是:基于現有數據庫審計“語句、會話、風險”三大視角基礎框架,再結合大數據形態,有針對性地實現審計數據結果的呈現與風險策略告警的能力。此外,被審計數據庫節點的增長以及審計結果數據量的迅速上升,使得審計系統本身也步入了大數據化。
(大數據架構圖)
對于大數據的審計支持能力,安華金和產品在國內具備領先優勢,目前支持的大數據形態包括:Hive、HBase、Sentry、HDFS、Impala、ElasticSearch,以及MangoDB、Redis等非關系型數據庫。
以某省級電信運營商項目為例,安華金和對需求的響應速度及快速交付能力得到客戶的高度認可。運營商先前曾要求某友商給出其所提供應用系統的ElasticSearch大數據庫審計,而友商反饋不具備審計能力,并表示國內尚無產品可以做到。然而當運營商輾轉找到安華金和后,工程師僅用時三周便完成了對友商這套應用系統的大數據審計適配,而且克服了友商“網絡環境故障”、“切換加密方式”等額外困難,一切以業務場景需要和客戶滿意為宗旨。
作為數據安全領域的領跑者,安華金和堅持深耕,不斷挖掘產品新的價值點,正是憑借這種敢于技術攻堅、敢于突破自我的精神,才能打磨出具有領先性和前瞻性的成熟產品,讓大數據審計日趨完善,讓大數據使用更安全。