差異一、敏感數據發現與“精確”敏感數據發現
1. 多種內容混合的字段脫敏
2. 無法判別敏感屬性的字段脫敏
其一,對屬于某種集合范圍內、能夠被枚舉概括的數據,可將這些集合全部列出作為數據字典保存;當遇到這類“落到字典中”的數據時,即可以此辨別其是否為敏感數據。例如:中國的省市區劃、企業和機構的行政部門、股票證券行業的上市公司代碼等,均可通過此類邏輯進行敏感數據發現。
差異二、數據脫敏與“高度仿真”數據脫敏
1. 內容仿真
例如:在某制造行業中,對于制成品的批次號需要進行脫敏,但批次號是由生產日期、車間號、流水線號和操作者相關信息共同組成的,這種行業級的數據顯然已超出一般數據脫敏產品內置規則的默認范圍,這時就需要安全廠商的數據脫敏產品能夠對數據按位數進行切分,并基于切分的結果對各段配置脫敏規則。比如:對于日期段,可采用標準的日期脫敏規則;對于車間號、流水線號這種有范圍的數據,要能基于數據字典進行脫敏;最終還要將各段組合成完整的脫敏后數據。
2. 區間、比例仿真
例如:金融行業客戶需要對儲戶的儲蓄金額進行分析,但若拿到的脫敏后數據與原始數據相差過大,將會導致統計分析結果大大失真,因而需要脫敏產品的算法能夠將金額數據劃分區間長,并能以“就近隨機”的方式完成脫敏;而高校客戶在統計生源分布比例時,即便拿到的已是將“北京市脫敏成上海市,天津市脫敏成江西省”這樣的非真實數據,也還是希望“同一省市生源數據的比例”是不變的等等。
3. 關聯仿真
當身份證號、出生日期、年齡三個字段出現在同一個表中,則天然存在“身份證中間8位數據與出生日期一致,且當前年份減去出生日期即為年齡”這一邏輯關系。在這種情況下,就要求脫敏后數據也要保持這種關聯關系,否則在分發到開發測試場景后極易造成業務系統出現邏輯異常;
而在制造行業,一張表中常存在“產品單價、折扣率、實際價格”三個字段,且存在“產品單價x折扣率 = 實際價格”這一邏輯關系。在這種情況下,如果對價格數據進行脫敏,那么要求脫敏后數據仍能保留上述運算關系,這就需要脫敏產品能夠通過表達式精確處理此類行業內特定的數據邏輯關系;
再以證券行業為例,同一張表內常存在“證券號碼、上市地區、企業名稱”等存在對應關系的數據,并且要求在對證券號碼或企業名稱進行脫敏后,三者的邏輯關系依然能夠對應。為此,脫敏產品需要能夠針對多列數據字典,實現精確且保障效率的關聯仿真脫敏運算。
差異三、脫敏運算與“高性能”脫敏運算
其一,是利用數據庫特性完成數據抽取與入庫邏輯。例如:以“數據庫并行加載機制或load機制”替換“通過JDBC讀寫數據”,這種方式會令數據脫敏產品的開發復雜程度大幅提升,但與此同時也會帶來大規模數據脫敏性能的提升。
其二,是數據脫敏產品能夠提供平行擴展的集群化部署運算能力,從而通過擴展運算節點的數量,成倍擴展數據脫敏產品的運算能力。