数据泄露溯源-数据水印原理

什么是数据水印溯源

数据水印溯源系统可实现自动化发现识别源数据中的数据类型，以数据泄露溯源为核心点，通过自行研发创新复杂性算法，结合密钥，将水印增加至数据库，增加的水印具有高仿真性及隐蔽性，可以保证开发、测试、培训以及大数据利用类业务不会受到水印的影响，同时也可用于为数据交换、数据分析等第三方数据应用场景提供适用的敏感信息泄露后的溯源。当发生数据泄露时，用户可以迅速查到数据是谁泄漏的、什么时间泄漏的、泄露了什么。

数据溯源逻辑：

数据库水印溯源系统是将水印信息隐藏在数据库表中，包括水印嵌入算法和水印提取算法。
水印嵌入端：企业或组织机构通过设置水印名称，系统收到指令会自动在内部生成一个密钥，该密钥不可见，生成的密钥控制源数据库通过复杂的水印嵌入算法，将水印信息隐藏到原始数据中，最终得到含水印的数据。
水印提取端：当数据发生泄露后，将所泄漏到目标文件上传到浪潮云数据水印溯源系统，系统对该数据通过复杂的水印提取算法，可提取出对应的密钥，从而对应到水印名称、相应作业，进而溯源确定最终的泄露主体，追究责任，进行版权宣示。

具体实现原理：

1) 基于元组修改的水印嵌入算法：实质上，任何水印信息可编码转换成一连串由“0”和“1”组成的比特字符串。针对元组的数值属性（如年龄、时间戳）和类别属性（如身份证号、地址信息等）两种类别，嵌入方法又可再分为两种子类别：

数值属性的嵌入方法：其主要思路是通过一定的规则，修改原始数值的大小而嵌入“0”或“1”两种水印比特。为了保留数据可用性，修改应满足一定的约束条件（如统计特性）。最为简单的方式，是在数值属性值的最低有效位（Least Significant Bit, LSB）进行替换，比如在年龄18（二进制“10010”）最小LSB位嵌入“0”变为18（ “10010”），嵌入“1”变为19（二进制“10011”）。其他可以在小数点后进行嵌入，或者使用不同的量化索引等嵌入机制。
类别属性的嵌入方法：类别属性不能直接修改数值编码，一种思路是嵌入数据库用户不易察觉的字符或标点，比如通过在类别属性值末尾嵌入回车符、换行符表示“0”“1”，以及嵌入不同的空格数量等，常见嵌入规则如表1所示；另一种思路是基于语义的近义词进行嵌入，首先构建关键词的近义词库并确立顺序，嵌入过程根据约定规则嵌入“0”或“1”比特。

表1 数据库类别属性的常见嵌入规则

嵌入规则	水印比特“0”	水印比特“1”
Rule 1	（回车符：/r）	（换行符：/n）
Rule 2	（没有空格）	（一个空格）
Rule 3	（首字母大写）	（首字母小写）
Rule 4	，（全角）	,（半角）

2) 基于伪行/伪列的水印嵌入算法：不同于第一类，该类算法无需修改原有数据库元组，而是首先生成伪行或伪列，然后在新数据中按照一定规则嵌入水印。

伪行水印：先基于元组各项属性的数据类型、数据格式、取值范围的约束条件生成多个伪造的行，然后将水印按前面所述的数值属性或类别属性嵌入规则嵌入水印比特。
伪列水印：伪造新的属性列，包括数值属性列或类别属性列，生成的伪列应尽可能与该关系表的其他属性相关，不容易被攻击者察觉，然后将水印比特嵌入到伪造的新列中。

水印提取是水印嵌入的逆过程，为了提高水印抵抗攻击的能力（鲁棒性），可采取重复嵌入，或者引入纠错编码机制进行嵌入。

数据水印技术特点：

安全性
数字水印的信息应是安全的，难以篡改或伪造。同时，数字水印技术具有较低的误检测率，当数据原内容发生变化时数字水印随之发生变化，从而实现对原始数据变更的检测。

隐蔽性
数字水印的加载在不影响被保护数据正常使用的基础上实现，用户难以察觉。同时可根据具体需求，数字水印在某些特定应用场景中显示内容，从而明确数据当前的使用信息。

鲁棒性
数字水印的鲁棒性是指在经历多种无意或有意的信号处理过程后，数字水印仍能保持部分完整性并能被准确鉴别。

灵活性
数字水印的灵活性是指水印内容容量与设置方式的灵活性。
其中，内容容量是指载体在不发生形变的前提下可嵌入的水印信息量，嵌入的水印信息必须足以表示多媒体内容的创建者或所有者的标志信息。设置方式的灵活性是指显性水印支持配置文字水印的大小、位置、布局格式、字体、颜色、透明度等参数，二维码和图片水印支持配置图像的大小、位置、透明度等信息。

数据水印的应用场景：

办公终端电脑显示数据安全防护场景
主要是指员工在企业内容办公过程中，针对终端电脑的屏幕或者打开的敏感文档数据的过程中动态添加显示或者隐形水印，以起到警示员工注意信息安全，防止员工或者其他人员通过截屏、拍照的形式将企业内部的数据信息泄露到外部。以及在发生数据泄漏后，可根据提取的数据水印标志信息反向追溯到数据泄漏发生时涉及的相关人员信息。

企业内部数据文件全生命周期流转追溯场景
主要是指企业内部关键数据资产的全生命周期流转过程追溯的应用场景。目前很多企业为了保证企业自身的网络信息安全，除了在网络出口部署防火墙等硬件设备以外，还将内部网络区分为生产网和办公网。其中生产网是企业关键生产系统/业务系统/办公系统的服务器部署的网络区域；办公网是员工操作办公终端正常工作的网络。生产网和办公网之间一般是采用逻辑或者物理手段进行隔离的。在这种场景下提前在生产网对关键数据资产嵌入追溯标志信息，利用数字水印追溯技术可以将关键数据资产从生产网交换到办公网以及在办公网不同终端上操作使用的全生命流转周期进行详细的追溯审计。

多媒体数据版权信息保护场景
主要是指数字版权保护。在用户/企业发布的多媒体数据文件中嵌入数字水印版权信息，应用于开放的网络环境下的多媒体数字作品的版权保护，可验证数字产品的版权拥有者、识别销售商、购买者或提供关于数字产品内容的其他附加信息。除此之外，它在证据篡改鉴定，数据的分级访问，数据产品的跟踪和检测，商业视频广播和因特网数字媒体的服务付费，电子商务的认证鉴定，商务活动中的票据防伪等方面也具有十分广阔的应用前景。

数据泄露溯源-数据水印原理

One thought on “数据泄露溯源-数据水印原理”

发表回复取消回复

Related Posts

Data Fabric面向未来的数据管理架构

神秘的SQL AST抽象语法树

最热的十个分布式数据库一定要了解下

One thought on “数据泄露溯源-数据水印原理”

发表回复 取消回复

发表回复取消回复