Công nghệ và giải pháp che giấu dữ liệu trong Network Packet Broker là gì?

1. Khái niệm về che giấu dữ liệu

Che giấu dữ liệu còn được gọi là che giấu dữ liệu. Đây là một phương pháp kỹ thuật để chuyển đổi, sửa đổi hoặc che giấu dữ liệu nhạy cảm như số điện thoại di động, số thẻ ngân hàng và các thông tin khác khi chúng tôi đưa ra các quy tắc và chính sách che giấu. Kỹ thuật này chủ yếu được sử dụng để ngăn dữ liệu nhạy cảm được sử dụng trực tiếp trong môi trường không đáng tin cậy.

Nguyên tắc che giấu dữ liệu: Việc che giấu dữ liệu phải duy trì các đặc điểm dữ liệu gốc, quy tắc kinh doanh và mức độ liên quan của dữ liệu để đảm bảo rằng quá trình phát triển, thử nghiệm và phân tích dữ liệu tiếp theo sẽ không bị ảnh hưởng bởi việc che giấu. Đảm bảo tính nhất quán và hợp lệ của dữ liệu trước và sau khi che.

2. Phân loại mặt nạ dữ liệu

Che giấu dữ liệu có thể được chia thành che giấu dữ liệu tĩnh (SDM) và che giấu dữ liệu động (DDM).

Mặt nạ dữ liệu tĩnh (SDM): Che giấu dữ liệu tĩnh yêu cầu thiết lập cơ sở dữ liệu môi trường phi sản xuất mới để cách ly với môi trường sản xuất. Dữ liệu nhạy cảm được trích xuất từ ​​cơ sở dữ liệu sản xuất và sau đó được lưu trữ trong cơ sở dữ liệu phi sản xuất. Bằng cách này, dữ liệu đã được giải mẫn cảm được cách ly khỏi môi trường sản xuất, đáp ứng nhu cầu kinh doanh và đảm bảo tính bảo mật của dữ liệu sản xuất.

SDM

Mặt nạ dữ liệu động (DDM): Nó thường được sử dụng trong môi trường sản xuất để giải mẫn cảm với dữ liệu nhạy cảm trong thời gian thực. Đôi khi, cần có các cấp độ che chắn khác nhau để đọc cùng một dữ liệu nhạy cảm trong các tình huống khác nhau. Ví dụ: các vai trò và quyền khác nhau có thể triển khai các sơ đồ mặt nạ khác nhau.

DDM

Báo cáo dữ liệu và ứng dụng che giấu sản phẩm dữ liệu

Các tình huống như vậy chủ yếu bao gồm các sản phẩm giám sát dữ liệu nội bộ hoặc biển quảng cáo, các sản phẩm dữ liệu dịch vụ bên ngoài và các báo cáo dựa trên phân tích dữ liệu, chẳng hạn như báo cáo kinh doanh và đánh giá dự án.

báo cáo dữ liệu về mặt nạ sản phẩm

3. Giải pháp che giấu dữ liệu

Các sơ đồ che dấu dữ liệu phổ biến bao gồm: vô hiệu hóa, giá trị ngẫu nhiên, thay thế dữ liệu, mã hóa đối xứng, giá trị trung bình, bù và làm tròn, v.v.

vô hiệu: Vô hiệu đề cập đến việc mã hóa, cắt bớt hoặc ẩn dữ liệu nhạy cảm. Lược đồ này thường thay thế dữ liệu thực bằng các ký hiệu đặc biệt (chẳng hạn như *). Thao tác đơn giản nhưng người dùng không thể biết được định dạng của dữ liệu gốc, điều này có thể ảnh hưởng đến các ứng dụng dữ liệu tiếp theo.

Giá trị ngẫu nhiên: Giá trị ngẫu nhiên đề cập đến việc thay thế ngẫu nhiên dữ liệu nhạy cảm (số thay thế chữ số, chữ cái thay thế chữ cái và ký tự thay thế ký tự). Phương pháp che giấu này sẽ đảm bảo định dạng dữ liệu nhạy cảm ở một mức độ nhất định và tạo điều kiện thuận lợi cho việc áp dụng dữ liệu tiếp theo. Từ điển ẩn có thể cần thiết cho một số từ có ý nghĩa, chẳng hạn như tên người và địa điểm.

Thay thế dữ liệu: Thay thế dữ liệu tương tự như việc che giấu các giá trị null và ngẫu nhiên, ngoại trừ việc thay vì sử dụng các ký tự đặc biệt hoặc giá trị ngẫu nhiên, dữ liệu che giấu được thay thế bằng một giá trị cụ thể.

Mã hóa đối xứng: Mã hóa đối xứng là một phương pháp che giấu có thể đảo ngược đặc biệt. Nó mã hóa dữ liệu nhạy cảm thông qua các khóa và thuật toán mã hóa. Định dạng văn bản mã hóa nhất quán với dữ liệu gốc theo quy tắc logic.

Trung bình: Lược đồ trung bình thường được sử dụng trong các kịch bản thống kê. Đối với dữ liệu số, trước tiên chúng tôi tính toán giá trị trung bình của chúng, sau đó phân phối ngẫu nhiên các giá trị được giảm nhạy cảm xung quanh giá trị trung bình, do đó giữ cho tổng của dữ liệu không đổi.

Bù đắp và làm tròn: Phương pháp này thay đổi dữ liệu số bằng cách dịch chuyển ngẫu nhiên. Việc làm tròn bù đắp đảm bảo tính xác thực gần đúng của phạm vi trong khi vẫn duy trì tính bảo mật của dữ liệu, gần với dữ liệu thực hơn các sơ đồ trước đó và có ý nghĩa lớn trong kịch bản phân tích dữ liệu lớn.

ML-NPB-5660-数据脱敏

Mô hình được đề xuất "ML-NPB-5660" cho Mặt nạ dữ liệu

4. Kỹ thuật che giấu dữ liệu thường được sử dụng

(1). Kỹ thuật thống kê

Lấy mẫu dữ liệu và tổng hợp dữ liệu

- Lấy mẫu dữ liệu: Việc phân tích, đánh giá tập dữ liệu gốc bằng cách chọn một tập con đại diện của tập dữ liệu là một phương pháp quan trọng để nâng cao hiệu quả của các kỹ thuật khử nhận dạng.

- Tập hợp dữ liệu: Là tập hợp các kỹ thuật thống kê (như tính tổng, đếm, tính trung bình, tối đa và tối thiểu) được áp dụng cho các thuộc tính trong microdata, kết quả mang tính đại diện cho tất cả các bản ghi trong tập dữ liệu gốc.

(2). mật mã

Mật mã học là một phương pháp phổ biến để giải mẫn cảm hoặc nâng cao hiệu quả của quá trình giải mẫn cảm. Các loại thuật toán mã hóa khác nhau có thể đạt được các hiệu ứng giải mẫn cảm khác nhau.

- Mã hóa xác định: Mã hóa đối xứng không ngẫu nhiên. Nó thường xử lý dữ liệu ID và có thể giải mã cũng như khôi phục văn bản mã hóa về ID gốc khi cần thiết, nhưng khóa cần phải được bảo vệ đúng cách.

- Mã hóa không thể đảo ngược: Hàm băm được sử dụng để xử lý dữ liệu, thường được sử dụng cho dữ liệu ID. Nó không thể được giải mã trực tiếp và mối quan hệ ánh xạ phải được lưu lại. Ngoài ra, do đặc tính của hàm băm nên có thể xảy ra xung đột dữ liệu.

- Mã hóa đồng cấu: Sử dụng thuật toán đồng cấu bản mã. Đặc điểm của nó là kết quả của phép toán bản mã giống với kết quả của phép toán bản rõ sau khi giải mã. Do đó, nó thường được sử dụng để xử lý các trường số, nhưng nó không được sử dụng rộng rãi vì lý do hiệu suất.

(3). Công nghệ hệ thống

Công nghệ ngăn chặn sẽ xóa hoặc che chắn các mục dữ liệu không đáp ứng yêu cầu bảo vệ quyền riêng tư nhưng không xuất bản chúng.

- Masking: đề cập đến phương pháp giải mẫn cảm phổ biến nhất để che giấu giá trị thuộc tính, chẳng hạn như số đối thủ, thẻ ID được đánh dấu bằng dấu hoa thị hoặc địa chỉ bị cắt bớt.

- Ngăn chặn cục bộ: đề cập đến quá trình xóa các giá trị thuộc tính (cột) cụ thể, loại bỏ các trường dữ liệu không cần thiết;

- Ngăn chặn bản ghi: đề cập đến quá trình xóa các bản ghi (hàng) cụ thể, xóa các bản ghi dữ liệu không cần thiết.

(4). Công nghệ bút danh

Giả danh là một kỹ thuật khử nhận dạng sử dụng bút danh để thay thế số nhận dạng trực tiếp (hoặc số nhận dạng nhạy cảm khác). Kỹ thuật bút danh tạo ra các mã định danh duy nhất cho từng chủ thể thông tin riêng lẻ, thay vì các mã định danh trực tiếp hoặc nhạy cảm.

- Nó có thể tạo các giá trị ngẫu nhiên một cách độc lập để tương ứng với ID gốc, lưu bảng ánh xạ và kiểm soát chặt chẽ quyền truy cập vào bảng ánh xạ.

- Bạn cũng có thể sử dụng mã hóa để tạo bút danh nhưng cần giữ khóa giải mã đúng cách;

Công nghệ này được sử dụng rộng rãi trong trường hợp có nhiều người dùng dữ liệu độc lập, chẳng hạn như OpenID trong kịch bản nền tảng mở, trong đó các nhà phát triển khác nhau có được các Openid khác nhau cho cùng một người dùng.

(5). Kỹ thuật tổng quát hóa

Kỹ thuật tổng quát hóa đề cập đến kỹ thuật khử nhận dạng làm giảm mức độ chi tiết của các thuộc tính được chọn trong tập dữ liệu và cung cấp mô tả dữ liệu tổng quát và trừu tượng hơn. Công nghệ tổng quát hóa dễ thực hiện và có thể bảo vệ tính xác thực của dữ liệu ở cấp độ bản ghi. Nó thường được sử dụng trong các sản phẩm dữ liệu hoặc báo cáo dữ liệu.

- Làm tròn: liên quan đến việc chọn cơ sở làm tròn cho thuộc tính đã chọn, chẳng hạn như điều tra lên hoặc xuống, mang lại kết quả 100, 500, 1K và 10K

- Kỹ thuật mã hóa trên và dưới: Thay thế các giá trị trên (hoặc dưới) ngưỡng bằng ngưỡng biểu thị mức trên cùng (hoặc dưới cùng), cho ra kết quả “trên X” hoặc “dưới X”

(6). Kỹ thuật ngẫu nhiên

Là một loại kỹ thuật khử nhận dạng, công nghệ ngẫu nhiên hóa đề cập đến việc sửa đổi giá trị của một thuộc tính thông qua ngẫu nhiên hóa, sao cho giá trị sau khi ngẫu nhiên hóa khác với giá trị thực ban đầu. Quá trình này làm giảm khả năng kẻ tấn công lấy được giá trị thuộc tính từ các giá trị thuộc tính khác trong cùng một bản ghi dữ liệu, nhưng ảnh hưởng đến tính xác thực của dữ liệu kết quả, điều này thường xảy ra với dữ liệu thử nghiệm sản xuất.


Thời gian đăng: 27-09-2022