Công nghệ và giải pháp che giấu dữ liệu trong Network Packet Broker là gì?

1. Khái niệm về Data Masking

Che giấu dữ liệu còn được gọi là che giấu dữ liệu. Đây là phương pháp kỹ thuật để chuyển đổi, sửa đổi hoặc che giấu dữ liệu nhạy cảm như số điện thoại di động, số thẻ ngân hàng và các thông tin khác khi chúng tôi đưa ra các quy tắc và chính sách che giấu. Kỹ thuật này chủ yếu được sử dụng để ngăn chặn dữ liệu nhạy cảm được sử dụng trực tiếp trong các môi trường không đáng tin cậy.

Nguyên tắc che dữ liệu: Che dữ liệu phải duy trì các đặc điểm dữ liệu gốc, quy tắc kinh doanh và tính liên quan của dữ liệu để đảm bảo rằng quá trình phát triển, thử nghiệm và phân tích dữ liệu sau đó sẽ không bị ảnh hưởng bởi việc che dữ liệu. Đảm bảo tính nhất quán và tính hợp lệ của dữ liệu trước và sau khi che dữ liệu.

2. Phân loại che giấu dữ liệu

Che giấu dữ liệu có thể được chia thành che giấu dữ liệu tĩnh (SDM) và che giấu dữ liệu động (DDM).

Che giấu dữ liệu tĩnh (SDM): Che giấu dữ liệu tĩnh đòi hỏi phải thiết lập một cơ sở dữ liệu môi trường phi sản xuất mới để cô lập khỏi môi trường sản xuất. Dữ liệu nhạy cảm được trích xuất từ ​​cơ sở dữ liệu sản xuất và sau đó được lưu trữ trong cơ sở dữ liệu phi sản xuất. Theo cách này, dữ liệu đã khử nhạy cảm được cô lập khỏi môi trường sản xuất, đáp ứng nhu cầu kinh doanh và đảm bảo tính bảo mật của dữ liệu sản xuất.

SDM

Che dấu dữ liệu động (DDM): Nó thường được sử dụng trong môi trường sản xuất để khử nhạy cảm dữ liệu theo thời gian thực. Đôi khi, cần có các mức độ che giấu khác nhau để đọc cùng một dữ liệu nhạy cảm trong các tình huống khác nhau. Ví dụ, các vai trò và quyền khác nhau có thể triển khai các lược đồ che giấu khác nhau.

ĐDM

Ứng dụng báo cáo dữ liệu và che giấu sản phẩm dữ liệu

Các kịch bản như vậy chủ yếu bao gồm các sản phẩm giám sát dữ liệu nội bộ hoặc bảng quảng cáo, các sản phẩm dữ liệu dịch vụ bên ngoài và các báo cáo dựa trên phân tích dữ liệu, chẳng hạn như báo cáo kinh doanh và đánh giá dự án.

báo cáo dữ liệu sản phẩm che dấu

3. Giải pháp che giấu dữ liệu

Các phương án che giấu dữ liệu phổ biến bao gồm: vô hiệu hóa, giá trị ngẫu nhiên, thay thế dữ liệu, mã hóa đối xứng, giá trị trung bình, bù trừ và làm tròn, v.v.

Sự vô hiệu: Làm mất hiệu lực là mã hóa, cắt bớt hoặc ẩn dữ liệu nhạy cảm. Sơ đồ này thường thay thế dữ liệu thực bằng các ký hiệu đặc biệt (như *). Thao tác này đơn giản, nhưng người dùng không thể biết định dạng của dữ liệu gốc, điều này có thể ảnh hưởng đến các ứng dụng dữ liệu sau này.

Giá trị ngẫu nhiên: Giá trị ngẫu nhiên đề cập đến việc thay thế ngẫu nhiên dữ liệu nhạy cảm (số thay thế chữ số, chữ cái thay thế chữ cái và ký tự thay thế ký tự). Phương pháp che giấu này sẽ đảm bảo định dạng của dữ liệu nhạy cảm ở một mức độ nhất định và tạo điều kiện cho việc áp dụng dữ liệu sau này. Có thể cần đến từ điển che giấu đối với một số từ có nghĩa, chẳng hạn như tên người và địa điểm.

Thay thế dữ liệu: Thay thế dữ liệu tương tự như việc che giấu các giá trị null và ngẫu nhiên, ngoại trừ việc thay vì sử dụng các ký tự đặc biệt hoặc giá trị ngẫu nhiên, dữ liệu che giấu sẽ được thay thế bằng một giá trị cụ thể.

Mã hóa đối xứng: Mã hóa đối xứng là phương pháp che giấu đặc biệt có thể đảo ngược. Nó mã hóa dữ liệu nhạy cảm thông qua các khóa mã hóa và thuật toán. Định dạng văn bản mã hóa phù hợp với dữ liệu gốc theo các quy tắc logic.

Trung bình: Sơ đồ trung bình thường được sử dụng trong các tình huống thống kê. Đối với dữ liệu số, trước tiên chúng ta tính giá trị trung bình của chúng, sau đó phân phối ngẫu nhiên các giá trị khử nhạy cảm xung quanh giá trị trung bình, do đó giữ cho tổng dữ liệu không đổi.

Bù trừ và làm tròn:Phương pháp này thay đổi dữ liệu số bằng cách dịch chuyển ngẫu nhiên. Làm tròn bù trừ đảm bảo tính xác thực gần đúng của phạm vi trong khi vẫn duy trì tính bảo mật của dữ liệu, gần với dữ liệu thực hơn so với các lược đồ trước đây và có ý nghĩa lớn trong bối cảnh phân tích dữ liệu lớn.

ML-NPB-5660-数据脱敏

Mô hình khuyến nghị "ML-NPB-5660"cho việc che giấu dữ liệu

4. Các kỹ thuật che giấu dữ liệu thường dùng

(1). Kỹ thuật thống kê

Lấy mẫu dữ liệu và tổng hợp dữ liệu

- Lấy mẫu dữ liệu: Việc phân tích và đánh giá tập dữ liệu gốc bằng cách chọn một tập hợp con đại diện của tập dữ liệu là một phương pháp quan trọng để nâng cao hiệu quả của các kỹ thuật xóa nhận dạng.

- Tổng hợp dữ liệu: Là tập hợp các kỹ thuật thống kê (như tổng hợp, đếm, tính trung bình, cực đại và cực tiểu) được áp dụng cho các thuộc tính trong dữ liệu vi mô, kết quả sẽ đại diện cho tất cả các bản ghi trong tập dữ liệu gốc.

(2). Mật mã học

Mật mã là một phương pháp phổ biến để khử nhạy cảm hoặc tăng cường hiệu quả của khử nhạy cảm. Các loại thuật toán mã hóa khác nhau có thể đạt được các hiệu ứng khử nhạy cảm khác nhau.

- Mã hóa xác định: Mã hóa đối xứng không ngẫu nhiên. Nó thường xử lý dữ liệu ID và có thể giải mã và khôi phục văn bản mã hóa thành ID gốc khi cần thiết, nhưng khóa cần được bảo vệ đúng cách.

- Mã hóa không thể đảo ngược: Hàm băm được sử dụng để xử lý dữ liệu, thường được sử dụng cho dữ liệu ID. Không thể giải mã trực tiếp và mối quan hệ ánh xạ phải được lưu. Ngoài ra, do tính năng của hàm băm, có thể xảy ra xung đột dữ liệu.

- Mã hóa đồng dạng: Thuật toán đồng dạng bản mã được sử dụng. Đặc điểm của nó là kết quả của phép toán bản mã giống với kết quả của phép toán bản rõ sau khi giải mã. Do đó, nó thường được sử dụng để xử lý các trường số, nhưng không được sử dụng rộng rãi vì lý do hiệu suất.

(3). Công nghệ hệ thống

Công nghệ ngăn chặn sẽ xóa hoặc bảo vệ các mục dữ liệu không đáp ứng yêu cầu bảo vệ quyền riêng tư nhưng không công bố chúng.

- Che giấu: là phương pháp làm mất độ nhạy phổ biến nhất để che giấu giá trị thuộc tính, chẳng hạn như số hiệu đối thủ, thẻ căn cước được đánh dấu bằng dấu hoa thị hoặc địa chỉ bị cắt bớt.

- Xóa cục bộ: là quá trình xóa các giá trị thuộc tính cụ thể (cột), loại bỏ các trường dữ liệu không cần thiết;

- Xóa bản ghi: là quá trình xóa các bản ghi cụ thể (các hàng), xóa các bản ghi dữ liệu không cần thiết.

(4). Công nghệ bí danh

Pseudomanning là một kỹ thuật xóa nhận dạng sử dụng bút danh để thay thế một mã định danh trực tiếp (hoặc mã định danh nhạy cảm khác). Các kỹ thuật bút danh tạo ra các mã định danh duy nhất cho từng chủ thể thông tin riêng lẻ, thay vì các mã định danh trực tiếp hoặc nhạy cảm.

- Có thể tạo ra các giá trị ngẫu nhiên độc lập để tương ứng với ID gốc, lưu bảng ánh xạ và kiểm soát chặt chẽ quyền truy cập vào bảng ánh xạ.

- Bạn cũng có thể sử dụng mã hóa để tạo ra bí danh, nhưng cần phải giữ khóa giải mã đúng cách;

Công nghệ này được sử dụng rộng rãi trong trường hợp có nhiều người dùng dữ liệu độc lập, chẳng hạn như OpenID trong bối cảnh nền tảng mở, trong đó các nhà phát triển khác nhau có được các Openid khác nhau cho cùng một người dùng.

(5). Kỹ thuật tổng quát

Kỹ thuật tổng quát hóa đề cập đến một kỹ thuật khử nhận dạng làm giảm độ chi tiết của các thuộc tính được chọn trong một tập dữ liệu và cung cấp mô tả tổng quát và trừu tượng hơn về dữ liệu. Công nghệ tổng quát hóa dễ triển khai và có thể bảo vệ tính xác thực của dữ liệu cấp bản ghi. Nó thường được sử dụng trong các sản phẩm dữ liệu hoặc báo cáo dữ liệu.

- Làm tròn: bao gồm việc chọn cơ sở làm tròn cho thuộc tính đã chọn, chẳng hạn như pháp y hướng lên hoặc hướng xuống, tạo ra kết quả 100, 500, 1K và 10K

- Kỹ thuật mã hóa trên và dưới: Thay thế các giá trị trên (hoặc dưới) ngưỡng bằng ngưỡng biểu thị mức trên cùng (hoặc dưới cùng), tạo ra kết quả "trên X" hoặc "dưới X"

(6). Kỹ thuật ngẫu nhiên

Là một loại kỹ thuật khử nhận dạng, công nghệ ngẫu nhiên hóa đề cập đến việc sửa đổi giá trị của một thuộc tính thông qua ngẫu nhiên hóa, sao cho giá trị sau khi ngẫu nhiên hóa khác với giá trị thực ban đầu. Quá trình này làm giảm khả năng kẻ tấn công lấy được giá trị thuộc tính từ các giá trị thuộc tính khác trong cùng một bản ghi dữ liệu, nhưng ảnh hưởng đến tính xác thực của dữ liệu kết quả, điều này thường gặp với dữ liệu thử nghiệm sản xuất.


Thời gian đăng: 27-09-2022