Công nghệ và giải pháp che giấu dữ liệu trong Network Packet Broker là gì?

1. Khái niệm về che giấu dữ liệu

Che giấu dữ liệu, còn được gọi là mã hóa dữ liệu, là một phương pháp kỹ thuật để chuyển đổi, sửa đổi hoặc che đậy dữ liệu nhạy cảm như số điện thoại di động, số thẻ ngân hàng và các thông tin khác khi chúng ta tuân thủ các quy tắc và chính sách che giấu. Kỹ thuật này chủ yếu được sử dụng để ngăn chặn việc sử dụng trực tiếp dữ liệu nhạy cảm trong các môi trường không đáng tin cậy.

Nguyên tắc che giấu dữ liệu: Việc che giấu dữ liệu cần duy trì các đặc điểm, quy tắc nghiệp vụ và tính liên quan của dữ liệu gốc để đảm bảo quá trình phát triển, kiểm thử và phân tích dữ liệu sau này không bị ảnh hưởng. Đảm bảo tính nhất quán và tính hợp lệ của dữ liệu trước và sau khi che giấu.

2. Phân loại che giấu dữ liệu

Che giấu dữ liệu có thể được chia thành che giấu dữ liệu tĩnh (SDM) và che giấu dữ liệu động (DDM).

Che giấu dữ liệu tĩnh (SDM)Che giấu dữ liệu tĩnh yêu cầu thiết lập một cơ sở dữ liệu môi trường phi sản xuất mới để cách ly khỏi môi trường sản xuất. Dữ liệu nhạy cảm được trích xuất từ ​​cơ sở dữ liệu sản xuất và sau đó được lưu trữ trong cơ sở dữ liệu phi sản xuất. Bằng cách này, dữ liệu đã được làm giảm độ nhạy cảm được cách ly khỏi môi trường sản xuất, đáp ứng nhu cầu kinh doanh và đảm bảo an ninh dữ liệu sản xuất.

SDM

Che giấu dữ liệu động (DDM)Nó thường được sử dụng trong môi trường sản xuất để làm giảm độ nhạy cảm của dữ liệu trong thời gian thực. Đôi khi, cần các mức độ che giấu khác nhau để đọc cùng một dữ liệu nhạy cảm trong các tình huống khác nhau. Ví dụ, các vai trò và quyền hạn khác nhau có thể áp dụng các phương pháp che giấu khác nhau.

DDM

Ứng dụng báo cáo dữ liệu và che giấu sản phẩm dữ liệu

Các trường hợp này chủ yếu bao gồm các sản phẩm giám sát dữ liệu nội bộ hoặc bảng thông báo, các sản phẩm dữ liệu dịch vụ bên ngoài và các báo cáo dựa trên phân tích dữ liệu, chẳng hạn như báo cáo kinh doanh và đánh giá dự án.

che giấu sản phẩm báo cáo dữ liệu

3. Giải pháp che giấu dữ liệu

Các phương pháp che giấu dữ liệu phổ biến bao gồm: vô hiệu hóa, giá trị ngẫu nhiên, thay thế dữ liệu, mã hóa đối xứng, giá trị trung bình, độ lệch và làm tròn, v.v.

Vô hiệu hóaViệc vô hiệu hóa dữ liệu đề cập đến việc mã hóa, cắt bớt hoặc che giấu dữ liệu nhạy cảm. Phương pháp này thường thay thế dữ liệu thực bằng các ký hiệu đặc biệt (như *). Thao tác này đơn giản, nhưng người dùng không thể biết định dạng của dữ liệu gốc, điều này có thể ảnh hưởng đến các ứng dụng dữ liệu sau này.

Giá trị ngẫu nhiênGiá trị ngẫu nhiên đề cập đến việc thay thế ngẫu nhiên dữ liệu nhạy cảm (số thay thế chữ số, chữ cái thay thế chữ cái và ký tự thay thế ký tự). Phương pháp che giấu này sẽ đảm bảo định dạng của dữ liệu nhạy cảm ở một mức độ nhất định và tạo điều kiện thuận lợi cho việc ứng dụng dữ liệu sau này. Từ điển che giấu có thể cần thiết cho một số từ có ý nghĩa, chẳng hạn như tên người và địa điểm.

Thay thế dữ liệuViệc thay thế dữ liệu tương tự như việc che giấu các giá trị rỗng và ngẫu nhiên, ngoại trừ việc thay vì sử dụng các ký tự đặc biệt hoặc giá trị ngẫu nhiên, dữ liệu cần che giấu được thay thế bằng một giá trị cụ thể.

Mã hóa đối xứngMã hóa đối xứng là một phương pháp che giấu đảo ngược đặc biệt. Nó mã hóa dữ liệu nhạy cảm thông qua các khóa và thuật toán mã hóa. Định dạng bản mã phù hợp với dữ liệu gốc theo các quy tắc logic.

Trung bìnhPhương pháp tính trung bình thường được sử dụng trong các tình huống thống kê. Đối với dữ liệu số, trước tiên chúng ta tính giá trị trung bình của chúng, sau đó phân bổ ngẫu nhiên các giá trị đã được làm giảm độ nhạy xung quanh giá trị trung bình, nhờ đó giữ cho tổng của dữ liệu không đổi.

Độ lệch và làm trònPhương pháp này thay đổi dữ liệu số bằng cách dịch chuyển ngẫu nhiên. Việc làm tròn độ lệch đảm bảo tính xác thực gần đúng của phạm vi trong khi vẫn duy trì tính bảo mật của dữ liệu, gần với dữ liệu thực hơn so với các phương pháp trước đây, và có ý nghĩa rất lớn trong kịch bản phân tích dữ liệu lớn.

ML-NPB-5660-数据脱敏

Mô hình đề xuấtML-NPB-5660"dành cho việc che giấu dữ liệu"

4. Các kỹ thuật che giấu dữ liệu thường dùng

(1). Kỹ thuật thống kê

Lấy mẫu dữ liệu và tổng hợp dữ liệu

- Lấy mẫu dữ liệu: Phân tích và đánh giá tập dữ liệu gốc bằng cách chọn một tập con đại diện của tập dữ liệu là một phương pháp quan trọng để nâng cao hiệu quả của các kỹ thuật ẩn danh hóa dữ liệu.

- Tổng hợp dữ liệu: Là tập hợp các kỹ thuật thống kê (như cộng, đếm, tính trung bình, giá trị lớn nhất và nhỏ nhất) được áp dụng cho các thuộc tính trong dữ liệu vi mô, kết quả thu được mang tính đại diện cho tất cả các bản ghi trong tập dữ liệu gốc.

(2). Mật mã

Mật mã học là một phương pháp phổ biến để làm giảm độ nhạy hoặc tăng cường hiệu quả của việc làm giảm độ nhạy. Các loại thuật toán mã hóa khác nhau có thể đạt được các hiệu quả làm giảm độ nhạy khác nhau.

- Mã hóa xác định: Một phương pháp mã hóa đối xứng không ngẫu nhiên. Phương pháp này thường xử lý dữ liệu nhận dạng và có thể giải mã cũng như khôi phục bản mã về nhận dạng gốc khi cần thiết, nhưng khóa cần được bảo vệ đúng cách.

- Mã hóa không thể đảo ngược: Hàm băm được sử dụng để xử lý dữ liệu, thường được dùng cho dữ liệu định danh. Nó không thể được giải mã trực tiếp và mối quan hệ ánh xạ phải được lưu lại. Ngoài ra, do đặc điểm của hàm băm, có thể xảy ra xung đột dữ liệu.

- Mã hóa đồng hình: Thuật toán mã hóa đồng hình được sử dụng. Đặc điểm của nó là kết quả của phép toán trên bản mã giống với kết quả của phép toán trên bản gốc sau khi giải mã. Do đó, nó thường được sử dụng để xử lý các trường số, nhưng không được sử dụng rộng rãi vì lý do hiệu năng.

(3). Công nghệ hệ thống

Công nghệ ngăn chặn sẽ xóa hoặc che chắn các mục dữ liệu không đáp ứng yêu cầu bảo vệ quyền riêng tư, nhưng không công bố chúng.

- Che giấu: đề cập đến phương pháp làm giảm độ nhạy phổ biến nhất để che giấu giá trị thuộc tính, chẳng hạn như số của đối thủ, thẻ căn cước được đánh dấu bằng dấu sao hoặc địa chỉ bị cắt ngắn.

- Loại bỏ cục bộ: đề cập đến quá trình xóa các giá trị thuộc tính (cột) cụ thể, loại bỏ các trường dữ liệu không cần thiết;

- Xóa bỏ bản ghi: đề cập đến quá trình xóa các bản ghi (dòng) cụ thể, xóa các bản ghi dữ liệu không cần thiết.

(4). Công nghệ bí danh

Mã hóa danh tính là một kỹ thuật ẩn danh sử dụng bí danh để thay thế định danh trực tiếp (hoặc định danh nhạy cảm khác). Kỹ thuật sử dụng bí danh tạo ra các định danh duy nhất cho từng đối tượng thông tin riêng lẻ, thay vì các định danh trực tiếp hoặc nhạy cảm.

- Nó có thể tự động tạo ra các giá trị ngẫu nhiên tương ứng với ID gốc, lưu bảng ánh xạ và kiểm soát chặt chẽ quyền truy cập vào bảng ánh xạ.

- Bạn cũng có thể sử dụng mã hóa để tạo ra bí danh, nhưng cần phải bảo quản khóa giải mã cẩn thận;

Công nghệ này được sử dụng rộng rãi trong trường hợp có số lượng lớn người dùng dữ liệu độc lập, chẳng hạn như OpenID trong kịch bản nền tảng mở, nơi các nhà phát triển khác nhau nhận được các OpenID khác nhau cho cùng một người dùng.

(5). Kỹ thuật khái quát hóa

Kỹ thuật khái quát hóa đề cập đến một kỹ thuật khử nhận dạng giúp giảm độ chi tiết của các thuộc tính được chọn trong tập dữ liệu và cung cấp mô tả tổng quát và trừu tượng hơn về dữ liệu. Công nghệ khái quát hóa dễ thực hiện và có thể bảo vệ tính xác thực của dữ liệu cấp bản ghi. Nó thường được sử dụng trong các sản phẩm dữ liệu hoặc báo cáo dữ liệu.

- Làm tròn: bao gồm việc chọn cơ số làm tròn cho thuộc tính đã chọn, chẳng hạn như làm tròn lên hoặc làm tròn xuống, cho ra kết quả 100, 500, 1K và 10K.

- Kỹ thuật mã hóa trên và dưới: Thay thế các giá trị trên (hoặc dưới) ngưỡng bằng một ngưỡng đại diện cho mức trên (hoặc dưới), cho kết quả là "trên X" hoặc "dưới X".

(6). Kỹ thuật ngẫu nhiên hóa

Là một kỹ thuật ẩn danh hóa dữ liệu, công nghệ ngẫu nhiên hóa đề cập đến việc thay đổi giá trị của một thuộc tính thông qua quá trình ngẫu nhiên hóa, sao cho giá trị sau khi ngẫu nhiên hóa khác với giá trị thực ban đầu. Quá trình này làm giảm khả năng kẻ tấn công suy ra giá trị thuộc tính từ các giá trị thuộc tính khác trong cùng một bản ghi dữ liệu, nhưng ảnh hưởng đến tính xác thực của dữ liệu kết quả, điều này thường xảy ra với dữ liệu kiểm thử trong môi trường sản xuất.


Thời gian đăng bài: 27/09/2022