Công nghệ và giải pháp mặt nạ dữ liệu trong nhà môi giới gói mạng là gì?

1. Khái niệm mặt nạ dữ liệu

Mặt nạ dữ liệu còn được gọi là mặt nạ dữ liệu. Đây là một phương pháp kỹ thuật để chuyển đổi, sửa đổi hoặc bao gồm dữ liệu nhạy cảm như số điện thoại di động, số thẻ ngân hàng và thông tin khác khi chúng tôi đã đưa ra các quy tắc và chính sách mặt nạ. Kỹ thuật này chủ yếu được sử dụng để ngăn dữ liệu nhạy cảm được sử dụng trực tiếp trong các môi trường không đáng tin cậy.

Nguyên tắc mặt nạ dữ liệu: Mặt nạ dữ liệu nên duy trì các đặc điểm dữ liệu gốc, quy tắc kinh doanh và mức độ phù hợp dữ liệu để đảm bảo rằng việc phát triển, thử nghiệm và phân tích dữ liệu tiếp theo sẽ không bị ảnh hưởng bởi mặt nạ. Đảm bảo tính nhất quán và tính hợp lệ của dữ liệu trước và sau khi che giấu.

2. Phân loại mặt nạ dữ liệu

Mặt nạ dữ liệu có thể được chia thành mặt nạ dữ liệu tĩnh (SDM) và mặt nạ dữ liệu động (DDM).

Mặt nạ dữ liệu tĩnh (SDM): Mặt nạ dữ liệu tĩnh yêu cầu thiết lập cơ sở dữ liệu môi trường phi sản xuất mới để cô lập với môi trường sản xuất. Dữ liệu nhạy cảm được trích xuất từ ​​cơ sở dữ liệu sản xuất và sau đó được lưu trữ trong cơ sở dữ liệu không sản xuất. Theo cách này, dữ liệu giải mẫn cảm được phân lập với môi trường sản xuất, đáp ứng nhu cầu kinh doanh và đảm bảo bảo mật dữ liệu sản xuất.

SDM

Mặt nạ dữ liệu động (DDM): Nó thường được sử dụng trong môi trường sản xuất để giảm bớt dữ liệu nhạy cảm trong thời gian thực. Đôi khi, các cấp độ mặt nạ khác nhau được yêu cầu để đọc cùng một dữ liệu nhạy cảm trong các tình huống khác nhau. Ví dụ, các vai trò và quyền khác nhau có thể thực hiện các sơ đồ mặt nạ khác nhau.

DDM

Báo cáo dữ liệu và ứng dụng mặt nạ sản phẩm dữ liệu

Các kịch bản như vậy chủ yếu bao gồm các sản phẩm giám sát dữ liệu nội bộ hoặc bảng quảng cáo, các sản phẩm dữ liệu dịch vụ bên ngoài và các báo cáo dựa trên phân tích dữ liệu, chẳng hạn như báo cáo kinh doanh và đánh giá dự án.

Mặt nạ sản phẩm báo cáo dữ liệu

3. Giải pháp mặt nạ dữ liệu

Các sơ đồ mặt nạ dữ liệu phổ biến bao gồm: không hợp lệ, giá trị ngẫu nhiên, thay thế dữ liệu, mã hóa đối xứng, giá trị trung bình, bù và làm tròn, v.v.

Không hợp lệ: Không hợp lệ đề cập đến mã hóa, cắt ngắn hoặc ẩn dữ liệu nhạy cảm. Sơ đồ này thường thay thế dữ liệu thực bằng các ký hiệu đặc biệt (chẳng hạn như *). Hoạt động rất đơn giản, nhưng người dùng không thể biết định dạng của dữ liệu gốc, có thể ảnh hưởng đến các ứng dụng dữ liệu tiếp theo.

Giá trị ngẫu nhiên: Giá trị ngẫu nhiên đề cập đến việc thay thế ngẫu nhiên dữ liệu nhạy cảm (số thay thế các chữ số, chữ cái thay thế các chữ cái và ký tự thay thế các ký tự). Phương pháp mặt nạ này sẽ đảm bảo định dạng dữ liệu nhạy cảm ở một mức độ nhất định và tạo điều kiện cho ứng dụng dữ liệu tiếp theo. Từ điển mặt nạ có thể cần thiết cho một số từ có ý nghĩa, chẳng hạn như tên của con người và địa điểm.

Thay thế dữ liệu: Thay thế dữ liệu tương tự như mặt nạ của NULL và các giá trị ngẫu nhiên, ngoại trừ thay vì sử dụng các ký tự hoặc giá trị ngẫu nhiên đặc biệt, dữ liệu mặt nạ được thay thế bằng một giá trị cụ thể.

Mã hóa đối xứng: Mã hóa đối xứng là một phương pháp mặt nạ đảo ngược đặc biệt. Nó mã hóa dữ liệu nhạy cảm thông qua các khóa mã hóa và thuật toán. Định dạng bản mã phù hợp với dữ liệu gốc trong các quy tắc logic.

Trung bình: Sơ đồ trung bình thường được sử dụng trong các kịch bản thống kê. Đối với dữ liệu số, trước tiên chúng tôi tính toán giá trị trung bình của chúng và sau đó phân phối ngẫu nhiên các giá trị mẫn cảm xung quanh giá trị trung bình, do đó giữ cho tổng của hằng số dữ liệu.

Bù và làm tròn: Phương pháp này thay đổi dữ liệu kỹ thuật số bằng sự thay đổi ngẫu nhiên. Việc làm tròn bù đảm bảo tính xác thực gần đúng của phạm vi trong khi duy trì bảo mật của dữ liệu, gần với dữ liệu thực hơn so với các sơ đồ trước đó và có ý nghĩa lớn trong kịch bản phân tích dữ liệu lớn.

ML-NPB-5660-

Mô hình đề xuất "ML-NPB-5660"Đối với mặt nạ dữ liệu

4. Kỹ thuật mặt nạ dữ liệu thường được sử dụng

(1). Kỹ thuật thống kê

Lấy mẫu dữ liệu và tổng hợp dữ liệu

- Lấy mẫu dữ liệu: Phân tích và đánh giá tập dữ liệu gốc bằng cách chọn một tập hợp con đại diện của tập dữ liệu là một phương pháp quan trọng để cải thiện hiệu quả của các kỹ thuật xác định.

- Tập hợp dữ liệu: Là một tập hợp các kỹ thuật thống kê (như tổng kết, đếm, trung bình, tối đa và tối thiểu) được áp dụng cho các thuộc tính trong microdata, kết quả là đại diện cho tất cả các bản ghi trong tập dữ liệu gốc.

(2). Mật mã

Mật mã là một phương pháp phổ biến để giải mẫn cảm hoặc tăng cường hiệu quả của sự giải mẫn cảm. Các loại thuật toán mã hóa khác nhau có thể đạt được các hiệu ứng giải mẫn cảm khác nhau.

- Mã hóa xác định: Mã hóa đối xứng không ngẫu nhiên. Nó thường xử lý dữ liệu ID và có thể giải mã và khôi phục bản mã vào ID ban đầu khi cần thiết, nhưng khóa cần phải được bảo vệ đúng cách.

- Mã hóa không thể đảo ngược: Hàm Hash được sử dụng để xử lý dữ liệu, thường được sử dụng cho dữ liệu ID. Nó không thể được giải mã trực tiếp và mối quan hệ ánh xạ phải được lưu. Ngoài ra, do tính năng của hàm băm, va chạm dữ liệu có thể xảy ra.

- Mã hóa đồng hình: Thuật toán đồng hợp đồng bằng được sử dụng. Đặc điểm của nó là kết quả của hoạt động mã hóa giống như hoạt động của bản rõ sau khi giải mã. Do đó, nó thường được sử dụng để xử lý các trường số, nhưng nó không được sử dụng rộng rãi vì lý do hiệu suất.

(3). Công nghệ hệ thống

Công nghệ đàn áp xóa hoặc che chắn các mục dữ liệu không đáp ứng bảo vệ quyền riêng tư, nhưng không xuất bản chúng.

- Mặt nạ: Nó đề cập đến phương pháp giải mẫn cảm phổ biến nhất để che dấu giá trị thuộc tính, chẳng hạn như số đối thủ, thẻ ID được đánh dấu bằng dấu hoa thị hoặc địa chỉ bị cắt.

- triệt tiêu cục bộ: đề cập đến quá trình xóa các giá trị thuộc tính cụ thể (cột), loại bỏ các trường dữ liệu không cần thiết;

- Ghi lại: đề cập đến quá trình xóa các bản ghi cụ thể (hàng), xóa các bản ghi dữ liệu không cần thiết.

(4). Công nghệ giả

Pseudomanning là một kỹ thuật xác định sử dụng bút danh để thay thế một định danh trực tiếp (hoặc định danh nhạy cảm khác). Kỹ thuật giả tạo các định danh độc đáo cho từng chủ đề thông tin riêng lẻ, thay vì định danh trực tiếp hoặc nhạy cảm.

- Nó có thể tạo các giá trị ngẫu nhiên một cách độc lập để tương ứng với ID gốc, lưu bảng ánh xạ và kiểm soát nghiêm ngặt truy cập vào bảng ánh xạ.

- Bạn cũng có thể sử dụng mã hóa để tạo bút danh, nhưng cần giữ khóa giải mã đúng cách;

Công nghệ này được sử dụng rộng rãi trong trường hợp một số lượng lớn người dùng dữ liệu độc lập, chẳng hạn như OpenID trong kịch bản nền tảng mở, trong đó các nhà phát triển khác nhau có được các openID khác nhau cho cùng một người dùng.

(5). Kỹ thuật tổng quát hóa

Kỹ thuật khái quát hóa đề cập đến một kỹ thuật xác định làm giảm độ chi tiết của các thuộc tính được chọn trong một tập dữ liệu và cung cấp một mô tả tổng quát và trừu tượng hơn về dữ liệu. Công nghệ tổng quát hóa rất dễ thực hiện và có thể bảo vệ tính xác thực của dữ liệu cấp bản ghi. Nó thường được sử dụng trong các sản phẩm dữ liệu hoặc báo cáo dữ liệu.

- Làm tròn: Liên quan đến việc chọn một cơ sở làm tròn cho thuộc tính đã chọn, chẳng hạn như pháp y hướng lên hoặc hướng xuống, kết quả mang lại 100, 500, 1K và 10K

- Kỹ thuật mã hóa trên và dưới: Thay thế các giá trị ở trên (hoặc bên dưới) ngưỡng có ngưỡng biểu thị mức trên cùng (hoặc dưới cùng), mang lại kết quả của "trên x" hoặc "bên dưới x"

(6). Kỹ thuật ngẫu nhiên

Là một loại kỹ thuật xác định, công nghệ ngẫu nhiên đề cập đến việc sửa đổi giá trị của một thuộc tính thông qua ngẫu nhiên, do đó giá trị sau khi ngẫu nhiên khác với giá trị thực ban đầu. Quá trình này làm giảm khả năng của kẻ tấn công để lấy giá trị thuộc tính từ các giá trị thuộc tính khác trong cùng một bản ghi dữ liệu, nhưng ảnh hưởng đến tính xác thực của dữ liệu kết quả, phổ biến với dữ liệu thử nghiệm sản xuất.


Thời gian đăng: Tháng 9-27-2022