1. Khái niệm về che giấu dữ liệu
Che giấu dữ liệu còn được gọi là "che giấu dữ liệu". Đây là một phương pháp kỹ thuật để chuyển đổi, sửa đổi hoặc che giấu dữ liệu nhạy cảm như số điện thoại di động, số thẻ ngân hàng và các thông tin khác khi chúng tôi đã đưa ra các quy tắc và chính sách che giấu. Kỹ thuật này chủ yếu được sử dụng để ngăn chặn dữ liệu nhạy cảm bị sử dụng trực tiếp trong các môi trường không đáng tin cậy.
Nguyên tắc che giấu dữ liệu: Việc che giấu dữ liệu phải duy trì các đặc điểm dữ liệu gốc, quy tắc nghiệp vụ và tính liên quan của dữ liệu để đảm bảo quá trình phát triển, thử nghiệm và phân tích dữ liệu sau này sẽ không bị ảnh hưởng bởi việc che giấu. Đảm bảo tính nhất quán và tính hợp lệ của dữ liệu trước và sau khi che giấu.
2. Phân loại che giấu dữ liệu
Che giấu dữ liệu có thể được chia thành che giấu dữ liệu tĩnh (SDM) và che giấu dữ liệu động (DDM).
Che dấu dữ liệu tĩnh (SDM): Che giấu dữ liệu tĩnh yêu cầu thiết lập một cơ sở dữ liệu môi trường phi sản xuất mới để tách biệt khỏi môi trường sản xuất. Dữ liệu nhạy cảm được trích xuất từ cơ sở dữ liệu sản xuất và sau đó được lưu trữ trong cơ sở dữ liệu phi sản xuất. Bằng cách này, dữ liệu đã được khử nhạy cảm sẽ được tách biệt khỏi môi trường sản xuất, đáp ứng nhu cầu kinh doanh và đảm bảo tính bảo mật của dữ liệu sản xuất.
Che dấu dữ liệu động (DDM): Nó thường được sử dụng trong môi trường sản xuất để khử nhạy cảm dữ liệu theo thời gian thực. Đôi khi, cần có các mức độ che giấu khác nhau để đọc cùng một dữ liệu nhạy cảm trong các tình huống khác nhau. Ví dụ, các vai trò và quyền khác nhau có thể triển khai các lược đồ che giấu khác nhau.
Ứng dụng báo cáo dữ liệu và che dấu sản phẩm dữ liệu
Các kịch bản như vậy chủ yếu bao gồm các sản phẩm giám sát dữ liệu nội bộ hoặc bảng quảng cáo, các sản phẩm dữ liệu dịch vụ bên ngoài và các báo cáo dựa trên phân tích dữ liệu, chẳng hạn như báo cáo kinh doanh và đánh giá dự án.
3. Giải pháp che giấu dữ liệu
Các phương pháp che dấu dữ liệu phổ biến bao gồm: vô hiệu hóa, giá trị ngẫu nhiên, thay thế dữ liệu, mã hóa đối xứng, giá trị trung bình, bù trừ và làm tròn, v.v.
Sự vô hiệu: Vô hiệu hóa đề cập đến việc mã hóa, cắt bớt hoặc ẩn dữ liệu nhạy cảm. Phương pháp này thường thay thế dữ liệu thực bằng các ký hiệu đặc biệt (chẳng hạn như *). Thao tác này khá đơn giản, nhưng người dùng không thể biết định dạng của dữ liệu gốc, điều này có thể ảnh hưởng đến các ứng dụng dữ liệu sau này.
Giá trị ngẫu nhiên: Giá trị ngẫu nhiên đề cập đến việc thay thế ngẫu nhiên dữ liệu nhạy cảm (số thay thế chữ số, chữ cái thay thế chữ cái và ký tự thay thế ký tự). Phương pháp che dấu này sẽ đảm bảo định dạng của dữ liệu nhạy cảm ở một mức độ nhất định và tạo điều kiện thuận lợi cho việc áp dụng dữ liệu sau này. Có thể cần sử dụng từ điển che dấu cho một số từ có nghĩa, chẳng hạn như tên người và địa điểm.
Thay thế dữ liệu: Thay thế dữ liệu tương tự như việc che dấu các giá trị null và ngẫu nhiên, ngoại trừ việc thay vì sử dụng các ký tự đặc biệt hoặc giá trị ngẫu nhiên, dữ liệu che dấu sẽ được thay thế bằng một giá trị cụ thể.
Mã hóa đối xứng: Mã hóa đối xứng là một phương pháp che giấu đặc biệt có thể đảo ngược. Nó mã hóa dữ liệu nhạy cảm thông qua các khóa mã hóa và thuật toán. Định dạng văn bản mã hóa nhất quán với dữ liệu gốc theo các quy tắc logic.
Trung bình: Sơ đồ trung bình thường được sử dụng trong các tình huống thống kê. Đối với dữ liệu số, trước tiên chúng tôi tính giá trị trung bình của chúng, sau đó phân phối ngẫu nhiên các giá trị khử nhạy cảm quanh giá trị trung bình, do đó giữ cho tổng dữ liệu không đổi.
Bù trừ và làm tròn: Phương pháp này thay đổi dữ liệu số bằng cách dịch chuyển ngẫu nhiên. Làm tròn bù trừ đảm bảo tính xác thực gần đúng của phạm vi, đồng thời duy trì tính bảo mật của dữ liệu, gần với dữ liệu thực hơn so với các phương pháp trước đây và có ý nghĩa quan trọng trong bối cảnh phân tích dữ liệu lớn.
Mô hình khuyến nghị "ML-NPB-5660"cho việc che giấu dữ liệu
4. Các kỹ thuật che giấu dữ liệu thường được sử dụng
(1). Kỹ thuật thống kê
Lấy mẫu dữ liệu và tổng hợp dữ liệu
- Lấy mẫu dữ liệu: Việc phân tích và đánh giá tập dữ liệu gốc bằng cách chọn một tập hợp con đại diện của tập dữ liệu là một phương pháp quan trọng để nâng cao hiệu quả của các kỹ thuật nhận dạng.
- Tổng hợp dữ liệu: Là tập hợp các kỹ thuật thống kê (như tổng, đếm, trung bình, cực đại và cực tiểu) được áp dụng cho các thuộc tính trong dữ liệu vi mô, kết quả sẽ đại diện cho tất cả các bản ghi trong tập dữ liệu gốc.
(2). Mật mã học
Mật mã học là một phương pháp phổ biến để giảm độ nhạy hoặc tăng cường hiệu quả của quá trình giảm độ nhạy. Các loại thuật toán mã hóa khác nhau có thể đạt được các hiệu ứng giảm độ nhạy khác nhau.
- Mã hóa xác định: Mã hóa đối xứng phi ngẫu nhiên. Nó thường xử lý dữ liệu ID và có thể giải mã và khôi phục văn bản mã hóa về ID gốc khi cần thiết, nhưng khóa cần được bảo vệ đúng cách.
- Mã hóa không thể đảo ngược: Hàm băm được sử dụng để xử lý dữ liệu, thường được sử dụng cho dữ liệu ID. Không thể giải mã trực tiếp và mối quan hệ ánh xạ phải được lưu lại. Ngoài ra, do tính chất của hàm băm, xung đột dữ liệu có thể xảy ra.
- Mã hóa đồng cấu: Thuật toán đồng cấu bản mã được sử dụng. Đặc điểm của nó là kết quả của phép toán bản mã sau khi giải mã giống hệt với kết quả của phép toán bản rõ. Do đó, nó thường được sử dụng để xử lý các trường số, nhưng không được sử dụng rộng rãi vì lý do hiệu suất.
(3). Công nghệ hệ thống
Công nghệ ngăn chặn sẽ xóa hoặc bảo vệ các mục dữ liệu không đáp ứng được yêu cầu bảo vệ quyền riêng tư nhưng không công bố chúng.
- Che giấu: là phương pháp làm mất độ nhạy phổ biến nhất để che giấu giá trị thuộc tính, chẳng hạn như số hiệu đối thủ, thẻ căn cước được đánh dấu bằng dấu hoa thị hoặc địa chỉ bị cắt bớt.
- Xóa cục bộ: là quá trình xóa các giá trị thuộc tính cụ thể (các cột), loại bỏ các trường dữ liệu không cần thiết;
- Xóa bản ghi: là quá trình xóa các bản ghi cụ thể (các hàng), xóa các bản ghi dữ liệu không cần thiết.
(4). Công nghệ bút danh
Pseudomanning là một kỹ thuật xóa nhận dạng sử dụng bút danh để thay thế một mã định danh trực tiếp (hoặc mã định danh nhạy cảm khác). Kỹ thuật bút danh tạo ra các mã định danh duy nhất cho từng chủ thể thông tin, thay vì các mã định danh trực tiếp hoặc nhạy cảm.
- Có thể tạo ra các giá trị ngẫu nhiên độc lập để tương ứng với ID gốc, lưu bảng ánh xạ và kiểm soát chặt chẽ quyền truy cập vào bảng ánh xạ.
- Bạn cũng có thể sử dụng mã hóa để tạo ra bí danh, nhưng cần phải giữ đúng khóa giải mã;
Công nghệ này được sử dụng rộng rãi trong trường hợp có nhiều người dùng dữ liệu độc lập, chẳng hạn như OpenID trong bối cảnh nền tảng mở, trong đó các nhà phát triển khác nhau có được các OpenID khác nhau cho cùng một người dùng.
(5). Kỹ thuật tổng quát hóa
Kỹ thuật tổng quát hóa là một kỹ thuật khử nhận dạng, giúp giảm độ chi tiết của các thuộc tính được chọn trong một tập dữ liệu và cung cấp một mô tả tổng quát và trừu tượng hơn về dữ liệu. Công nghệ tổng quát hóa dễ triển khai và có thể bảo vệ tính xác thực của dữ liệu ở cấp độ bản ghi. Kỹ thuật này thường được sử dụng trong các sản phẩm dữ liệu hoặc báo cáo dữ liệu.
- Làm tròn: bao gồm việc chọn cơ sở làm tròn cho thuộc tính đã chọn, chẳng hạn như pháp y hướng lên hoặc hướng xuống, mang lại kết quả 100, 500, 1K và 10K
- Kỹ thuật mã hóa trên cùng và dưới cùng: Thay thế các giá trị trên (hoặc dưới) ngưỡng bằng ngưỡng biểu thị mức trên cùng (hoặc dưới cùng), tạo ra kết quả "trên X" hoặc "dưới X"
(6). Kỹ thuật ngẫu nhiên
Là một loại kỹ thuật khử nhận dạng, công nghệ ngẫu nhiên hóa đề cập đến việc sửa đổi giá trị của một thuộc tính thông qua quá trình ngẫu nhiên hóa, sao cho giá trị sau khi ngẫu nhiên hóa khác với giá trị thực ban đầu. Quá trình này làm giảm khả năng kẻ tấn công lấy giá trị thuộc tính từ các giá trị thuộc tính khác trong cùng một bản ghi dữ liệu, nhưng ảnh hưởng đến tính xác thực của dữ liệu thu được, điều này thường gặp ở dữ liệu thử nghiệm sản xuất.
Thời gian đăng: 27-09-2022