Khử trùng lặp dữ liệu là một công nghệ lưu trữ phổ biến giúp tối ưu hóa dung lượng lưu trữ. Nó loại bỏ dữ liệu dư thừa bằng cách xóa dữ liệu trùng lặp khỏi tập dữ liệu, chỉ để lại một bản sao duy nhất. Như hình minh họa bên dưới. Công nghệ này có thể giảm đáng kể nhu cầu về không gian lưu trữ vật lý để đáp ứng nhu cầu lưu trữ dữ liệu ngày càng tăng. Công nghệ khử trùng lặp mang lại nhiều lợi ích thiết thực, chủ yếu bao gồm các khía cạnh sau:
| (1) | Đáp ứng các yêu cầu về ROI (Tỷ suất lợi nhuận đầu tư)/TCO (Tổng chi phí sở hữu); |
| (2) | Sự gia tăng nhanh chóng của dữ liệu có thể được kiểm soát một cách hiệu quả; |
| (3) | Tăng không gian lưu trữ hiệu quả và nâng cao hiệu suất lưu trữ; |
| (4) | Tiết kiệm tổng chi phí lưu trữ và chi phí quản lý; |
| (5) | Tiết kiệm băng thông mạng cho việc truyền dữ liệu; |
| (6) | Tiết kiệm chi phí vận hành và bảo trì như không gian, nguồn điện và hệ thống làm mát. |
Công nghệ khử trùng lặp được sử dụng rộng rãi trong các hệ thống sao lưu và lưu trữ dữ liệu, bởi vì sau nhiều lần sao lưu dữ liệu sẽ có rất nhiều dữ liệu trùng lặp, điều này rất phù hợp với công nghệ này. Trên thực tế, công nghệ khử trùng lặp có thể được sử dụng trong nhiều trường hợp, bao gồm dữ liệu trực tuyến, dữ liệu gần trực tuyến và hệ thống lưu trữ dữ liệu ngoại tuyến. Nó có thể được triển khai trong hệ thống tệp, trình quản lý ổ đĩa, NAS và SAN. Khử trùng lặp cũng có thể được sử dụng để phục hồi dữ liệu sau thảm họa, truyền tải và đồng bộ hóa dữ liệu, và như một công nghệ nén dữ liệu có thể được sử dụng để đóng gói dữ liệu. Công nghệ khử trùng lặp có thể giúp nhiều ứng dụng giảm dung lượng lưu trữ dữ liệu, tiết kiệm băng thông mạng, nâng cao hiệu quả lưu trữ, giảm thời gian sao lưu và tiết kiệm chi phí.
Khử trùng lặp có hai khía cạnh chính: tỷ lệ khử trùng lặp và hiệu suất. Hiệu suất khử trùng lặp phụ thuộc vào công nghệ triển khai cụ thể, trong khi tỷ lệ khử trùng lặp được xác định bởi đặc điểm của chính dữ liệu và các mô hình ứng dụng, như được hiển thị trong bảng bên dưới. Các nhà cung cấp lưu trữ hiện báo cáo tỷ lệ khử trùng lặp dao động từ 20:1 đến 500:1.
| Tỷ lệ loại bỏ trùng lặp cao | Tỷ lệ loại bỏ trùng lặp thấp |
| Dữ liệu do người dùng tạo ra | Dữ liệu từ thế giới tự nhiên |
| Dữ liệu có tốc độ thay đổi thấp. | Dữ liệu có tốc độ thay đổi cao. |
| Dữ liệu tham chiếu, dữ liệu không hoạt động | Dữ liệu hoạt động |
| Ứng dụng có tốc độ thay đổi dữ liệu thấp | Ứng dụng có tốc độ thay đổi dữ liệu cao |
| Sao lưu dữ liệu đầy đủ | Sao lưu dữ liệu tăng dần |
| Lưu trữ dữ liệu dài hạn | Lưu trữ dữ liệu ngắn hạn |
| Nhiều ứng dụng dữ liệu khác nhau | Phạm vi ứng dụng dữ liệu nhỏ |
| Xử lý dữ liệu nghiệp vụ liên tục | Xử lý dữ liệu nghiệp vụ chung |
| Phân đoạn dữ liệu nhỏ | Phân đoạn dữ liệu lớn |
| Phân đoạn dữ liệu kéo dài | Phân đoạn dữ liệu có độ dài cố định |
| Nội dung dữ liệu được nhận thức | Nội dung dữ liệu không xác định |
| Loại bỏ dữ liệu trùng lặp | Loại bỏ dữ liệu trùng lặp không gian |
Các điểm triển khai khử trùng lặp
Khi phát triển hoặc ứng dụng công nghệ khử trùng lặp dữ liệu, cần xem xét nhiều yếu tố khác nhau, vì những yếu tố này ảnh hưởng trực tiếp đến hiệu suất và hiệu quả của công nghệ.
| (1) | Cái gì | Dữ liệu nào đã được loại bỏ trọng số? |
| (2) | Khi | Khi nào cân nặng sẽ giảm? |
| (3) | Ở đâu | Phương pháp giảm cân ở đâu? |
| (4) | Làm sao | Làm thế nào để giảm cân? |
Công nghệ khóa trùng lặp
Quá trình khử trùng lặp dữ liệu trong hệ thống lưu trữ nói chung như sau: trước hết, tập tin dữ liệu được chia thành một tập hợp dữ liệu, tính toán dấu vân tay cho mỗi khối dữ liệu, sau đó dựa trên dấu vân tay để tìm kiếm các từ khóa băm, đối sánh sẽ chỉ ra các khối dữ liệu trùng lặp. Chỉ lưu trữ số chỉ mục của khối dữ liệu, nếu không thì có nghĩa là khối dữ liệu đó là một phần duy nhất của tập tin mới, lưu trữ khối dữ liệu và tạo thông tin meta liên quan. Như vậy, một tập tin vật lý trong hệ thống lưu trữ tương ứng với một biểu diễn logic của một tập hợp siêu dữ liệu FP. Khi đọc tập tin, trước tiên đọc tập tin logic, sau đó dựa trên trình tự FP, lấy khối dữ liệu tương ứng từ hệ thống lưu trữ và khôi phục bản sao của tập tin vật lý. Từ quy trình trên, có thể thấy rằng các công nghệ chính của việc khử trùng lặp dữ liệu chủ yếu bao gồm phân đoạn khối dữ liệu tập tin, tính toán dấu vân tay khối dữ liệu và truy xuất khối dữ liệu.
(1) Phân đoạn khối dữ liệu tệp
(2) Tính toán dấu vân tay khối dữ liệu
(3) Truy xuất khối dữ liệu
Để tìm các mô hình được đề xuất này để bắt đầu triển khai giải pháp khử trùng lặp gói mạng:
Bộ điều phối gói mạng Mylinking™ (NPB) ML-NPB-640048*10GE SFP+ cộng thêm 4*40GE/100GE QSFP28, tốc độ tối đa 880Gbps
Bộ điều phối gói mạng Mylinking™ (NPB) ML-NPB-56606*40GE/100GE QSFP28 cộng với 48*10GE/25GE SFP28, Tốc độ tối đa 1.8Tbps
Bộ điều phối gói mạng Mylinking™ (NPB) ML-NPB-506048 cổng SFP+ 10GE cộng thêm 2 cổng QSFP 40GE, tốc độ tối đa 560Gbps.
Bộ điều phối gói mạng Mylinking™ (NPB) ML-NPB-486048 cổng SFP+ 10GE, tốc độ tối đa 480Gbps, chức năng bổ sung.
Bộ điều phối gói mạng Mylinking™ (NPB) ML-NPB-481048 cổng SFP+ 10GE, tốc độ tối đa 480Gbps
Bộ điều phối gói mạng Mylinking™ (NPB) ML-NPB-2410P24 cổng SFP+ 10GE, tốc độ tối đa 240Gbps, chức năng DPI
Bộ điều phối gói mạng Mylinking™ (NPB) ML-NPB-6400
48*10GE SFP+ cộng thêm 4*40GE/100GE QSFP28, tốc độ tối đa 880Gbps
Thời gian đăng bài: 18/10/2022

