Hướng dẫn how to mask sensitive data in python - cách che dữ liệu nhạy cảm trong python
Chia sẻ dữ liệu, tạo tài liệu và thực hiện các cuộc biểu tình công khai thường yêu cầu dữ liệu có chứa PII hoặc tài liệu nhạy cảm khác được che dấu. Show
MSTICPY chứa một thư viện đơn giản để xua tan dữ liệu bằng cách sử dụng băm và ánh xạ ngẫu nhiên các giá trị. Bạn có thể sử dụng các chức năng này trên một mục dữ liệu hoặc toàn bộ khung dữ liệu. Cảnh báo Các chức năng này chỉ được dự định để che dấu dữ liệu. Không có nỗ lực thực sự được thực hiện để bảo tồn cú pháp và ý nghĩa của đầu ra. Chúng tôi khuyên bạn không nên cố gắng sử dụng một tập dữ liệu bị che khuất làm đầu vào cho bất kỳ phân tích nào. Thay vào đó, hãy thực hiện phân tích của bạn và che giấu kết quả. Nhập mô -đunfrom msticpy.data import data_obfus Xem Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string8 để biết chi tiết API. Chức năng mặt nạ cá nhânTrong các ví dụ dưới đây, chúng tôi sẽ nhập các chức năng riêng lẻ từ mô -đun data_obfus nhưng bạn có thể truy cập chúng với câu lệnh nhập duy nhất hiển thị ở trên dưới dạng thuộc tính của mô -đun đó. data_obfus.hash_string(...) Hash_StringHash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string9 thực hiện một hàm băm đơn giản của đầu vào. Nếu đầu vào là một chuỗi số, nó sẽ xuất ra một số. Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string Ví dụ > hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 59944 Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. Hash a simple string. Parameters ---------- input_item : str The input string delim: str, optional A string of delimiters to use to split the input string prior to hashing. Returns ------- str The masked output string Ví dụ > hash_item('sensitive data', delim=' ') kdneqoiia laoe > hash_item('most-sensitive-data/here', delim=' /-') kmea-kdneqoiia-laoe/fcec Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. Hash_ip Cảnh báo Các chức năng này chỉ được dự định để che dấu dữ liệu. Không có nỗ lực thực sự được thực hiện để bảo tồn cú pháp và ý nghĩa của đầu ra. Chúng tôi khuyên bạn không nên cố gắng sử dụng một tập dữ liệu bị che khuất làm đầu vào cho bất kỳ phân tích nào. Thay vào đó, hãy thực hiện phân tích của bạn và che giấu kết quả. Nhập mô -đun Xem Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string8 để biết chi tiết API. Hash IP address or list of IP addresses. Parameters ---------- input_item : Union[List[str], str] List of IP addresses or single IP address. Returns ------- Union[List[str], str] List of hashed addresses or single address. (depending on input) Ví dụ > hash_ip('192.168.3.1') 160.21.239.194 > hash_ip('2001:0db8:85a3:0000:0000:8a2e:0370:7334') 85d6:7819:9cce:9af1:9af1:24ad:d338:7d03 > hash_ip('['192.168.3.1', '192.168.5.2', '192.168.10.2']') ['160.21.239.194', '160.21.103.84', '160.21.149.84'] > hash_ip("127.0.0.1") '127.0.0.1' # private network prefixes preserved > hash_ip("10.1.23.456") '10.19.74.1' > hash_ip("192.168.23.456") '192.168.80.1' Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. Hash a SID preserving well-known SIDs and the RID. Parameters ---------- sid : str SID string Returns ------- str Hashed SID Ví dụ > hash_sid('S-1-5-21-1180699209-877415012-3182924384-1004') S-1-5-21-3321821741-636458740-4143214142-1004 > hash_sid('S-1-5-18') S-1-5-18 Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. data_obfus.hash_string(...)0 Ví dụ data_obfus.hash_string(...)1 Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. data_obfus.hash_string(...)2 Ví dụ data_obfus.hash_string(...)3 Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. data_obfus.hash_string(...)4 Ví dụ data_obfus.hash_string(...)5 Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. Hash_ip data_obfus.hash_string(...)6 Ví dụ data_obfus.hash_string(...)7 Hash_Item> hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599440 cho phép đặc điểm kỹ thuật của các dấu phân cách. Điều này rất hữu ích để bảo tồn giao diện của miền, email, v.v. Hash_ip > hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599441 sẽ xuất các ánh xạ ngẫu nhiên của địa chỉ IP V4 và V6 đầu vào. Đối với địa chỉ IPv4, điều này hoạt động bằng cách tạo ánh xạ ngẫu nhiên của từng byte của địa chỉ. Vì vậy, nhiều lần xuất hiện của cùng một địa chỉ IP sẽ được chuyển đổi thành cùng một địa chỉ đầu ra ngẫu nhiên. Bản đồ vẫn còn cho phiên Python. Một số địa chỉ IP đặc biệt (localhost, 0.0.0.0) và tiền tố của các địa chỉ riêng được bảo tồn được bảo tồn. data_obfus.hash_string(...)8 Cảnh báo Không có kiểm tra nào được thực hiện cho các va chạm với các IP công khai được ánh xạ ngẫu nhiên vào 10.x.x.x hoặc các không gian địa chỉ riêng tư khác. Ghi chú
Trong ví dụ đầu tiên, Tenantid, Resourcegroup, VMName đã được che dấu.
2019-02-12 14: 22: 40.681 2019-02-12 13: 00: 48.000ibmkajbmepnmiaeilfofa [‘13 .71.172.130, ‘13 .71.172.128,]]Creating custom mappings. data_obfus.hash_string(...)9 Tenantid và Resourcegroup đã được che dấu nhưng VMName và các trường iPaddress không có.
2019-02-12 14: 22: 40.6812019-02-12 13: 00: 48.000 ibmkajbmepnmiaeilfofa [‘13 .71.172.130, ‘13 .71.172.128,]] Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string0
2019-02-12 14: 22: 40.6812019-02-12 13: 00: 48.000 Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string1 ibmkajbmepnmiaeilfofa
Vmipaddress
Allextips 2019-02-12 14: 22: 40.697 2019-02-12 13: 00: 07.000 fmlmbnlpdcbnbnn[‘62 .100.208.57]] [‘156.64.40.139,‘ 156.64.40.236,]] Mặt nạ_df Bạn cũng có thể gọi hàm tiêu chuẩn > hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599448 để thực hiện cùng một thao tác trên DataFrame được truyền dưới dạng tham số dữ liệu.@mydomain.com” Cảnh báo Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string2 Hàm này được đổi tên từ obfuscate_df thành mask_df trong msticpy 0.9.0. Tên chức năng trước đó vẫn tồn tại dưới dạng bí danh của mặt nạ_df Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string3 Tạo ánh xạ tùy chỉnh Kiểm tra kết quả mặt nạ của bạnSử dụng chức năng > hash_string('sensitive data') jdiqcnrqmlidkd > hash_string('42424') 599449 để đảm bảo rằng bạn đã che dấu tất cả các cột dữ liệu mà bạn cần. Sử dụng Hash a simple string. Parameters ---------- input_item : str The input string delim: str, optional A string of delimiters to use to split the input string prior to hashing. Returns ------- str The masked output string0 để in ra kết quả. Nếu bạn sử dụng Hash a simple string. Parameters ---------- input_item : str The input string delim: str, optional A string of delimiters to use to split the input string prior to hashing. Returns ------- str The masked output string1 (mặc định), nó sẽ trả về 2 danh sách các cột Hash a simple string. Parameters ---------- input_item : str The input string delim: str, optional A string of delimiters to use to split the input string prior to hashing. Returns ------- str The masked output string2 và Hash a simple string. Parameters ---------- input_item : str The input string delim: str, optional A string of delimiters to use to split the input string prior to hashing. Returns ------- str The masked output string3. Ghi chú Theo mặc định, điều này sẽ chỉ kiểm tra hàng đầu tiên của dữ liệu. Bạn có thể kiểm tra các hàng khác bằng tham số Index. Cảnh báo Hai khung dữ liệu nên có một chỉ mục phù hợp và đặt hàng vì kiểm tra hoạt động bằng cách so sánh các giá trị trong mỗi cột, việc đánh giá rằng các giá trị cột không khớp đã được che dấu. Chúng tôi tạo các khung dữ liệu đeo mặt nạ một phần và đầy đủ để kiểm tra và chạy kiểm tra so với đầu tiên. Chúng ta có thể thấy rằng một số cột quan trọng được liệt kê là không thay đổi. Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string4 Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string5 Kiểm tra dữ liệu mặt nạ đầy đủ, chúng ta có thể thấy rằng tất cả các cột mong muốn đã được chuyển đổi. Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string6 Hash a simple string. Parameters ---------- input_str : str The input string Returns ------- str The masked output string7 Làm thế nào để bạn che giấu dữ liệu nhạy cảm?Dưới đây là một vài kỹ thuật mặt nạ dữ liệu phổ biến bạn có thể sử dụng để bảo vệ dữ liệu nhạy cảm trong bộ dữ liệu của mình ... Nhiệm vụ giả dữ liệu.Cho phép bạn chuyển đổi một tập dữ liệu gốc, chẳng hạn như tên hoặc e-mail, với bút danh hoặc bí danh..... Ẩn danh dữ liệu..... Thay thế tra cứu..... Mã hóa..... Sự biên tập..... Trung bình..... Xáo trộn..... Chuyển đổi ngày .. Làm thế nào để bạn ẩn danh dữ liệu trong Python?Tạo tên giả .. Tạo một khóa CSV, có chứa tên thực và giả .. Thả tên thật từ DataFrame gốc .. Trình bày một khung dữ liệu rõ ràng, ẩn danh không thể phân biệt được về mặt cấu trúc với bản gốc .. Làm thế nào để bạn áp dụng mặt nạ dữ liệu?Quá trình này diễn ra như thế này: Lấy một bản sao lưu hoặc một bản sao vàng của cơ sở dữ liệu sản xuất đến một môi trường khác. Hãy yêu cầu bất kỳ dữ liệu không cần thiết nào và che giấu nó trong khi ở Stasis.ave bản sao đeo mặt nạ đến vị trí mong muốn.Take a backup or a golden copy of the production database to a different environment. Remove any unnecessary data, and mask it while in stasis. Save the masked copy to the desired location. |