Hướng dẫn how does python handle sparse matrix? - python xử lý ma trận thưa thớt như thế nào?
Gói mảng thưa thớt Scipy 2-D cho dữ liệu số. Show
Ghi chú Gói này đang chuyển sang giao diện mảng, tương thích với các mảng numpy, từ giao diện ma trận cũ hơn. Chúng tôi khuyên bạn nên sử dụng các đối tượng mảng ( >>> np.dot(A.toarray(), v) array([ 1, -3, -1], dtype=int64)0, v.v.) cho tất cả các công việc mới. Khi sử dụng giao diện mảng, xin lưu ý rằng:
Các tiện ích xây dựng ( >>> np.dot(A.toarray(), v) array([ 1, -3, -1], dtype=int64)3, >>> np.dot(A.toarray(), v) array([ 1, -3, -1], dtype=int64)4, >>> np.dot(A.toarray(), v) array([ 1, -3, -1], dtype=int64)5, >>> np.dot(A.toarray(), v) array([ 1, -3, -1], dtype=int64)6, v.v.) vẫn chưa được chuyển, nhưng kết quả của chúng có thể được gói thành các mảng: Contents#Các lớp mảng thưa thớt#
Các lớp ma trận thưa thớt#
Functions#Xây dựng ma trận thưa thớt:
Lưu và tải ma trận thưa thớt:
Công cụ ma trận thưa thớt:
Xác định ma trận thưa thớt:
Submodules#
Exceptions#
Thông tin sử dụng#Có bảy loại ma trận thưa thớt có sẵn:
Để xây dựng một ma trận một cách hiệu quả, hãy sử dụng DOK_MATRIX hoặc LIL_MATRIX. Lớp LIL_MATRIX hỗ trợ cắt lát cơ bản và lập chỉ mục ưa thích với một cú pháp tương tự như các mảng numpy. Như được minh họa dưới đây, định dạng COO cũng có thể được sử dụng để xây dựng ma trận hiệu quả. Mặc dù sự tương đồng của chúng với các mảng numpy, nhưng việc sử dụng các chức năng numpy trực tiếp trên các ma trận này không có thể chuyển đổi đúng cách cho các tính toán, dẫn đến kết quả bất ngờ (và không chính xác). Nếu bạn muốn áp dụng chức năng numpy cho các ma trận này, trước tiên hãy kiểm tra xem Scipy có triển khai riêng cho lớp ma trận thưa thớt đã cho hay chuyển đổi ma trận thưa Đầu tiên trước khi áp dụng phương pháp.strongly discouraged to use NumPy functions directly on these matrices because NumPy may not properly convert them for computations, leading to unexpected (and incorrect) results. If you do want to apply a NumPy function to these matrices, first check if SciPy has its own implementation for the given sparse matrix class, or convert the sparse matrix to a NumPy array (e.g., using the toarray() method of the class) first before applying the method. Để thực hiện các thao tác như phép nhân hoặc đảo ngược, trước tiên hãy chuyển đổi ma trận thành định dạng CSC hoặc CSR. Định dạng LIL_MATRIX dựa trên hàng, do đó chuyển đổi sang CSR là hiệu quả, trong khi chuyển đổi sang CSC là ít hơn. Tất cả các chuyển đổi giữa các định dạng CSR, CSC và COO là các hoạt động hiệu quả, thời gian tuyến tính. Sản phẩm vector ma trận#Để thực hiện một sản phẩm vectơ giữa ma trận thưa thớt và vectơ chỉ cần sử dụng phương thức DOT ma trận, như được mô tả trong tài liệu của nó: >>> import numpy as np >>> from scipy.sparse import csr_matrix >>> A = csr_matrix([[1, 2, 0], [0, 0, 3], [4, 0, 5]]) >>> v = np.array([1, 0, -1]) >>> A.dot(v) array([ 1, -3, -1], dtype=int64) Cảnh báo Kể từ Numpy 1.7, NP.DOT không biết về ma trận thưa thớt, do đó sử dụng nó sẽ dẫn đến kết quả hoặc lỗi không mong muốn. Thay vào đó, mảng dày đặc tương ứng phải được lấy trước tiên: thay vào đó: >>> np.dot(A.toarray(), v) array([ 1, -3, -1], dtype=int64) Nhưng sau đó tất cả các lợi thế hiệu suất sẽ bị mất. Định dạng CSR đặc biệt phù hợp cho các sản phẩm vector ma trận nhanh. Ví dụ 1#Xây dựng 1000x1000 lil_matrix và thêm một số giá trị vào nó: >>> from scipy.sparse import lil_matrix >>> from scipy.sparse.linalg import spsolve >>> from numpy.linalg import solve, norm >>> from numpy.random import rand >>> A = lil_matrix((1000, 1000)) >>> A[0, :100] = rand(100) >>> A[1, 100:200] = A[0, :100] >>> A.setdiag(rand(1000)) Bây giờ hãy chuyển đổi nó thành định dạng CSR và giải A x = B cho x: >>> A = A.tocsr() >>> b = rand(1000) >>> x = spsolve(A, b) Chuyển đổi nó thành một ma trận dày đặc và giải quyết, và kiểm tra xem kết quả có giống nhau không: >>> x_ = solve(A.toarray(), b) Bây giờ chúng ta có thể tính toán định mức của lỗi với: >>> err = norm(x-x_) >>> err < 1e-10 True Nó phải nhỏ :) Ví dụ 2#Xây dựng một ma trận ở định dạng COO: >>> from scipy import sparse >>> from numpy import array >>> I = array([0,3,1,0]) >>> J = array([0,3,1,2]) >>> V = array([4,5,7,9]) >>> A = sparse.coo_matrix((V,(I,J)),shape=(4,4)) Lưu ý rằng các chỉ số không cần phải được sắp xếp. Các mục trùng lặp (i, j) được tổng hợp khi chuyển đổi sang CSR hoặc CSC. >>> I = array([0,0,1,3,1,0,0]) >>> J = array([0,2,1,3,1,0,0]) >>> V = array([1,1,1,1,1,1,1]) >>> B = sparse.coo_matrix((V,(I,J)),shape=(4,4)).tocsr() Điều này rất hữu ích cho việc xây dựng độ cứng nguyên tố hữu hạn và ma trận khối lượng. Biết thêm chi tiết#Chỉ số cột CSR không nhất thiết phải được sắp xếp. Tương tự như vậy đối với các chỉ số hàng CSC. Sử dụng các phương thức .sorted_indices () và .sort_indices () khi các chỉ số được sắp xếp được yêu cầu (ví dụ: khi chuyển dữ liệu cho các thư viện khác). Làm thế nào để Python đối phó với ma trận thưa thớt?Đại diện cho một ma trận thưa thớt bằng một mảng 2D dẫn đến sự lãng phí của nhiều bộ nhớ vì các số 0 trong ma trận không được sử dụng trong hầu hết các trường hợp. Vì vậy, thay vì lưu trữ số 0 với các phần tử khác không, chúng tôi chỉ lưu trữ các yếu tố khác không. Điều này có nghĩa là lưu trữ các phần tử khác không với bộ ba- (hàng, cột, giá trị).instead of storing zeroes with non-zero elements, we only store non-zero elements. This means storing non-zero elements with triples- (Row, Column, value).
Làm thế nào để bạn lưu trữ một ma trận thưa thớt trong Python?Lưu ma trận thưa thớt vào tệp bằng định dạng .npz.Tên tệp (chuỗi) hoặc một tệp mở (đối tượng giống như tệp) nơi dữ liệu sẽ được lưu. npz format. Either the file name (string) or an open file (file-like object) where the data will be saved.
Làm thế nào để bạn xử lý ma trận thưa thớt?Giải pháp để biểu diễn và làm việc với ma trận thưa thớt là sử dụng cấu trúc dữ liệu thay thế để thể hiện dữ liệu thưa thớt.Các giá trị bằng không có thể được bỏ qua và chỉ các giá trị dữ liệu hoặc không khác trong ma trận thưa thớt cần được lưu trữ hoặc hoạt động.use an alternate data structure to represent the sparse data. The zero values can be ignored and only the data or non-zero values in the sparse matrix need to be stored or acted upon.
Làm thế nào để máy học xử lý dữ liệu thưa thớt?Phương pháp đối phó với các tính năng thưa thớt.. Loại bỏ các tính năng khỏi mô hình.Các tính năng thưa thớt có thể giới thiệu tiếng ồn, mô hình nhận được và tăng nhu cầu bộ nhớ của mô hình..... Làm cho các tính năng dày đặc..... Sử dụng các mô hình mạnh mẽ để các tính năng thưa thớt .. |