Vì dữ liệu có nhiều hình dạng và hình thức, pandas nhằm mục đích linh hoạt trong việc xử lý dữ liệu bị thiếu. Mặc dù
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 là điểm đánh dấu giá trị bị thiếu mặc định vì lý do tốc độ tính toán và sự tiện lợi, chúng ta cần có khả năng dễ dàng phát hiện giá trị này với các loại dữ liệu khác nhau. dấu phẩy động, số nguyên, boolean và đối tượng chung. Tuy nhiên, trong nhiều trường hợp, Python
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object1 sẽ phát sinh và chúng tôi cũng muốn xem xét rằng “thiếu” hoặc “không có sẵn” hoặc “NA”
Ghi chú
Nếu bạn muốn coi
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object2 và
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object3 là “NA” trong tính toán, bạn có thể đặt
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object4
In [1]: df = pd.DataFrame[ ...: np.random.randn[5, 3], ...: index=["a", "c", "e", "f", "h"], ...: columns=["one", "two", "three"], ...: ] ...: In [2]: df["four"] = "bar" In [3]: df["five"] = df["one"] > 0 In [4]: df Out[4]: one two three four five a 0.469112 -0.282863 -1.509059 bar True c -1.135632 1.212112 -0.173215 bar False e 0.119209 -1.044236 -0.861849 bar True f -2.104569 -0.494929 1.071804 bar False h 0.721555 -0.706771 -1.039575 bar True In [5]: df2 = df.reindex[["a", "b", "c", "d", "e", "f", "g", "h"]] In [6]: df2 Out[6]: one two three four five a 0.469112 -0.282863 -1.509059 bar True b NaN NaN NaN NaN NaN c -1.135632 1.212112 -0.173215 bar False d NaN NaN NaN NaN NaN e 0.119209 -1.044236 -0.861849 bar True f -2.104569 -0.494929 1.071804 bar False g NaN NaN NaN NaN NaN h 0.721555 -0.706771 -1.039575 bar True
Để làm cho việc phát hiện các giá trị bị thiếu dễ dàng hơn [và trên các kiểu mảng khác nhau], pandas cung cấp các hàm
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object5 và
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object6, đây cũng là các phương thức trên các đối tượng Sê-ri và DataFrame
________số 8
Cảnh báo
Người ta phải lưu ý rằng trong Python [và NumPy],
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object7 không so sánh bằng nhau, nhưng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object8 thì có. Lưu ý rằng pandas/NumPy sử dụng thực tế là
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object9 và đối xử với
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object1 như
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object31
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object4
Vì vậy, so với ở trên, so sánh đẳng thức vô hướng so với
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object32 không cung cấp thông tin hữu ích
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object6
Kiểu số nguyên và thiếu dữ liệu#
Bởi vì
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 là một số float, một cột gồm các số nguyên thậm chí còn thiếu một giá trị được chuyển sang kiểu dtype dấu phẩy động [xem Hỗ trợ cho số nguyên NA for more]. pandas provides a nullable integer array, which can be used by explicitly requesting the dtype:
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object8
Ngoài ra, có thể sử dụng bí danh chuỗi
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object34 [lưu ý viết hoa
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object35]
Xem Kiểu dữ liệu số nguyên không thể để biết thêm.
Ngày giờ#
Đối với các loại datetime64[ns],
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object36 đại diện cho các giá trị bị thiếu. Đây là một giá trị sentinel gốc giả có thể được đại diện bởi NumPy trong một dtype số ít [datetime64[ns]]. các đối tượng gấu trúc cung cấp khả năng tương thích giữa
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object36 và
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object4
Chèn dữ liệu bị thiếu#
Bạn có thể chèn các giá trị bị thiếu bằng cách chỉ định cho các vùng chứa. Giá trị thiếu thực tế được sử dụng sẽ được chọn dựa trên dtype
Ví dụ: vùng chứa số sẽ luôn sử dụng
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 bất kể loại giá trị bị thiếu đã chọn
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float64
Tương tự như vậy, các thùng chứa datetime sẽ luôn sử dụng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object36
Đối với các thùng chứa đối tượng, gấu trúc sẽ sử dụng giá trị đã cho
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object
Phép tính thiếu dữ liệu#
Các giá trị bị thiếu lan truyền tự nhiên thông qua các phép toán số học giữa các đối tượng gấu trúc
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object3
Số liệu thống kê mô tả và phương pháp tính toán được thảo luận trong tổng quan về cấu trúc dữ liệu [và được liệt kê tại đây . Ví dụ. . Ví dụ. . Ví dụ. . Ví dụ. . Ví dụ. . Ví dụ. . Ví dụ. . Ví dụ. . Ví dụ. . Ví dụ. and here] are all written to account for missing data. For example:
Khi tổng hợp dữ liệu, các giá trị NA [thiếu] sẽ được coi là 0
Nếu dữ liệu đều là NA, kết quả sẽ là 0
Các phương thức tích lũy như
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object
01 vàIn [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object
02 mặc định bỏ qua các giá trị NA, nhưng giữ nguyên chúng trong các mảng kết quả. Để ghi đè hành vi này và bao gồm các giá trị NA, hãy sử dụngIn [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object
03
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object0
Tổng/sản lượng trống/nans#
Cảnh báo
Hành vi này hiện là tiêu chuẩn kể từ phiên bản v0. 22. 0 và phù hợp với mặc định trong
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object04; . Xem v0. 22. 0 whatsnew để biết thêm.
Tổng của Sê-ri hoặc cột trống hoặc toàn NA của DataFrame là 0
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False0
Sản phẩm của Sê-ri hoặc cột trống hoặc toàn NA của DataFrame là 1
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False1
Giá trị NA trong GroupBy#
Các nhóm NA trong GroupBy sẽ tự động bị loại trừ. Hành vi này phù hợp với R, ví dụ
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False2
Xem phần theo nhóm tại đây để biết thêm thông tin.
Dọn dẹp/điền dữ liệu bị thiếu#
các đối tượng gấu trúc được trang bị nhiều phương pháp thao tác dữ liệu khác nhau để xử lý dữ liệu bị thiếu
Điền các giá trị còn thiếu. điền vào #
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object05 có thể “điền vào” các giá trị NA bằng dữ liệu không phải NA theo một số cách mà chúng tôi minh họa
Thay thế NA bằng một giá trị vô hướng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False3
Điền vào các khoảng trống về phía trước hoặc phía sau
Sử dụng các đối số điền tương tự như lập chỉ mục lại , chúng tôi có thể truyền các giá trị không phải NA về phía trước hoặc phía sau.
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False4
Hạn chế lượng đổ đầy
Nếu chúng tôi chỉ muốn các khoảng trống liên tiếp được lấp đầy tới một số điểm dữ liệu nhất định, chúng tôi có thể sử dụng từ khóa
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object06
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False5
Để nhắc nhở bạn, đây là các phương pháp điền có sẵn
Phương pháp
Hoạt động
đệm / điền vào
Điền giá trị về phía trước
bfill/chèn lấp
Điền ngược giá trị
Với dữ liệu chuỗi thời gian, việc sử dụng pad/fill là cực kỳ phổ biến để "giá trị đã biết cuối cùng" luôn có sẵn tại mọi thời điểm
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object07 tương đương với
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object08 và
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object09 tương đương với
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False00
Điền vào một PandasObject#
Bạn cũng có thể điền vào bằng cách sử dụng một lệnh hoặc Sê-ri có thể căn chỉnh. Các nhãn của lệnh hoặc chỉ mục của Sê-ri phải khớp với các cột của khung bạn muốn điền. Trường hợp sử dụng của việc này là điền vào DataFrame với giá trị trung bình của cột đó
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False6
Kết quả tương tự như trên, nhưng đang căn chỉnh giá trị 'điền' là Sê-ri trong trường hợp này
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False7
Bỏ nhãn trục với dữ liệu bị thiếu. dropna#
Bạn có thể chỉ muốn loại trừ các nhãn khỏi tập dữ liệu đề cập đến dữ liệu bị thiếu. Để làm điều này, hãy sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False01
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False8
Có sẵn một
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False01 tương đương cho Sê-ri. Khung dữ liệu. dropna có nhiều tùy chọn hơn đáng kể so với Series. dropna, có thể được kiểm tra trong API .
nội suy #
Cả hai đối tượng Sê-ri và DataFrame đều có
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False03, theo mặc định, thực hiện phép nội suy tuyến tính tại các điểm dữ liệu bị thiếu
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False9
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object40
Nội suy nhận biết chỉ mục có sẵn thông qua từ khóa
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False04
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object41
Đối với chỉ mục dấu phẩy động, hãy sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False05
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object42
Bạn cũng có thể nội suy với DataFrame
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object43
Đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False04 cung cấp quyền truy cập vào các phương pháp nội suy huyền ảo hơn. Nếu bạn đã cài đặt scipy, bạn có thể chuyển tên của quy trình nội suy 1-d cho
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False04. Bạn sẽ muốn tham khảo tài liệu nội suy scipy đầy đủ và hướng dẫn tham khảo để biết chi tiết. Phương pháp nội suy thích hợp sẽ phụ thuộc vào loại dữ liệu bạn đang làm việc với
Nếu bạn đang xử lý một chuỗi thời gian đang phát triển với tốc độ ngày càng tăng, thì
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False
08 có thể phù hợpNếu bạn có các giá trị xấp xỉ hàm phân phối tích lũy, thì
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False
09 sẽ hoạt động tốtĐể lấp đầy các giá trị còn thiếu với mục tiêu vẽ đồ thị trơn tru, hãy xem xét
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False
10
Cảnh báo
Các phương pháp này yêu cầu
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False11
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object44
Khi nội suy thông qua phép xấp xỉ đa thức hoặc hàm spline, bạn cũng phải chỉ định bậc hoặc thứ tự của phép xấp xỉ
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object45
So sánh một số phương pháp
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object46
Một trường hợp sử dụng khác là nội suy tại các giá trị mới. Giả sử bạn có 100 quan sát từ một số phân phối. Và giả sử rằng bạn đặc biệt quan tâm đến những gì đang xảy ra ở giữa. Bạn có thể kết hợp các phương thức
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False12 và
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False13 của gấu trúc để nội suy ở các giá trị mới
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object47
Giới hạn nội suy#
Giống như các phương thức điền pandas khác,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False03 chấp nhận đối số từ khóa
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object06. Sử dụng đối số này để giới hạn số lượng giá trị
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 liên tiếp được điền kể từ lần quan sát hợp lệ cuối cùng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object48
Theo mặc định, các giá trị
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 được điền theo hướng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False18. Sử dụng tham số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False19 để điền vào
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False20 hoặc từ hướng dẫn của
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False21
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object49
Theo mặc định, các giá trị
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 được điền cho dù chúng ở bên trong [được bao quanh bởi] các giá trị hợp lệ hiện có hay bên ngoài các giá trị hợp lệ hiện có. Tham số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False23 hạn chế điền giá trị bên trong hoặc bên ngoài
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object60
Thay thế các giá trị chung #
Thông thường, chúng tôi muốn thay thế các giá trị tùy ý bằng các giá trị khác
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False24 trong Sê-ri và
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False24 trong DataFrame cung cấp một cách hiệu quả nhưng linh hoạt để thực hiện các thay thế đó
Đối với Sê-ri, bạn có thể thay thế một giá trị hoặc danh sách các giá trị bằng một giá trị khác
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object61
Bạn có thể thay thế một danh sách các giá trị bằng một danh sách các giá trị khác
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object62
Bạn cũng có thể chỉ định một lệnh ánh xạ
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object63
Đối với DataFrame, bạn có thể chỉ định các giá trị riêng lẻ theo cột
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object64
Thay vì thay thế bằng các giá trị đã chỉ định, bạn có thể coi tất cả các giá trị đã cho là thiếu và nội suy trên chúng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object65
Thay thế chuỗi/biểu thức chính quy#
Ghi chú
Chuỗi Python có tiền tố là ký tự
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False26 chẳng hạn như
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False27 được gọi là chuỗi "thô". Chúng có ngữ nghĩa khác nhau về dấu gạch chéo ngược so với các chuỗi không có tiền tố này. Dấu gạch chéo ngược trong chuỗi thô sẽ được hiểu là dấu gạch chéo ngược đã thoát, e. g. ,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False28. Bạn nên đọc về chúng nếu điều này không rõ ràng
Thay thế cái '. ’ với
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float648 [str -> str]
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object66
Bây giờ hãy làm điều đó với một biểu thức chính quy loại bỏ khoảng trắng xung quanh [regex -> regex]
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object67
Thay thế một vài giá trị khác nhau [danh sách -> danh sách]
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object68
danh sách regex -> danh sách regex
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object69
Chỉ tìm kiếm trong cột
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False30 [dict -> dict]
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object80
Tương tự như ví dụ trước, nhưng thay vào đó hãy sử dụng biểu thức chính quy để tìm kiếm [dict của regex -> dict]
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object81
Bạn có thể chuyển các từ điển lồng nhau của các biểu thức chính quy sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False31
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object82
Ngoài ra, bạn có thể chuyển từ điển lồng nhau như vậy
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object83
Bạn cũng có thể sử dụng nhóm đối sánh biểu thức chính quy khi thay thế [dict of regex -> dict of regex], điều này cũng hoạt động cho các danh sách
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object84
Bạn có thể chuyển một danh sách các biểu thức chính quy, trong đó những biểu thức phù hợp sẽ được thay thế bằng vô hướng [danh sách biểu thức chính quy -> biểu thức chính quy]
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object85
Tất cả các ví dụ về biểu thức chính quy cũng có thể được chuyển với đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False32 làm đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False33. Trong trường hợp này, đối số
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False34 phải được chuyển rõ ràng theo tên hoặc
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False33 phải là một từ điển lồng nhau. Ví dụ trước, trong trường hợp này, sau đó sẽ là
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object86
Điều này có thể thuận tiện nếu bạn không muốn vượt qua
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False31 mỗi khi bạn muốn sử dụng biểu thức chính quy
Ghi chú
Bất cứ nơi nào trong các ví dụ về
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False37 ở trên mà bạn thấy một biểu thức chính quy, một biểu thức chính quy được biên dịch cũng hợp lệ
Thay thế số #
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False24 tương tự như
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object05
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object87
Có thể thay thế nhiều hơn một giá trị bằng cách chuyển một danh sách
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object88
Bạn cũng có thể thao tác trên DataFrame tại chỗ
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object89
Thiếu quy tắc truyền dữ liệu và lập chỉ mục#
Mặc dù gấu trúc hỗ trợ lưu trữ các mảng kiểu số nguyên và kiểu boolean, nhưng các kiểu này không có khả năng lưu trữ dữ liệu bị thiếu. Cho đến khi chúng tôi có thể chuyển sang sử dụng loại NA gốc trong NumPy, chúng tôi đã thiết lập một số "quy tắc truyền". Khi thao tác lập chỉ mục lại giới thiệu dữ liệu bị thiếu, Sê-ri sẽ được truyền theo các quy tắc được giới thiệu trong bảng bên dưới
loại dữ liệu
Truyền tới
số nguyên
trôi nổi
boolean
mục tiêu
trôi nổi
không có diễn viên
mục tiêu
không có diễn viên
Ví dụ
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object40
Thông thường, NumPy sẽ phàn nàn nếu bạn cố gắng sử dụng một mảng đối tượng [ngay cả khi nó chứa các giá trị boolean] thay vì một mảng boolean để lấy hoặc đặt các giá trị từ một ndarray [e. g. lựa chọn các giá trị dựa trên một số tiêu chí]. Nếu một vectơ boolean chứa NA, một ngoại lệ sẽ được tạo
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object41
Tuy nhiên, những điều này có thể được điền bằng cách sử dụng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object05 và nó sẽ hoạt động tốt
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object42
pandas cung cấp một dtype số nguyên nullable, nhưng bạn phải yêu cầu nó một cách rõ ràng khi tạo chuỗi hoặc cột. Lưu ý rằng chúng tôi sử dụng chữ “I” viết hoa trong
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False41
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object43
Xem Kiểu dữ liệu số nguyên không thể để biết thêm.
Thử nghiệm vô hướng In [21]: s = pd.Series[[1, 2, 3]]
In [22]: s.loc[0] = None
In [23]: s
Out[23]:
0 NaN
1 2.0
2 3.0
dtype: float64
9 để biểu thị các giá trị bị thiếu#
Cảnh báo
Thực nghiệm. hành vi của
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 vẫn có thể thay đổi mà không cần cảnh báo
Mới trong phiên bản 1. 0. 0
Bắt đầu từ pandas 1. 0, một giá trị
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 thử nghiệm [singleton] có sẵn để biểu thị các giá trị vô hướng bị thiếu. Tại thời điểm này, nó được sử dụng trong số nguyên nullable, boolean và chuỗi chuyên dụng data types as the missing value indicator.
Mục tiêu của
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 là cung cấp một chỉ báo “còn thiếu” có thể được sử dụng nhất quán trên các loại dữ liệu [thay vì
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object31,
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object1 hoặc
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False48 tùy thuộc vào loại dữ liệu]
Ví dụ: khi có các giá trị bị thiếu trong Sê-ri với dtype số nguyên nullable, nó sẽ sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object44
Hiện tại, pandas chưa sử dụng các loại dữ liệu đó theo mặc định [khi tạo DataFrame hoặc Sê-ri hoặc khi đọc dữ liệu], vì vậy bạn cần chỉ định rõ ràng loại dtype. Một cách dễ dàng để chuyển đổi sang các dtype đó được giải thích tại đây .
Tuyên truyền trong các hoạt động số học và so sánh #
Nói chung, các giá trị bị thiếu lan truyền trong các hoạt động liên quan đến
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43. Khi một trong các toán hạng không xác định, kết quả của hoạt động cũng không xác định
Ví dụ:
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 lan truyền trong các phép toán số học, tương tự như
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object31
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object45
Có một số trường hợp đặc biệt khi biết trước kết quả, ngay cả khi một trong các toán hạng là
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object46
Trong các hoạt động so sánh và bình đẳng,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 cũng tuyên truyền. Điều này khác với hành vi của
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object31, trong đó so sánh với
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object31 luôn trả về
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object47
Để kiểm tra xem một giá trị có bằng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 hay không, có thể sử dụng hàm
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object5
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object48
Một ngoại lệ đối với quy tắc lan truyền cơ bản này là các phép giảm [chẳng hạn như giá trị trung bình hoặc giá trị tối thiểu], trong đó gấu trúc mặc định bỏ qua các giá trị bị thiếu. Xem ở trên để biết thêm.
Các phép toán logic#
Đối với các hoạt động logic,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 tuân theo các quy tắc của logic ba giá trị [hoặc logic Kleene, tương tự như R, SQL và Julia]. Logic này có nghĩa là chỉ truyền các giá trị bị thiếu khi nó được yêu cầu về mặt logic
Ví dụ: đối với phép toán logic “or” [
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False61], nếu một trong các toán hạng là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False62, thì chúng ta đã biết kết quả sẽ là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False62, bất kể giá trị khác là gì [vì vậy, bất kể giá trị bị thiếu sẽ là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False62 hay
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57]. Trong trường hợp này,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 không lan truyền
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object49
Mặt khác, nếu một trong các toán hạng là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57, kết quả sẽ phụ thuộc vào giá trị của toán hạng kia. Do đó, trong trường hợp này,
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 tuyên truyền
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float640
Hành vi của phép toán logic “và” [
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False69] có thể được bắt nguồn bằng cách sử dụng logic tương tự [hiện tại
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 sẽ không lan truyền nếu một trong các toán hạng đã là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False57]
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float641
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float642
In [21]: s = pd.Series[[1, 2, 3]]
In [22]: s.loc[0] = None
In [23]: s
Out[23]:
0 NaN
1 2.0
2 3.0
dtype: float64
9 trong ngữ cảnh boolean#
Vì giá trị thực của NA là không xác định nên việc chuyển đổi NA thành giá trị boolean là không rõ ràng. Sau đây gây ra một lỗi
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float643
Điều này cũng có nghĩa là không thể sử dụng
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 trong ngữ cảnh khi nó được đánh giá theo giá trị boolean, chẳng hạn như
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False74 trong đó
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False75 có thể có khả năng là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43. Trong những trường hợp như vậy, có thể sử dụng
In [24]: s = pd.Series[["a", "b", "c"]] In [25]: s.loc[0] = None In [26]: s.loc[1] = np.nan In [27]: s Out[27]: 0 None 1 NaN 2 c dtype: object5 để kiểm tra
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43 hoặc có thể tránh được
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False75 là
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False43, ví dụ bằng cách điền trước các giá trị còn thiếu
Tình huống tương tự xảy ra khi sử dụng các đối tượng Sê-ri hoặc DataFrame trong câu lệnh
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False81, xem Sử dụng câu lệnh if/truth với gấu trúc .
NumPy ufuncs#
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False82 thực hiện giao thức
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False83 của NumPy. Hầu hết các ufunc đều hoạt động với
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649 và thường trả về
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float644
Cảnh báo
Hiện tại, các ufunc liên quan đến ndarray và
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float649 sẽ trả về một object-dtype chứa đầy các giá trị NA
In [21]: s = pd.Series[[1, 2, 3]] In [22]: s.loc[0] = None In [23]: s Out[23]: 0 NaN 1 2.0 2 3.0 dtype: float645
Kiểu trả về ở đây có thể thay đổi để trả về một kiểu mảng khác trong tương lai
Xem Khả năng tương tác của DataFrame với các hàm NumPy để biết thêm về ufunc.
chuyển đổi #
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False90 and
In [7]: df2["one"] Out[7]: a 0.469112 b NaN c -1.135632 d NaN e 0.119209 f -2.104569 g NaN h 0.721555 Name: one, dtype: float64 In [8]: pd.isna[df2["one"]] Out[8]: a False b True c False d True e False f False g True h False Name: one, dtype: bool In [9]: df2["four"].notna[] Out[9]: a True b False c True d False e True f True g False h True Name: four, dtype: bool In [10]: df2.isna[] Out[10]: one two three four five a False False False False False b True True True True True c False False False False False d True True True True True e False False False False False f False False False False False g True True True True True h False False False False False91 infer default dtypes.
Trong ví dụ này, trong khi kiểu chữ của tất cả các cột được thay đổi, chúng tôi hiển thị kết quả cho 10 cột đầu tiên