Xem thảo luận
Cải thiện bài viết
Lưu bài viết
Xem thảo luận
Cải thiện bài viết
Lưu bài viết
Đọc
Explanation:
Bàn luận
Một bộ dữ liệu có thể chứa các loại giá trị khác nhau, đôi khi nó bao gồm các giá trị phân loại. Vì vậy, theo đơn đặt hàng để sử dụng các giá trị phân loại đó để lập trình một cách hiệu quả, chúng tôi tạo ra các biến giả. Một biến giả là một biến nhị phân cho biết liệu một biến phân loại riêng biệt có vào một giá trị cụ thể hay không. & NBSP;pandas.get_dummies[data, prefix=None, prefix_sep=’_’,]
Parameters:
- Như bạn có thể thấy ba biến giả được tạo cho ba giá trị phân loại của thuộc tính nhiệt độ. Chúng ta có thể tạo các biến giả trong python bằng phương thức get_dummies [].
- Cú pháp: pandas.get_dummies [dữ liệu, tiền tố = none, prefix_sep = xông _,]
- Dữ liệu = dữ liệu đầu vào, tức là nó bao gồm khung dữ liệu gấu trúc. danh sách . bộ . Mảng numpy, v.v.
tiền tố = giá trị ban đầu Dummy variables.
prefix_sep = phân tách giá trị dữ liệu.
- Loại trả về: Biến giả.
- Cách tiếp cận từng bước:
- Nhập các mô -đun cần thiết
Xem xét dữ liệu
Python3
Thực hiện các hoạt động trên dữ liệu để lấy người giả
Ví dụ 1: & nbsp;
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 00
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 01
>>> s1 = ['a', 'b', np.nan]7
>>> s1 = ['a', 'b', np.nan]8
>>> s1 = ['a', 'b', np.nan]9
>>> pd.get_dummies[s1] a b 0 1 0 1 0 1 2 0 00
>>> pd.get_dummies[s1] a b 0 1 0 1 0 1 2 0 01
Output:
>>> pd.get_dummies[s]
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
0 >>> pd.get_dummies[s]
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
3
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 04
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 05
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 06
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 07
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 08
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 09
>>> s1 = ['a', 'b', np.nan]0
>>> s1 = ['a', 'b', np.nan]1
>>> s1 = ['a', 'b', np.nan]0
>>> s1 = ['a', 'b', np.nan]3__
Python3
Thực hiện các hoạt động trên dữ liệu để lấy người giả
Ví dụ 1: & nbsp;
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 00
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 01
>>> s1 = ['a', 'b', np.nan]9
>>> pd.get_dummies[s1, dummy_na=True] a b NaN 0 1 0 0 1 0 1 0 2 0 0 14
>>> pd.get_dummies[s1, dummy_na=True] a b NaN 0 1 0 0 1 0 1 0 2 0 0 15
Output:
>>> pd.get_dummies[s]
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
0 >>> pd.get_dummies[s]
a b c
0 1 0 0
1 0 1 0
2 0 0 1
3 1 0 0
3
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 04
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 05
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 06
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 07
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 08
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 09
>>> s1 = ['a', 'b', np.nan]0
>>> s1 = ['a', 'b', np.nan]1
>>> s1 = ['a', 'b', np.nan]0
>>> s1 = ['a', 'b', np.nan]3__
Python3
Thực hiện các hoạt động trên dữ liệu để lấy người giả
Ví dụ 1: & nbsp;
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 00
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 01
>>> s1 = ['a', 'b', np.nan]7
>>> pd.get_dummies[df, prefix=['col1', 'col2']] C col1_a col1_b col2_a col2_b col2_c 0 1 1 0 0 1 0 1 2 0 1 1 0 0 2 3 1 0 0 0 12
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 08
>>> df = pd.DataFrame[{'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], ... 'C': [1, 2, 3]}]7
>>> s1 = ['a', 'b', np.nan]0
>>> df = pd.DataFrame[{'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], ... 'C': [1, 2, 3]}]5
>>> s1 = ['a', 'b', np.nan]0
>>> df = pd.DataFrame[{'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], ... 'C': [1, 2, 3]}]5
>>> s1 = ['a', 'b', np.nan]6
>>> s1 = ['a', 'b', np.nan]7
>>> pd.get_dummies[pd.Series[list['abcaa']]] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 01
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 08
>>> pd.get_dummies[pd.Series[list['abcaa']]] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 03
>>> s1 = ['a', 'b', np.nan]0
>>> pd.get_dummies[pd.Series[list['abcaa']]] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 05
>>> s1 = ['a', 'b', np.nan]0
>>> pd.get_dummies[pd.Series[list['abcaa']]] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 07
>>> pd.get_dummies[pd.Series[list['abcaa']]] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 08
>>> s1 = ['a', 'b', np.nan]9
>>> pd.get_dummies[s1] a b 0 1 0 1 0 1 2 0 00
>>> pd.get_dummies[s1] a b 0 1 0 1 0 1 2 0 01
Output:
Chuyển đổi biến phân loại thành các biến giả/chỉ báo. Dữ liệu để có được các chỉ số giả. Chuỗi để nối các tên cột DataFrame. Vượt qua danh sách có độ dài bằng số lượng cột khi gọi get_dummies trên DataFrame. Ngoài ra, tiền tố có thể là một tên cột ánh xạ từ điển thành tiền tố. Nếu thêm tiền tố, dấu phân cách/dấu phân cách sử dụng. Hoặc vượt qua danh sách hoặc từ điển như với tiền tố. Thêm một cột để chỉ ra NAN, nếu NAN sai bị bỏ qua.
Tên cột trong khung dữ liệu được mã hóa. Nếu các cột không có thì tất cả các cột có đối tượng, chuỗi hoặc danh mục DTYPE sẽ được chuyển đổi.
Sparsebool, mặc định saibool, default FalseCho dù các cột được mã hóa giả phải được hỗ trợ bởi
>>> pd.get_dummies[pd.Series[list['abcaa']], drop_first=True] b c 0 0 0 1 1 0 2 0 1 3 0 0 4 0 02 [đúng] hoặc một mảng numpy thông thường [sai].drop_firstbool, mặc định saibool, default False
Có nên đưa Dummies K-1 ra khỏi các cấp phân loại K bằng cách loại bỏ cấp độ đầu tiên.
DTYPedType, mặc định np.uint8dtype, default np.uint8Kiểu dữ liệu cho các cột mới. Chỉ cho phép một DTYPE duy nhất.
ReturnSdatAframeDữ liệu mã hóa giả.
Ghi chú
Tham khảo Hướng dẫn sử dụng để biết thêm ví dụ.the user guide for more examples.
Ví dụ
>>> s = pd.Series[list['abca']]
>>> pd.get_dummies[s] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0
>>> s1 = ['a', 'b', np.nan]
>>> pd.get_dummies[s1] a b 0 1 0 1 0 1 2 0 0
>>> pd.get_dummies[s1, dummy_na=True] a b NaN 0 1 0 0 1 0 1 0 2 0 0 1
>>> df = pd.DataFrame[{'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'], ... 'C': [1, 2, 3]}]
>>> pd.get_dummies[df, prefix=['col1', 'col2']] C col1_a col1_b col2_a col2_b col2_c 0 1 1 0 0 1 0 1 2 0 1 1 0 0 2 3 1 0 0 0 1
>>> pd.get_dummies[pd.Series[list['abcaa']]] a b c 0 1 0 0 1 0 1 0 2 0 0 1 3 1 0 0 4 1 0 0
>>> pd.get_dummies[pd.Series[list['abcaa']], drop_first=True] b c 0 0 0 1 1 0 2 0 1 3 0 0 4 0 0
>>> pd.get_dummies[pd.Series[list['abc']], dtype=float] a b c 0 1.0 0.0 0.0 1 0.0 1.0 0.0 2 0.0 0.0 1.0