Hướng dẫn dùng pandas display python
Pandas là một thư viện Python cung cấp các cấu trúc dữ liệu nhanh, mạnh mẽ, linh hoạt và mang hàm ý. Tên thư viện được bắt nguồn từ panel data (bảng dữ liệu). Pandas được thiết kế để làm việc dễ dàng và trực quan với dữ liệu có cấu trúc (dạng bảng, đa chiều, có tiềm năng không đồng nhất) và dữ liệu chuỗi thời gian. Show Mục tiêu của pandas là trở thành khối căn bản (building block) cấp cao cơ bản cho công việc thực tế, phân tích dữ liệu thế giới thực trong Python, và rộng hơn là trở thành công cụ thao tác / phân tích mã nguồn mở mạnh mẽ và linh hoạt nhất có sẵn trong bất kỳ loại ngôn ngữ lập trình nào. Vì sao bạn nên chọn pandas?Pandas rất phù hợp với nhiều loại dữ liệu khác nhau:
Ưu điểm của pandas:
Cài đặt thư viện Pandas
Để tìm các cách cài đặt pandas khác bạn hãy xem thêm tại ĐÂY. Khai báo thư viện Pandas
Trong phạm vi bài viết này mình sẽ giới thiệu về các xử lý dữ liệu cho 2 cấu trúc dữ liệu cơ bản trong pandas. Thao tác với cấu trúc dữ liệu cơ bảnPandas có 2 cấu trúc dữ liệu cơ bản là:
Panel (3 chiều) từng là một cấu trúc dữ liệu trong pandas trước khi bị gỡ bỏ từ phiên bản 0.25. Bạn có thể tham khảo về panel ở phiên bản 0.24. 1. Series
Series là mảng một chiều giống như
mảng Numpy, hay như một cột của một bảng, nhưng nó bao gồm thêm một bảng đánh label. Series có thể được khởi tạo thông qua NumPy, kiểu Dict hoặc các dữ liệu vô hướng bình thường. Series có nhiều thuộc tính như index, array, values, dtype, v.v. Bạn có thể thực hiện chuyển đổi Series sang dạng dtype xác định, tạo bảng copy, trả về dạng bool của một thành phần, chuyển Series từ DatetimeIndex sang PeriodIndex, v.v. Một số ví dụ về thao tác với Series: Tạo Series Ví dụ 1: Không truyền index
Output:
pandas sẽ mặc định truyền indextừ 0 đến
Ví dụ 3: Tạo Series từ dict
Output:
Chúng ta tạo dict có index Ví dụ 4: Tạo Series từ Scalar
Output:
Truy cập dữ liệu từ Series với index và vị trí
Output:
Ví dụ 6: Lấy dữ liệu từ đầu đến vị trí index cụ thể
Output:
Ví dụ 7: Lấy dữ liệu theo vị trí: 2 dữ liệu đầu
Output:
Ví dụ 8: Lấy 3 dữ liệu cuối
Output:
Chuyển đổi sang dạng khác Ví dụ 9: Lấy dạng array của Series bằng
Output:
Còn rất nhiều thao tác khác mà bạn thực hiện được với Series của pandas tại ĐÂY. 2. DataFrame
Dataframe là cấu trúc dữ liệu được gắn nhãn hai chiều với các cột và hàng như bảng tính (spreadsheet) hoặc bảng (table). Giống như Series, DataFrame có thể chứa bất kỳ loại dữ liệu nào. Một điều quan trọng cần làm nổi bật là tất cả các cột trong khung dữ liệu là series Pandas. Vì vậy, một DataFrame là sự kết hợp của nhiều Series đóng vai trò như các cột! DataFrame được sử dụng rộng rãi và là một trong những cấu trúc dữ liệu quan trọng nhất. Chúng ta hãy bắt đầu với tạo DataFrame
Output:
Ví dụ 2: Tạo DataFrame từ dict các Series 2
Output:
Ngoài ra còn nhiều cách tạo DataFrame khác như từ dict các ndarray/list, từ list của dict, từ một Series, v.v. Các thao tác chọn, thêm, xóa cột Ví dụ 3: Chọn cột (column selection)
Output:
Ví dụ 4: Một số cách thêm cột (column addition)
Output:
Ví dụ 5: Xóa cột (column deletion)
Output:
Lập chỉ mục/ lựa chọn Những điều cơ bản của việc lập chỉ mục như sau
Ví dụ 1: Chọn dòng theo label
Output:
Ví dụ 2: Chọn dòng theo vị trí nguyên
Output:
Ví dụ 3: Cắt (slice) các dòng
Output:
Bên trên là một số thao tác cơ bản với DataFrame. Bạn có thể tham khảo thêm chi tiết về DataFrame tại ĐÂY. Ngoài các thao tác với Series và DataFrame, pandas còn rất nhiều các chức năng tuyệt vời khác. Tạm kếtpandas cung cấp một nền tảng vững chắc để thiết lập một hệ sinh thái phân tích dữ liệu rất mạnh. Sự xuất hiện của thư viện này đã giúp cho Python trở thành một lựa chọn hấp dẫn cho các ứng dụng phân tích dữ liệu. Nếu bạn có bất kỳ góp ý xin hãy để lại lời nhắn ở phần bình luận và đánh giá 5 sao nếu bạn thấy hay. Cảm ơn các bạn đã đọc. Hẹn gặp lại các bạn trong các bài viết tiếp theo. Tham khảo1. https://pandas.pydata.org/pandas. 2. https://pypi.org/project/pandas/PyPI. 3. Wikipedia. 4. Wes McKinney (2011). pandas: a Foundational Python Library for Data Analysis and Statistics (PDF). |