Khung dữ liệu trong python

Thư viện pandas python là gì? . Hãy cùng tôi đi tìm câu trả lời cho các câu hỏi trên trong bài viết hôm nay. Tôi tin rằng đây là một bài viết cực kỳ hữu ích. Nó chắc chắn sẽ trả lại cho bạn nhiều kiến ​​thức bổ sung và làm chủ theo cách sử dụng thư viện này

Toàn bộ source code direction của bài học các bạn có thể xem và tải về tại đây

NỘI DUNG BÀI VIẾT

Thư viện pandas python là gì?

Thư viện pandas trong python là thư viện mã nguồn mở, hỗ trợ đắc lực trong thao tác dữ liệu. Đây cũng là bộ công cụ phân tích và xử lý dữ liệu mạnh mẽ của ngôn ngữ lập trình python. Thư viện này được sử dụng rộng rãi trong nghiên cứu nghiên cứu phát triển các ứng dụng về khoa học dữ liệu. Thư viện này sử dụng cấu trúc dữ liệu riêng là Dataframe. Pandas cung cấp rất nhiều chức năng xử lý và xử lý trên cấu trúc dữ liệu này. Chính sự linh hoạt và hiệu quả đã khiến pandas được sử dụng rộng rãi

In sao lại sử dụng pandas thư viện?

  • DataFrame trả lại sự hoạt động và hiệu quả trong thao tác dữ liệu và thiết lập chỉ mục;
  • Là một công cụ cho phép đọc/ghi dữ liệu giữa bộ nhớ và nhiều định dạng tệp. cơ sở dữ liệu csv, văn bản, excel, sql, hdf5;
  • Liên kết dữ liệu thông minh, xử lý trường hợp dữ liệu bị thiếu. Tự động đưa dữ liệu lộn ngược về dạng có cấu trúc;
  • Dễ dàng thay đổi cấu trúc dữ liệu cục bộ;
  • Tích hợp cơ chế trượt, lập chỉ mục, lấy tệp con từ tệp dữ liệu lớn
  • Có thể thêm, xóa các cột dữ liệu;
  • Tập hợp hoặc thay đổi dữ liệu với nhóm bằng cách cho phép bạn thực hiện các thuật toán trên tập dữ liệu;
  • Hiệu quả cao trong quá trình hợp nhất và kết hợp các tập dữ liệu;
  • Lập chỉ mục theo chiều dữ liệu giúp thao tác giữa dữ liệu chiều cao và chiều dữ liệu thấp;
  • Tối ưu hóa hiệu năng;
  • Pandas được sử dụng rộng rãi trong cả học thuật và thương mại. Bao gồm thống kê, thương mại, phân tích, quảng cáo,…

Để cài đặt thư viện Pandas, bạn có thể làm theo một số cách khác nhau theo hướng dẫn tài liệu

  1. Sử dụng pip

    1

    pip cài đặt gấu trúc

  2. Use conda

    1

    conda cài đặt gấu trúc

Bây giờ chúng ta sẽ bắt đầu học cách sử dụng thư viện pandas python. Nhưng trước khi bắt đầu, hãy nhập thư viện pandas nhé. Chúng ta sẽ sử dụng cả thư viện matplotlib nữa

Nếu bạn chưa biết về thư viện matplotlib, hãy đọc trước nhé

1

2

3

4

5

6

# Kết xuất các ô của chúng tôi trong dòng

%matplotlib inline

 

nhập gấu trúc as pd

nhập matplotlib. pyplot as plt

nhập ngẫu nhiên

Đọc tệp csv sử dụng thư viện pandas

Đọc tệp csv vào khung dữ liệu

Bạn có thể dễ dàng đọc vào một tập tin. csv bằng cách sử dụng hàm read_csv và được trả về 1 khung dữ liệu. Mặc định, hàm này sẽ phân biệt các trường của tệp csv theo dấu phẩy. Cách đọc hết các đơn giản như sau

1

peoples_df = pd. read_csv['. /mọi người. csv']

Bạn có thể ra bản ghi đầu tiên của khung dữ liệu bằng cách sử dụng hàm head. Ngược lại của hàm head là hàm tail

1

Peoples_df. đầu[5]

And results in the format as after

read file csv using pandas library

Tuy nhiên, bạn cũng sẽ phải lưu ý một vài tham số của hàm read_csv như

  • mã hóa. chỉ định mã hóa của tập tin đọc vào. Default is utf-8
  • tháng chín. thay đổi dấu ngăn cách giữa các cột. Default is comcom [‘,’]
  • tiêu đề. read only file to have header[title of the column] or not. Default is infer
  • chỉ mục_col. only number column are only column[numerical number]. Default is None
  • cau mày. only the write number will read to. Mặc định là Không có – đọc toàn bộ

1

2

peoples_df = pd. read_csv['. /mọi người. csv', mã hóa='utf-8', header=None, sep=',']

Peoples_df. đầu[5]

Khi tôi chỉ định không có tiêu đề, dòng tiêu đề của chúng tôi đã biến thành 1 bản ghi dữ liệu

Bạn đọc có thể xem mô tả đầy đủ từng tham số của hàm read_csv của thư viện pandas python tại đây

Thao tác với dataframe trong pandas

Khi bạn đọc tệp csv ở phía trên, peoples_df sẽ là một đối tượng có hàng, cột được gọi là DataFrame. Vì vậy, nếu bạn muốn lấy giá trị theo hàng hoặc cột cụ thể nào đó thì làm như thế nào?

Thư viện pandas python cung cấp rất nhiều hàm hữu ích cho phép bạn thao tác với đối tượng dữ liệu dataframe này. Hãy cùng tôi đi khám phá sự thật hay ho này nhé

See information of dataframe

Bạn có thể xem thông tin của khung dữ liệu vừa đọc bằng cách sử dụng hàm .info[] hoặc xem kích thước của khung dữ liệu này với thuộc tính shape. Các cụ thể như sau

1

2

3

4

5

6

# Xem chiều dài của df, hình dạng tương đương[0]

in['Len. ', len[peoples_df]]

# Viewed dataframe dataframe vừa đọc được

Peoples_df. thông tin[]

# View size of dataframe

in['Hình dạng. ', peoples_df. hình dạng]

Và đây là những gì chúng ta sẽ thấy

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

Len. 40

<lớp 'gấu trúc. cốt lõi. khung. DataFrame'>

Chỉ số phạm vi. 40 bài viết, 0 đến 39

Dữ liệu cột [tổng 11 columns]:

người_ ID     40 non-null int64

tên         40 không-null object

đầu tiên        40 không-null object

lần cuối         40 không-null object

trung bình       15 không-null object

email        40 không-null object

điện thoại        40 không-null object

fax          40 không-null object

tiêu đề        40 không-null object

tuổi          40 không-null int64

_ trẻ      40 non-null bool

dtypes. bool[1], int64[2], object[8]

bộ nhớ việc sử dụng. 3. 2+ KB

Hình dạng. [40, 11]

Truy xuất dữ liệu trên dataframe

Get 1 column by name column

To only column you want to get, you only to transfer to the column name as after

1

peoples_df['name']

get 1 column of dataframe used pandas python

Get by many column

Thay vì truyền vào 1 chuỗi thì hãy truyền vào 1 danh sách các cột tên. Mình thêm .head[5] để chỉ ra 5 bản ghi đầu tiên cho rút ngắn, mặc định sẽ lấy hết

1

peoples_df[['name', 'age']].đầu[5]

get many column in dataframe

Get the write table by number

Để lấy hoặc nhiều bản ghi liên tiếp trong khung dữ liệu, sử dụng cơ chế trượt theo số giống như trên danh sách trong python. Nhận 5 bản ghi đầu tiên

1

Peoples_df[0. 5]

Trong trường hợp này, kết quả giống như hàm head on. Mũi tên là khoảng 5 bản ghi đầu tiên

Bạn cũng có thể kết hợp lấy theo hàng và cột mong muốn

1

peoples_df[['name', 'age']][:5]

Nhận các bản ghi theo điều kiện

1

2

young_pp = Peoples_df[Peoples_df['age'] < 25]

young_pp[. 5]

get the dataframe ghi theo điều kiện

Một ví dụ khác. Lấy tất cả các bản ghi chứa thông tin của người có chức danh là giáo sư

1

2

giáo sư = Peoples_df[Peoples_df.chức danh == 'Giáo sư']

giáo sư. đầu[5]

Hoặc 1 ví dụ so sánh chuỗi như sau

1

2

name_compare = peoples_df['name'].str. chứa['Rosella']

tên_so sánh. đầu[5]

Kết quả thu được là một khung dữ liệu có 1 cột chưa 2 giá trị Đúng hoặc Sai

1

2

3

4

5

6

0     Đúng

1    Sai

2    Sai

3    Sai

4    Sai

Tên. tên, dtype. bool

Get the return value for numpy arrays

Để lấy giá trị của một cột trả về dưới dạng mảng numpy trong thư viện pandas python, bạn chỉ cần thêm head0 vào sau, ví dụ

1

peoples_df['name']. giá trị

Output you get as after

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

mảng[['Burks, Rosella ', 'Avila, Damien ', 'Olsen, Robin ',

       'Moises, Edgar Estes', 'Brian, Heath Pruitt',

       'Claude, Elvin Haney', 'Mosley, Edmund ', 'Derek, Antoine Mccoy',

       'Hawkins, Callie ', 'Pate, Andrea ', 'Austin, Liz ',

       'Kendrick, Reba Alford', 'Sims, Angelina ', 'Mullins, Kimberly ',

       'Chuck, Lloyd Haney', 'Payne, Ladonna ',

       'Baxter, Johnathan Browning', 'Weiss, Gilbert ',

       'Deirdre, Florence Barrera', 'Fernando, Toby Calderon',

       'Garrison, Patrica ', 'Effie, Leila Vinson', 'Buckley, Rose ',

       'Stanton, Kathie ', 'Banks, Shannon ', 'Barnes, Cleo ',

       'Brady, Nellie ', 'Katheryn, Ruben Holt', 'Michael, Dianne ',

       'Grant, Adam ', 'Head, Kurtis ', 'Berger, Jami ',

       'Earline, Jaime Fitzgerald', 'Evelyn, Summer Frost',

       'Quentin, Sam Hyde', 'Dunlap, Ann ', 'Shields, Rich Pena',

       'Page, Winnie ', 'Sparks, Ezra ', 'Kaufman, Elba '], dtype=object]

Nếu bạn quan tâm đến mảng numpy, hãy đọc bài viết hướng dẫn về numpy của tôi

Thêm, sửa, xóa trong dataframe

Add column from new data

To add column to a dataframe available. Trước tiên, bạn cần có 1 head1 dữ liệu tương ứng với cột mà bạn muốn thêm. Tức là chiều dài của danh sách phải tương ứng với số bản ghi của khung dữ liệu mà bạn muốn thêm

Ở đây, tôi sẽ sử dụng thư viện ngẫu nhiên để sinh ngẫu nhiên một danh sách năm sinh và thêm vào khung dữ liệu như sau

1

2

3

4

df_len = len[peoples_df]

sinh nhật = [ngẫu nhiên. sắp xếp[1980, 2000, 1] for i in range[df_len]]

Peoples_df['sinh nhật'] =

Chủ Đề