Bảng cheat python để phân tích dữ liệu

Gói gấu trúc gần như có thể sẽ được sử dụng nếu bạn muốn cộng tác với dữ liệu trong Python. Tuy nhiên, thật đơn giản để quên cú pháp chính xác để thực hiện bất cứ điều gì ngay cả sau khi học về gấu trúc - ngay cả trong khóa học về gấu trúc ảo của chúng tôi. Để thuận tiện cho bạn, chúng tôi đã phát triển Pandas Cheat Sheet liệt kê các công việc pandas điển hình nhất

Bạn không nên chỉ dựa vào điều này, điều quan trọng cần lưu ý trước khi chúng ta đi vào bảng gian lận. Chúng tôi thực sự khuyên bạn nên tham gia khóa học Python tổng hợp của chúng tôi nếu bạn chưa học bất kỳ con gấu trúc nào. Bảng cheat này không nhằm mục đích dạy cho bạn tất cả những gì cần biết về gấu trúc;

Mặc dù các đối tượng dữ liệu Pandas nhanh chóng, dễ thích ứng và sáng tạo nhằm mục đích đơn giản hóa đáng kể việc phân tích dữ liệu trong thế giới thực, nhưng điều này có thể không đúng ngay lập tức đối với những cá nhân mới bắt đầu. Các khả năng chính xác là khó khăn vì phần mềm này có rất nhiều khả năng được tích hợp sẵn. Những bảng cheat Pandas này có thể hữu ích trong tình huống đó. Đây là phần giới thiệu ngắn gọn về các nguyên tắc cơ bản của Pandas mà bạn sẽ cần để bắt đầu sử dụng Python để sắp xếp dữ liệu của mình

Do đó, nếu bạn mới bắt đầu hành trình khoa học dữ liệu của mình với Pandas, bạn có thể sử dụng nó như một tài liệu tham khảo hữu ích. Ngoài ra, đối với những người chưa bắt đầu, bạn có thể chỉ cần sử dụng nó như một hướng dẫn để đơn giản hóa quy trình tìm hiểu hoặc thậm chí sử dụng nó

Khoa học dữ liệu với Python

Tấm vé cuối cùng để đạt được các vai trò công việc hàng đầu về khoa học dữ liệu Khóa học khám phá

Hướng dẫn. Bảng cheat Pandas

Bạn nên lưu trang của chúng tôi để được trợ giúp thêm

Chúng tôi sẽ sử dụng các từ viết tắt được liệt kê dưới đây trong bảng cheat này

Mỗi đối tượng Pandas Series. df

Mọi đối tượng DataFrame của gấu trúc. s

Khi đi xuống, bạn sẽ nhận thấy rằng chúng tôi đã sắp xếp các lệnh có liên quan bằng cách sử dụng các tiêu đề phụ để bạn có thể nhanh chóng tìm kiếm và khám phá đúng cú pháp tùy theo nhiệm vụ mà bạn đang muốn thực hiện

Ngoài ra, một lời nhắc nhanh – để sử dụng các lệnh được mô tả ở đây, trước tiên bạn sẽ nhập các thư viện cần thiết như vậy

Nhập dữ liệu

Thu thập một số dữ liệu là bước đầu tiên trong bất kỳ loại phân tích dữ liệu nào. Bạn có nhiều lựa chọn khi sử dụng Pandas để thêm dữ liệu vào sổ làm việc Python của mình

  • pd. read_csv[filename] # Từ tệp CSV
  • pd. read_table[filename] # Từ một tệp văn bản được phân tách [như TSV]
  • pd. read_excel[filename] # Từ một tệp Excel
  • pd. read_sql[query, connection_object] # Đọc từ bảng/cơ sở dữ liệu SQL
  • pd. read_json[json_string] # Đọc từ chuỗi, URL hoặc tệp có định dạng JSON
  • pd. read_html[URL] # Phân tích cú pháp một URL, chuỗi hoặc tệp HTML và đưa các bảng vào một tập hợp các khung dữ liệu
  • pd. read_clipboard[] # Lấy ý tưởng về khay nhớ tạm của bạn và dán nó vào bảng đọc[]
  • pd. DataFrame[dict] # Từ một lệnh, các mục cho tên cột, giá trị cho dữ liệu như đã đặt

Chương trình chứng chỉ chuyên nghiệp về Khoa học dữ liệu

Tấm vé cuối cùng để đạt được các vai trò công việc hàng đầu về khoa học dữ liệu Khóa học khám phá

khám phá dữ liệu

Sau khi nhập thông tin của bạn vào khung dữ liệu Pandas, bạn có thể trực quan hóa dữ liệu bằng các kỹ thuật sau

  • df. shape[] # In số hàng cũng như số cột trong khung dữ liệu
  • df. head[n] # In n hàng đầu tiên của DataFrame
  • df. tail[n] # In n hàng cuối cùng của DataFrame
  • df. info[] # Chi tiết về chỉ mục, kiểu dữ liệu và bộ nhớ
  • df. description[] # Thống kê tóm tắt cho các cột số
  • s. value_counts[dropna=False] # Xem các giá trị và số lượng duy nhất
  • df. áp dụng [pd. Loạt. value_counts] # Giá trị và số lượng duy nhất cho mỗi cột
  • df. description[] # thống kê ngắn gọn cho các cột số
  • df. mean[] # Trả về giá trị trung bình của mỗi cột
  • df. corr[] # Trả về mối tương quan giữa các cột trong DataFrame
  • df. count[] # Trả về số lượng giá trị khác null trong mỗi cột DataFrame
  • df. max[] # Trả về giá trị lớn nhất trong mỗi cột
  • df. min[] # Trả về giá trị thấp nhất trong mỗi cột
  • df. median[] # Trả về trung vị của mỗi cột
  • df. std[] # Trả về độ lệch chuẩn của mỗi cột

lựa chọn

Để xem xét hoặc tiến hành phân tích sâu hơn về dữ liệu, bạn có thể thường chỉ cần chọn một phần hoặc một tập hợp con cụ thể của dữ liệu. Những kỹ thuật này sẽ rất hữu ích

  • df[col] # Trả về cột có nhãn col là Sê-ri
  • df[[col1, col2]] # Trả về Cột dưới dạng Khung dữ liệu mới
  • s. iloc[0] # Lựa chọn theo vị trí [chọn phần tử đầu tiên]
  • s. loc[0] # Lựa chọn theo chỉ số [chọn phần tử tại chỉ số 0]
  • df. iloc[0,. ] # Hàng đầu tiên
  • df. iloc[0,0] # Phần tử đầu tiên của cột đầu tiên

Dọn dẹp dữ liệu

Có khả năng bạn sẽ cần xóa dữ liệu nếu bạn đang sử dụng các ví dụ trong thế giới thực. Đây là một vài kỹ thuật hữu ích

  • df. cột = ['a','b','c'] # Đổi tên cột
  • pd. isnull[] # Kiểm tra giá trị null, trả về mảng Boolean
  • pd. notnull[] # Đối diện của s là null[]
  • df. dropna[] # Xoá tất cả các hàng chứa giá trị null
  • df. dropna[axis=1] # Xoá tất cả các cột chứa giá trị null
  • df. dropna[axis=1,thresh=n] # Số lần rớt tất cả các hàng có ít hơn n giá trị khác null
  • df. fillna[x] # Thay thế tất cả các giá trị null bằng x
  • s. điền [s. mean[]] # Thay thế tất cả các giá trị null bằng giá trị trung bình [có thể thay thế giá trị trung bình bằng hầu hết mọi chức năng từ phần thống kê]
  • s. astype[float] # Chuyển đổi kiểu dữ liệu của chuỗi thành float
  • s. replace[1,'one'] # Thay thế tất cả các giá trị bằng 1 bằng 'one'
  • s. replace[[1,3],['one','three']] # Thay thế tất cả 1 bằng 'one' và 3 bằng 'ba'
  • df. đổi tên [cột = lambda x. x + 1] # Đổi tên hàng loạt cột
  • df. đổi tên [cột = {'old_name'. 'new_ name'}] # Đổi tên có chọn lọc
  • df. set_index['column_one'] # Thay đổi chỉ mục
  • df. đổi tên [index=lambda x. x + 1] # Đổi tên hàng loạt chỉ mục

Chương trình chứng chỉ chuyên nghiệp về khoa học dữ liệu

Tấm vé cuối cùng cho các vai trò công việc hàng đầu về khoa học dữ liệu Khóa học khám phá

Sắp xếp, lọc và nhóm theo

Các kỹ thuật nhóm, phân loại và giới hạn dữ liệu của bạn bao gồm

  • df[df[col] > 0. 5] # Hàng có cột col lớn hơn 0. 5
  • df[[df[col] > 0. 5] & [df[col] < 0. 7]] # Hàng trong đó 0. 5 < cột < 0. 7
  • df. sort_values[col1] # Sắp xếp các giá trị theo col1 theo thứ tự tăng dần
  • df. sort_values[col2,ascending=False] # Sắp xếp các giá trị theo col2 theo thứ tự giảm dần
  • df. sort_values[[col1,col2], incrementing=[True,False]] # Sắp xếp các giá trị theo col1 theo thứ tự tăng dần rồi col2 theo thứ tự giảm dần
  • df. groupby[col] # Trả về một đối tượng groupby cho các giá trị từ một cột
  • df. groupby[[col1,col2]] # Trả về giá trị đối tượng groupby từ nhiều cột
  • df. nhóm[col1][col2]. mean[] # Trả về giá trị trung bình của các giá trị trong col2, được nhóm theo các giá trị trong col1 [có thể thay thế giá trị trung bình bằng hầu hết mọi hàm từ phần thống kê]
  • df. pivot_table[index=col1, values= col2,col3], aggfunc=mean] # Tạo bảng tổng hợp nhóm theo col1 và tính giá trị trung bình của col2 và col3
  • df. theo nhóm[col1]. agg[np. mean] # Tìm giá trị trung bình trên tất cả các cột cho mỗi nhóm 1 cột duy nhất
  • df. áp dụng [np. mean] # Áp dụng một chức năng trên mỗi cột
  • df. áp dụng [np. max, axis=1] # Áp dụng một chức năng trên mỗi hàng

Cùng nhau và riêng biệt

Kỹ thuật hợp nhất hai khung dữ liệu với nhau

  • df1. append[df2] # Thêm các hàng trong df1 vào cuối df2 [các cột phải giống hệt nhau]
  • pd. concat[[df1, df2],axis=1] # Thêm các cột trong df1 vào cuối df2 [các hàng phải giống hệt nhau]
  • df1. join[df2,on=col1,how='inner'] # Kiểu SQL nối các cột trong df1 với các cột trên df2 nơi các hàng

Viết dữ liệu

Cuối cùng, có rất nhiều phương pháp bạn có thể chuyển dữ liệu của mình sau khi phân tích của bạn cung cấp kết quả

  • df. to_csv[filename] # Ghi vào tệp CSV
  • df. to_excel[filename] # Ghi vào tệp Excel
  • df. to_sql[table_name, connection_object] # Ghi vào bảng SQL
  • df. to_json[filename] # Ghi vào tệp ở định dạng JSON
  • df. to_html[filename] # Lưu dưới dạng bảng HTML
  • df. to_clipboard[] # Ghi vào clipboard
Tìm hiểu hơn một chục công cụ và kỹ năng khoa học dữ liệu với Chương trình Chứng chỉ Chuyên nghiệp về Khoa học Dữ liệu và được tiếp cận với các lớp học chính của giảng viên Purdue. Đăng ký ngay bây giờ và thêm một ngôi sao sáng vào sơ yếu lý lịch khoa học dữ liệu của bạn

Muốn tìm hiểu thêm?

Chúng tôi thậm chí còn chưa bắt đầu chạm vào bề mặt của những gì Python và khoa học dữ liệu có thể đạt được cho bạn, nhưng chúng tôi hy vọng rằng bảng mẹo của chúng tôi về Python cho khoa học dữ liệu đã cung cấp cho bạn một cái nhìn thoáng qua về những gì có thể. Nếu bạn muốn tìm hiểu thêm về khoa học dữ liệu, hãy xem khóa học này

Chương trình Thạc sĩ Khoa học Dữ liệu, được phát triển với sự hợp tác của IBM, giúp bạn bắt đầu sự nghiệp trong lĩnh vực này và cung cấp cho bạn hướng dẫn hàng đầu cũng như các khả năng cần thiết để thành công. Khóa học cung cấp hướng dẫn chuyên sâu về các khả năng Khoa học dữ liệu và Học máy được tìm kiếm nhiều nhất cũng như trải nghiệm thực tế với các công nghệ và công cụ quan trọng như Python, R, Tableau và các nguyên tắc học máy. Để thăng tiến trong sự nghiệp của bạn trong lĩnh vực khoa học dữ liệu, hãy trở thành nhà khoa học dữ liệu bằng cách tìm hiểu sâu về sự phức tạp của việc giải thích dữ liệu, thành thạo các phương pháp như học máy và phát triển khả năng lập trình mạnh mẽ

Tìm các lớp đào tạo về Khoa học dữ liệu ứng dụng với Lớp học trực tuyến Python của chúng tôi ở các thành phố hàng đầu

NameDatePlaceKhóa học Khoa học dữ liệu với Python10 tháng 12 - 8 tháng 1 năm 2023,
Đợt cuối tuầnChi tiết CityView của bạnKhoa học dữ liệu với chương trình đào tạo Python tại Singapore12 tháng 12 -21 tháng 12 năm 2022,
Weekdays batchSingaporeView DetailsData Science with Python Course12 Dec -21 Dec 2022,
Weekdays batchYour CityView Details

Thông tin về các Tác giả

đơn giản

Simplilearn là một trong những nhà cung cấp dịch vụ đào tạo trực tuyến hàng đầu thế giới về Tiếp thị kỹ thuật số, Điện toán đám mây, Quản lý dự án, Khoa học dữ liệu, CNTT, Phát triển phần mềm và nhiều công nghệ mới nổi khác

Cách tốt nhất để học Python để phân tích dữ liệu là gì?

Cách học Python cho Khoa học dữ liệu .
Bước 1. Tìm hiểu cơ bản về Python. Tất cả mọi người bắt đầu từ một vài nơi. .
Bước 2. Thực hành với học tập thực hành. .
Bước 3. Tìm hiểu thư viện khoa học dữ liệu Python. .
Bước 4. Xây dựng danh mục khoa học dữ liệu khi bạn học Python. .
Bước 5. Áp dụng các kỹ thuật khoa học dữ liệu tiên tiến

Có bảng cheat Python không?

Cheatography là một bảng cheat Python dài hai trang để tham khảo nhanh . Nó bao gồm các biến Python sys, sys. argv, phương thức đặc biệt, phương thức tệp, phương thức danh sách, phương thức chuỗi, biến hệ điều hành Python, phương thức DateTime, chỉ mục và lát Python.

Python có phù hợp để phân tích dữ liệu không?

Python và R đều là ngôn ngữ nguồn mở, miễn phí có thể chạy trên Windows, macOS và Linux. Cả hai đều có thể xử lý mọi tác vụ phân tích dữ liệu và cả hai đều được coi là ngôn ngữ tương đối dễ học, đặc biệt là cho người mới bắt đầu.

Python để phân tích dữ liệu có khó không?

Có thể mất từ ​​5 đến 10 tuần để học lập trình Python để phân tích dữ liệu, mặc dù điều này phụ thuộc vào mức độ kinh nghiệm của bạn với các ngôn ngữ lập trình và phát triển web. Tuy nhiên, nói chung, Python có thể được coi là rất thân thiện với người mới bắt đầu , vì nó được biết đến với tính dễ đọc và dễ sử dụng.

Chủ Đề