Lập trình dữ liệu python

Bài đăng này liên quan đến việc phân tích dữ liệu bằng ngôn ngữ Python và tôi sẽ hướng dẫn bạn thông qua các ví dụ về việc sử dụng các thư viện dữ liệu có hiệu suất cao trong Python. Please start any

Nội dung chính Hiển thị

  • Giới thiệu
  • Thu thập dữ liệu
  • Tải dữ liệu
  • Tóm tắt dữ liệu
  • Slicin và dicin
  • Phân vùng dữ liệu khám phá

Thu thập dữ liệu

Để phân tích dữ liệu bằng Python, dữ liệu của bạn cần được tổ chức thành ma trận mẫu và tính năng. mẫu và tính năng

Bất kể khi nào bạn thu thập dữ liệu, bất kỳ tính năng nào sẽ rơi vào một trong hai loại

Các tính năng liên tục

Trong trường hợp các tính năng liên tục, tồn tại ở một sự khác biệt có thể đo lường được giữa các giá trị có thể. Các giá trị tính năng thông thường cũng là một tập hợp con của tất cả các số thực

  • Number
  • time time
  • Giá bán
  • nhiệt độ

Các tính năng phân loại

Với các loại tính năng phân loại, có một số lượng các loại tính năng đặc biệt, có thể. This value can ho or no thứ tự cho chúng. Nếu chúng có thứ tự tự nhiên, chúng được gọi là các tính năng phân loại thứ tự. If not, if don't have the internal order, they are call as các tính năng phân loại danh nghĩa

On the meaning

  • Giới tính
  • color color
  • Phim

Thứ tự

  • Nhỏ-Vừa-Lớn
  • 1 tuổi 10 tuổi, 11 tuổi 20 tuổi, 30 tuổi 40 tuổi
  • Hanh phuc, trung lập, buồn

Tải dữ liệu

Khi bạn đã thu thập dữ liệu của mình, hãy bước tiếp theo là học cách vận dụng nó một cách hiệu quả

gấu trúc

Pandas là một trong những thư viện phân tích dữ liệu có hiệu suất cao và tích cực nhất cho Python và bạn sẽ sử dụng nó cho tất cả các nhu cầu đầu vào, đầu ra và thao tác dữ liệu của bạn. Pandas được xây dựng trên đỉnh của một thư viện khác. Có hai cấu trúc dữ liệu trong gấu trúc bạn cần biết cách làm việc. Đầu tiên là đối tượng sê-ri, một mảng được dán nhãn một đại diện cho một cột duy nhất trong bộ dữ liệu của bạn

import pandas as pd

Gấu trúc Sê-ri

Có tất cả các yếu tố chia sẻ cùng một đơn vị và kiểu dữ liệu giúp bạn có khả năng áp dụng các hoạt động toàn chuỗi. By because this thing, series gandas must dong nhất. Họ có khả năng lưu trữ bất kỳ loại dữ liệu Python nào [số nguyên, chuỗi, số điểm nổi, đối tượng, v. v. ], nhưng tất cả các phần tử trong chuỗi phải thuộc cùng một loại dữ liệu. Constructor thứ hai bạn cần làm là một bộ sưu tập các chuỗi gọi là DataFrame. phải cùng kiểu dữ liệu. Cấu trúc thứ hai bạn cần làm việc là một tập hợp các chuỗi được gọi là khung dữ liệu

KHUNG DỮ LIỆU GẤU TRÚC

Để thao tác với một bộ dữ liệu, trước tiên bạn phải tải nó vào một khung dữ liệu. Những người khác nhau thích các phương pháp thay thế để lưu trữ dữ liệu của họ, vì vậy Pandas cố gắng tải dữ liệu dễ dàng cho dù nó được lưu trữ như thế nào. Dưới đây là một số phương pháp để tải dữ liệu

from sqlalchemy import create_engine
engine = create_engine['sqlite:///:memory:']

sql_dataframe = pd.read_sql_table['my_table', engine, columns=['ColA', 'ColB']]
xls_dataframe = pd.read_excel['my_dataset.xlsx', 'Sheet1', na_values=['NA', '?']]

json_dataframe = pd.read_json['my_dataset.json', orient='columns']csv_dataframe = pd.read_csv['my_dataset.csv', sep=',']
table_dataframe= pd.read_html['//page.com/with/table.html'][0]

Lưu ý trả về của. Read_html[], đây là danh sách python của DataFrames, một bảng HTML được tìm thấy trên trang web

Cũng đảm bảo bạn hiểu đầy đủ những gì các tham số sau đây làm. đầy đủ những gì các tham số sau đây làm

  • tháng 9
  • partition
  • tiêu đề
  • Mười
  • chỉ mục_col
  • Không gian bỏ qua
  • bỏ qua
  • na_values
  • hang ngan
  • composite number

Nhiều sinh viên mới tham gia khoa học dữ liệu gặp phải vấn đề bởi vì họ vội vã qua phần phân tích dữ liệu, trong công việc của họ trong sự háo hức của họ để đến với phần học máy thú vị hơn. Nhưng nếu họ thắc mắc lỗi ở đây, ví dụ bằng cách không biết cách sử dụng index_col để loại bỏ ID, trong khi đọc bộ dữ liệu của họ bằng phương thức. Read_csv[], một khi họ áp dụng máy học cho dữ liệu của họ, tất cả các phát hiện của họ đều sai

Tóm tắt dữ liệu

Để xem bảng tóm tắt thống kê mô tả về các cột số DataFrame của bạn bằng cách sử dụng. mô tả []

To have a cái nhìn nhanh về dữ liệu của bạn bằng cách chọn một vài hàng trên hoặc bên dưới của nó bằng cách sử dụng. đầu [] và. cái đuôi []. Theo mặc định, nó sẽ hiển thị 5 bản ghi. Ngoài ra, để có được một đỉnh nhanh chóng với số lượng hàng và cột cho một DataFrame phương thức, sử dụng phương thức. hình dạng []

Khi bạn tải lên một khung dữ liệu, nó luôn luôn là một ý tưởng tốt để xem loại dữ liệu cấu trúc nào được gán cho mỗi cột và có nhiều mục nhập. Điều này có thể được thực hiện bằng phương thức thông tin []. Điều này cũng rất hữu ích để kiểm tra xem có bất kỳ giá trị null nào trong bất kỳ cột nào không

Slicin và dicin

Lập chỉ mục cột

DataFrame về cơ bản là một hoặc nhiều chuỗi đã được ghép lại với nhau thành một loại dữ liệu mới. Pandas phơi bày nhiều phương pháp tương đương để cắt các chuỗi cơ bản. Bạn có thể cắt theo vị trí, cách bạn thường lập chỉ mục vào danh sách Python thông thường. Bạn có thể cắt theo nhãn, cách bạn thường thiết lập chỉ mục vào từ điển Python. Giống như các mảng numpy, bạn cũng có thể thiết lập chỉ mục bằng mặt nạ Boolean. Dưới đây là các phương pháp cắt khác nhau để xem nội dung của cột đầu tiên

Bằng cách sử dụng tên cột trong mã, nó rất dễ nhận biết những gì đang được kéo và bạn không cần phải lo lắng về thứ tự của các cột. Thực hiện tra cứu này của đầu khớp tên cột trước khi cắt chỉ mục cột chậm hơn so với truy cập trực tiếp cột theo chỉ mục. Phương thức. loc [] chọn theo cột nhãn,. iloc [] select the column only. Phương thức. IX [] cũng có thể được sử dụng bất cứ khi nào bạn muốn sử dụng phương pháp lai của một trong hai, tuy nhiên, nó không được sử dụng nữa

Xin lưu ý rằng nếu bạn sử dụng dấu trích dẫn trong cú pháp, ngay cả khi bạn chỉ định một cột duy nhất, kiểu dữ liệu mà bạn sẽ lấy lại là một khung dữ liệu trái ngược với một chuỗi. Vì vậy, lợi thế của danh sách này là bạn có thể truy cập nhiều hơn một cột

Lập chỉ mục hàng

You can't use any method of any method. LỘC [],. iloc [] để thực hiện lựa chọn theo hàng, lưu ý rằng thứ tự dự kiến ​​là [ROW_INDEXER, Cột_indexer]

Sự khác biệt quan trọng cuối cùng là. LOC [ ] and. IX [] bao gồm phạm vi của các giá trị được chọn, trong đó. iloc [] không bao gồm. Theo nghĩa đó, df. lộc [0. 1,. ] sẽ chọn hai hàng đầu tiên, nhưng chỉ hàng đầu tiên sẽ được trả lại bằng df. iloc [0. 1,. ]

Lập chỉ mục Boolean

DataFrames và sê-ri của bạn cũng có thể được lập chỉ mục với hoạt động boolean - một bộ dữ liệu hoặc chuỗi có cùng kích thước với giá trị bạn đang chọn, nhưng với mỗi giá trị được đặt thành đúng hoặc sai. Bạn có thể tạo một chuỗi Boolean mới bằng cách chỉ định thủ công các giá trị hoặc bằng cách sử dụng có điều kiện. Để thiết lập chỉ mục với chuỗi Boolean của bạn, chỉ cần đưa nó trở lại chuỗi thông thường của bạn bằng cách sử dụng cú pháp lựa chọn khung []. Bạn có thể kết hợp thêm nhiều điều kiện thiết lập chỉ mục boolean với nhau bằng cách sử dụng các toán tử logic hơi khó hiểu. and &

Đây là một chút phản cảm, vì hầu hết mọi người ban đầu đều cho rằng trúc gấu sẽ hỗ trợ các nhà khai thác Boolean Python thường xuyên hoặc và và. Lý do các nhà khai thác Python Boolean thường xuyên không thể được sử dụng để kết hợp các điều kiện Boolean của Pandas là vì làm như vậy gây ra sự mơ hồ. Có hai cách mà câu lệnh không chính xác sau đây có thể được giải thích

  1. Nếu đánh giá câu lệnh [df1. TotalAssets < 10000] hoặc đánh giá câu lệnh [df1. TotalAssets > 9000] dẫn đến bất kỳ kết quả nào ngoài Sai, sau đó chọn tất cả các bản ghi trong tập dữ liệu
  2. Chọn tất cả các cột thuộc các hàng trong tập dữ liệu có một trong các câu sau đây là đúng. [df1. TotalAssets < 10000] hoặc [df1. Tổng tài sản > 9000]

Tùy chọn 2 là chức năng mong muốn, nhưng để tránh hoàn toàn sự mơ hồ này, gấu trúc đã quá tải các bit thông tin toán tử trên các đối tượng DataFrame và Series của nó. Hãy chắc chắn để gói gọn từng điều kiện trong đơn đặt hàng để thực hiện công việc này. chắc chắn đóng gói từng điều kiện trong ngoặc đơn để thực hiện công việc này

Viết cho một lát

Một cái gì đó mà bạn có thể làm với DataFrame hoặc Sê -ri được ghi vào một lần cắt

Hãy đề phòng trong khi làm điều này, vì bạn có thể gặp phải vấn đề với các khung dữ liệu không đồng nhất. Sẽ an toàn hơn nhiều, và thường có ý nghĩa hơn, để thực hiện các loại hoạt động này trên nền tảng của mỗi cột thay vì trên toàn bộ khung dữ liệu của bạn

Trong bài tiếp theo, tôi muốn nói về các tính năng đại diện, trích xuất các tính năng, lựa chọn các tính năng và các tính năng quan trọng

Chủ Đề