Permalink
bậc thầy
Chuyển nhánh/thẻ
Không thể tải các nhánh
Không có gì để hiển thị
{{refname}}
Tên đã được sử dụng
Một thẻ đã tồn tại với tên chi nhánh được cung cấp. Nhiều lệnh GIT chấp nhận cả tên thẻ và tên chi nhánh, vì vậy việc tạo nhánh này có thể gây ra hành vi bất ngờ. Bạn có chắc là bạn muốn tạo chi nhánh này?
Đi nộp
- Đi nộp
- Sao chép đường dẫn
- Sao chép permalink
Không thể lấy lại những người đóng góp tại thời điểm này
4954 dòng [4954 SLOC] 202 KB 202 KB
Đổ lỗi
Mở trong máy tính để bàn GitHub
- Mở với máy tính để bàn
- Xem thô
- Xem đổ lỗi
Xin lỗi, có lỗi xảy ra. Tải lại?
Xin lỗi, chúng tôi không thể hiển thị tệp này.
Xin lỗi, tệp này không hợp lệ nên nó không thể được hiển thị.
Từ DataCamp.
1. Các vấn đề dữ liệu phổ biến
Các loại dữ liệu phổ biến
- Các loại dữ liệu số
- Chữ
- ngày
Kiểu dữ liệu hạn chế
Thao tác và phân tích dữ liệu với các loại dữ liệu không chính xác có thể dẫn đến phân tích bị xâm phạm khi bạn đi dọc theo quy trình công việc khoa học dữ liệu.
Khi làm việc với dữ liệu mới, chúng tôi có thể sử dụng thuộc tính
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
3 hoặc phương thức # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
4. Thông thường, bạn sẽ chạy vào các cột cần được chuyển đổi thành các loại dữ liệu khác nhau trước khi bắt đầu bất kỳ phân tích nào.Để mô tả dữ liệu và kiểm tra các loại dữ liệu:
Dữ liệu chia sẻ xe đạp ở San Francisco,
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5, chứa thông tin về các trạm bắt đầu và kết thúc, thời lượng chuyến đi và một số thông tin người dùng cho dịch vụ chia sẻ xe đạp.Ý chí tiêu thụ đặc biệt
- In thông tin của
5. Sử dụng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
7 để in số liệu thống kê tóm tắt của cột# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
8 từ# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
5.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Print the information of ride_sharing
print[ride_sharing.info[]]
# Print summary statistics of user_type column
print[ride_sharing['user_type'].describe[]]
Tóm tắt các chuỗi và các số kết hợp
Một vấn đề kiểu dữ liệu phổ biến khác là nhập những gì nên là giá trị số dưới dạng chuỗi, vì các hoạt động toán học như tổng và nhân dẫn đến nối chuỗi, không phải là đầu ra số.
Bài tập này sẽ chuyển đổi cột chuỗi
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
0 thành loại import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
1. Đầu tiên, dải import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
2 từ cột để đảm bảo import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đọc nó dưới dạng số. Gói import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập là import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5.- Sử dụng phương thức
6 để tướcimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
0 củaimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
2 và lưu trữ nó trong cộtimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
9.import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- Chuyển đổi
9 thànhimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
1 và lưu trữ nó trongimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
2.# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
- Viết một câu lệnh
3 kiểm tra xem kiểu dữ liệu ____ 44 44 hiện là# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
1.import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- In thời gian đi xe trung bình.
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
Hạn chế phạm vi dữ liệu
Đôi khi có thể hiển thị các giá trị nằm ngoài phạm vi dữ liệu. Ví dụ, một thời gian trong tương lai được bao gồm trong thời điểm; hoặc sáu ngôi sao trong một hệ thống năm sao.
Cách để đối phó với nó:
- Các giá trị thả bằng cách sử dụng lọc:
6# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
- Giá trị thả bằng cách sử dụng:
7:# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
8# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
- Kết quả khẳng định:
9# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
Kích thước lốp bị ràng buộc
Kích thước lốp xe đạp có thể là 26, 27 hoặc 29 và được lưu trữ chính xác dưới dạng giá trị phân loại. Trong nỗ lực cắt giảm chi phí bảo trì, nhà cung cấp dịch vụ chia sẻ đi xe đã quyết định đặt kích thước lốp tối đa là 27.
Trong bài tập này, cột
# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates[]
# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}
# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[]
# Find duplicated values again
duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False]
duplicated_rides = ride_unique[duplicates == True]
# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
0 có phạm vi chính xác bằng cách trước tiên chuyển đổi nó thành một số nguyên, sau đó cài đặt và kiểm tra giới hạn trên mới là 27 cho kích thước lốp.- Chuyển đổi cột
0 từ danh mục thành# Drop complete duplicates from ride_sharing ride_dup = ride_sharing.drop_duplicates[] # Create statistics dictionary for aggregation function statistics = {'user_birth_year': 'min', 'duration': 'mean'} # Group by ride_id and compute new statistics ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[] # Find duplicated values again duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False] duplicated_rides = ride_unique[duplicates == True] # Assert duplicates are processed assert duplicated_rides.shape[0] == 0
2.# Drop complete duplicates from ride_sharing ride_dup = ride_sharing.drop_duplicates[] # Create statistics dictionary for aggregation function statistics = {'user_birth_year': 'min', 'duration': 'mean'} # Group by ride_id and compute new statistics ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[] # Find duplicated values again duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False] duplicated_rides = ride_unique[duplicates == True] # Assert duplicates are processed assert duplicated_rides.shape[0] == 0
- Sử dụng
3 để đặt tất cả các giá trị của lốp_sizes trên 27 đến 27.# Drop complete duplicates from ride_sharing ride_dup = ride_sharing.drop_duplicates[] # Create statistics dictionary for aggregation function statistics = {'user_birth_year': 'min', 'duration': 'mean'} # Group by ride_id and compute new statistics ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[] # Find duplicated values again duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False] duplicated_rides = ride_unique[duplicates == True] # Assert duplicates are processed assert duplicated_rides.shape[0] == 0
- REConvert trở lại
0 thành# Drop complete duplicates from ride_sharing ride_dup = ride_sharing.drop_duplicates[] # Create statistics dictionary for aggregation function statistics = {'user_birth_year': 'min', 'duration': 'mean'} # Group by ride_id and compute new statistics ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[] # Find duplicated values again duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False] duplicated_rides = ride_unique[duplicates == True] # Assert duplicates are processed assert duplicated_rides.shape[0] == 0
5, từ# Drop complete duplicates from ride_sharing ride_dup = ride_sharing.drop_duplicates[] # Create statistics dictionary for aggregation function statistics = {'user_birth_year': 'min', 'duration': 'mean'} # Group by ride_id and compute new statistics ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[] # Find duplicated values again duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False] duplicated_rides = ride_unique[duplicates == True] # Assert duplicates are processed assert duplicated_rides.shape[0] == 0
1.import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- In mô tả của
0.# Drop complete duplicates from ride_sharing ride_dup = ride_sharing.drop_duplicates[] # Create statistics dictionary for aggregation function statistics = {'user_birth_year': 'min', 'duration': 'mean'} # Group by ride_id and compute new statistics ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[] # Find duplicated values again duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False] duplicated_rides = ride_unique[duplicates == True] # Assert duplicates are processed assert duplicated_rides.shape[0] == 0
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
Quay lại tương lai
Một bản cập nhật mới cho đường ống dữ liệu cung cấp cho
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 DataFrame đã được cập nhật để đăng ký mỗi ngày đi xe. Thông tin này được lưu trữ trong cột # Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates[]
# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}
# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[]
# Find duplicated values again
duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False]
duplicated_rides = ride_unique[duplicates == True]
# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
9 thuộc loại # Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
0, đại diện cho các chuỗi trong import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3.Một lỗi đã được phát hiện đã chuyển tiếp các chuyến đi được thực hiện hôm nay như được thực hiện vào năm tới. Để khắc phục điều này, bạn sẽ tìm thấy tất cả các trường hợp của cột
# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates[]
# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}
# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[]
# Find duplicated values again
duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False]
duplicated_rides = ride_unique[duplicates == True]
# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
9 xảy ra bất cứ lúc nào trong tương lai và đặt giá trị tối đa có thể của cột này thành ngày hôm nay. Trước khi làm như vậy, bạn sẽ cần chuyển đổi # Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates[]
# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}
# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[]
# Find duplicated values again
duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False]
duplicated_rides = ride_unique[duplicates == True]
# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
9 sang đối tượng # Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
4.Gói
# Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
4 đã được nhập dưới dạng # Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
6, cùng với tất cả các gói mà bạn đã sử dụng cho đến bây giờ.import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
Trùng lặp
Tập hợp con của bạn lớn như thế nào? Bạn có bản dữ liệu
7 sau đây chứa dữ liệu cho vay và điểm tín dụng cho người tiêu dùng và một số siêu dữ liệu như tên đầu tiên và tên của họ. Bạn muốn tìm cả hai bản sao hoàn chỉnh và không đầy đủ bằng cách sử dụng # Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
8. You have the following # Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
# Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
7 DataFrame which contains loan and credit score data for consumers, and some metadata
such as their first and last names. You want to find both complete and incomplete duplicates using # Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
8.
họ | họ | Credit_Score | has_loan |
Justin | Saddlemeyer | 600 | 1 |
Hadrien | Lacroix | 450 | 0 |
Chọn cách sử dụng chính xác của
# Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
8 dưới đây:Tuy nhiên, bản cập nhật trùng với thời gian đi xe trung bình ngắn hơn và ngày sinh không thường xuyên được thiết lập trong tương lai. Quan trọng nhất, số lượng chuyến đi được thực hiện đã tăng 20% qua đêm, khiến bạn nghĩ rằng có thể có cả hai bản sao hoàn chỉnh và không đầy đủ trong DataFrame
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5.Trong bài tập này, bạn sẽ xác nhận sự nghi ngờ này bằng cách tìm thấy những bản sao đó. Một mẫu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 nằm trong môi trường của bạn, cũng như tất cả các gói mà bạn đã làm việc cho đến nay.- Tìm các hàng trùng lặp
2 trong DataFrameoutput: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
5 trong khi đặt# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
4 thànhoutput: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
5.output: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
- Tập hợp con
5 trên# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
7 và sắp xếp bằngoutput: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
2 và gán kết quả chooutput: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
9.output: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
- In các cột
2,output: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
0 vàimport datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
2 của# Find the cleanliness category in airlines not in categories cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']] # Find rows with that category cat_clean_rows = airlines['cleanliness'].isin[cat_clean] # Print rows with inconsistent category print[airlines[cat_clean_rows]] # Print rows with consistent categories only print[airlines[~cat_clean_rows]]
9 theo thứ tự đó.output: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
# Find duplicates
duplicates = ride_sharing.duplicated[subset='ride_id', keep=False]
# Sort your duplicated rides
duplicated_rides = ride_sharing[duplicates].sort_values['ride_id']
# Print relevant columns of duplicated_rides
print[duplicated_rides[['ride_id','duration','user_birth_year']]]
Điều trị trùng lặp
Trong bài tập cuối cùng, bạn có thể xác minh rằng bản cập nhật mới cho ăn vào
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
5 chứa một lỗi tạo ra cả các hàng trùng lặp hoàn chỉnh và không đầy đủ cho một số giá trị của cột output:
cleanliness safety satisfaction
0 Clean Neutral Very satisfied
1 Average Very safe Neutral
2 Somewhat clean Somewhat safe Somewhat satisfied
3 Somewhat dirty Very unsafe Somewhat unsatisfied
4 Dirty Somewhat unsafe Very unsatisfied
Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
Very unsatisfied]
2, với các giá trị khác nhau thường xuyên cho các cột # Find the cleanliness category in airlines not in categories
cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']]
# Find rows with that category
cat_clean_rows = airlines['cleanliness'].isin[cat_clean]
# Print rows with inconsistent category
print[airlines[cat_clean_rows]]
# Print rows with consistent categories only
print[airlines[~cat_clean_rows]]
2 và import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
0.Trong bài tập này, bạn sẽ xử lý các hàng trùng lặp đó bằng cách đầu tiên thả các bản sao hoàn chỉnh, sau đó hợp nhất các hàng trùng lặp không hoàn chỉnh thành một trong khi giữ mức trung bình ____30 và tối thiểu
# Find the cleanliness category in airlines not in categories
cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']]
# Find rows with that category
cat_clean_rows = airlines['cleanliness'].isin[cat_clean]
# Print rows with inconsistent category
print[airlines[cat_clean_rows]]
# Print rows with consistent categories only
print[airlines[~cat_clean_rows]]
2 cho mỗi bộ các hàng sao chép không hoàn chỉnh.- Thả các bản sao hoàn chỉnh trong
5 và lưu trữ kết quả trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
1.In [1]: categories Out[1]: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']] In [2]: cat_clean Out[2]: {'Unacceptable'} cat_clean_rows = airlines['cleanliness'].isin[cat_clean] In [3]: cat_clean_rows Out[3]: 0 False 1 False 2 False 3 False 4 True ... 2804 False 2805 False 2806 False 2807 False 2808 False Name: cleanliness, Length: 2477, dtype: bool In [4]: print[airlines[cat_clean_rows]] id day airline destination dest_region dest_size \ 4 2992 Wednesday AMERICAN MIAMI East US Hub 18 2913 Friday TURKISH AIRLINES ISTANBUL Middle East Hub 100 2321 Wednesday SOUTHWEST LOS ANGELES West US Hub boarding_area dept_time wait_min cleanliness safety \ 4 Gates 50-59 2018-12-31 559.0 Unacceptable Very safe 18 Gates 91-102 2018-12-31 225.0 Unacceptable Very safe 100 Gates 20-39 2018-12-31 130.0 Unacceptable Somewhat safe satisfaction 4 Somewhat satisfied 18 Somewhat satisfied 100 Somewhat satisfied
- Tạo từ điển
2 chứa tập hợp tối thiểu choIn [1]: categories Out[1]: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']] In [2]: cat_clean Out[2]: {'Unacceptable'} cat_clean_rows = airlines['cleanliness'].isin[cat_clean] In [3]: cat_clean_rows Out[3]: 0 False 1 False 2 False 3 False 4 True ... 2804 False 2805 False 2806 False 2807 False 2808 False Name: cleanliness, Length: 2477, dtype: bool In [4]: print[airlines[cat_clean_rows]] id day airline destination dest_region dest_size \ 4 2992 Wednesday AMERICAN MIAMI East US Hub 18 2913 Friday TURKISH AIRLINES ISTANBUL Middle East Hub 100 2321 Wednesday SOUTHWEST LOS ANGELES West US Hub boarding_area dept_time wait_min cleanliness safety \ 4 Gates 50-59 2018-12-31 559.0 Unacceptable Very safe 18 Gates 91-102 2018-12-31 225.0 Unacceptable Very safe 100 Gates 20-39 2018-12-31 130.0 Unacceptable Somewhat safe satisfaction 4 Somewhat satisfied 18 Somewhat satisfied 100 Somewhat satisfied
2 và tập hợp trung bình cho# Find the cleanliness category in airlines not in categories cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']] # Find rows with that category cat_clean_rows = airlines['cleanliness'].isin[cat_clean] # Print rows with inconsistent category print[airlines[cat_clean_rows]] # Print rows with consistent categories only print[airlines[~cat_clean_rows]]
0.import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- Thả các bản sao không hoàn chỉnh bằng cách nhóm theo
2 và áp dụng tập hợp trongoutput: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied] Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
2.In [1]: categories Out[1]: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']] In [2]: cat_clean Out[2]: {'Unacceptable'} cat_clean_rows = airlines['cleanliness'].isin[cat_clean] In [3]: cat_clean_rows Out[3]: 0 False 1 False 2 False 3 False 4 True ... 2804 False 2805 False 2806 False 2807 False 2808 False Name: cleanliness, Length: 2477, dtype: bool In [4]: print[airlines[cat_clean_rows]] id day airline destination dest_region dest_size \ 4 2992 Wednesday AMERICAN MIAMI East US Hub 18 2913 Friday TURKISH AIRLINES ISTANBUL Middle East Hub 100 2321 Wednesday SOUTHWEST LOS ANGELES West US Hub boarding_area dept_time wait_min cleanliness safety \ 4 Gates 50-59 2018-12-31 559.0 Unacceptable Very safe 18 Gates 91-102 2018-12-31 225.0 Unacceptable Very safe 100 Gates 20-39 2018-12-31 130.0 Unacceptable Somewhat safe satisfaction 4 Somewhat satisfied 18 Somewhat satisfied 100 Somewhat satisfied
- Tìm bản sao một lần nữa và chạy câu lệnh
3 để xác minh sự trùng lặp.# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates[]
# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}
# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby['ride_id'].agg[statistics].reset_index[]
# Find duplicated values again
duplicates = ride_unique.duplicated[subset = 'ride_id', keep = False]
duplicated_rides = ride_unique[duplicates == True]
# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
2. Các vấn đề về dữ liệu văn bản và phân loại
Các loại ràng buộc khác nhau:
- Các ràng buộc kiểu dữ liệu: 数据 类型 问题 问题
- Các ràng buộc phạm vi dữ liệu: 数值 范围 问题 问题
- Những hạn chế về tính độc đáo: 重复值 问题
- Tư cách thành viên ContStraints: 资格 问题
- 处理 方式
- 分类
- 格式 转化
- 缺 失值
- 不同 表格 合并 资格
Hạn chế thành viên: Khi ghi nội dung không nên tồn tại. F. Eks. Khi ghi lại nhóm máu, viết sai loại từ A+ đến Z+. Những ví dụ khác:
- Một cột
8 với giá trị 12.In [1]: categories Out[1]: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']] In [2]: cat_clean Out[2]: {'Unacceptable'} cat_clean_rows = airlines['cleanliness'].isin[cat_clean] In [3]: cat_clean_rows Out[3]: 0 False 1 False 2 False 3 False 4 True ... 2804 False 2805 False 2806 False 2807 False 2808 False Name: cleanliness, Length: 2477, dtype: bool In [4]: print[airlines[cat_clean_rows]] id day airline destination dest_region dest_size \ 4 2992 Wednesday AMERICAN MIAMI East US Hub 18 2913 Friday TURKISH AIRLINES ISTANBUL Middle East Hub 100 2321 Wednesday SOUTHWEST LOS ANGELES West US Hub boarding_area dept_time wait_min cleanliness safety \ 4 Gates 50-59 2018-12-31 559.0 Unacceptable Very safe 18 Gates 91-102 2018-12-31 225.0 Unacceptable Very safe 100 Gates 20-39 2018-12-31 130.0 Unacceptable Somewhat safe satisfaction 4 Somewhat satisfied 18 Somewhat satisfied 100 Somewhat satisfied
- Một cột
9 với giá trị là Satermondayday.In [1]: categories Out[1]: cleanliness safety satisfaction 0 Clean Neutral Very satisfied 1 Average Very safe Neutral 2 Somewhat clean Somewhat safe Somewhat satisfied 3 Somewhat dirty Very unsafe Somewhat unsatisfied 4 Dirty Somewhat unsafe Very unsatisfied cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']] In [2]: cat_clean Out[2]: {'Unacceptable'} cat_clean_rows = airlines['cleanliness'].isin[cat_clean] In [3]: cat_clean_rows Out[3]: 0 False 1 False 2 False 3 False 4 True ... 2804 False 2805 False 2806 False 2807 False 2808 False Name: cleanliness, Length: 2477, dtype: bool In [4]: print[airlines[cat_clean_rows]] id day airline destination dest_region dest_size \ 4 2992 Wednesday AMERICAN MIAMI East US Hub 18 2913 Friday TURKISH AIRLINES ISTANBUL Middle East Hub 100 2321 Wednesday SOUTHWEST LOS ANGELES West US Hub boarding_area dept_time wait_min cleanliness safety \ 4 Gates 50-59 2018-12-31 559.0 Unacceptable Very safe 18 Gates 91-102 2018-12-31 225.0 Unacceptable Very safe 100 Gates 20-39 2018-12-31 130.0 Unacceptable Somewhat safe satisfaction 4 Somewhat satisfied 18 Somewhat satisfied 100 Somewhat satisfied
- Một cột
00 với giá trị 14.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Một cột
01 chứa một lớp z.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
Tìm kiếm sự nhất quán
Trong bài tập này và trong suốt chương này, chúng tôi sẽ làm việc với
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
02 DataFrame có chứa các câu trả lời khảo sát trên sân bay San Francisco từ các khách hàng của hãng hàng không.DataFrame chứa siêu dữ liệu bay như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính liên quan đến sự sạch sẽ, an toàn và sự hài lòng. Một khung dữ liệu khác có tên
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
03 đã được tạo, chứa tất cả các giá trị có thể chính xác cho các cột khảo sát.Trong bài tập này, chúng tôi sẽ sử dụng cả hai khung dữ liệu này để tìm câu trả lời khảo sát với các giá trị không nhất quán và thả chúng, thực hiện hiệu quả một kết nối bên ngoài và bên trong trên cả hai khung dữ liệu này như đã thấy trong bài tập video. Gói
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và các khung dữ liệu # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
02 và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
03 nằm trong môi trường của bạn.- In
03 DataFrame và xem xét kỹ tất cả các loại chính xác có thể của các cột khảo sát.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- In các giá trị duy nhất của các cột khảo sát trong
02 bằng phương pháp# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
10.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
# Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
Đầu ra trông như thế này:
output:
cleanliness safety satisfaction
0 Clean Neutral Very satisfied
1 Average Very safe Neutral
2 Somewhat clean Somewhat safe Somewhat satisfied
3 Somewhat dirty Very unsafe Somewhat unsatisfied
4 Dirty Somewhat unsafe Very unsatisfied
Cleanliness: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
Categories [6, object]: [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
Safety: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
Categories [5, object]: [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
Satisfaction: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
Categories [5, object]: [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
Very unsatisfied]
Hãy xem đầu ra. Trong số các cột sạch, an toàn và hài lòng, cái nào có thể loại không nhất quán và nó là gì?
Tiếp theo, tìm cột có các giá trị khác nhau bằng cách sử dụng
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
11 và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
12:- Tạo một bộ ra khỏi cột
13 trong ____ 102-dataset bằng cách sử dụng# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
11 và tìm loại không nhất quán bằng cách tìm sự khác biệt trong cột# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
13 của ________ 103-dataset.difference in the# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
13 column of# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
03-dataset.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Tìm các hàng của
02 với giá trị# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
13 không có trong# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
03 và in đầu ra.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- In các hàng chỉ với các loại nhất quán của
13.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
# Find the cleanliness category in airlines not in categories
cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']]
# Find rows with that category
cat_clean_rows = airlines['cleanliness'].isin[cat_clean]
# Print rows with inconsistent category
print[airlines[cat_clean_rows]]
# Print rows with consistent categories only
print[airlines[~cat_clean_rows]]
Và điều này cho đầu ra sau khi khám phá dữ liệu:
In [1]: categories
Out[1]:
cleanliness safety satisfaction
0 Clean Neutral Very satisfied
1 Average Very safe Neutral
2 Somewhat clean Somewhat safe Somewhat satisfied
3 Somewhat dirty Very unsafe Somewhat unsatisfied
4 Dirty Somewhat unsafe Very unsatisfied
cat_clean = set[airlines['cleanliness']].difference[categories['cleanliness']]
In [2]: cat_clean
Out[2]:
{'Unacceptable'}
cat_clean_rows = airlines['cleanliness'].isin[cat_clean]
In [3]: cat_clean_rows
Out[3]:
0 False
1 False
2 False
3 False
4 True
...
2804 False
2805 False
2806 False
2807 False
2808 False
Name: cleanliness, Length: 2477, dtype: bool
In [4]: print[airlines[cat_clean_rows]]
id day airline destination dest_region dest_size \
4 2992 Wednesday AMERICAN MIAMI East US Hub
18 2913 Friday TURKISH AIRLINES ISTANBUL Middle East Hub
100 2321 Wednesday SOUTHWEST LOS ANGELES West US Hub
boarding_area dept_time wait_min cleanliness safety \
4 Gates 50-59 2018-12-31 559.0 Unacceptable Very safe
18 Gates 91-102 2018-12-31 225.0 Unacceptable Very safe
100 Gates 20-39 2018-12-31 130.0 Unacceptable Somewhat safe
satisfaction
4 Somewhat satisfied
18 Somewhat satisfied
100 Somewhat satisfied
Loại lỗi
Để giải quyết các vấn đề phổ biến ảnh hưởng đến các biến phân loại trong dữ liệu bao gồm không gian trắng và sự không nhất quán trong các danh mục và vấn đề tạo các danh mục mới và ánh xạ các loại hiện có đến các loại mới.
Đầu tiên, chúng ta có thể xem các giá trị cho một cột bằng cách sử dụng:
- `df [‘ colname,]. value_counts []
- hoặc thực hiện giá trị được tính trên DataFrame:
22# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
Điều này sẽ cung cấp một cái nhìn tổng quan về số lượng các giá trị/danh mục cho biến. Hơn chúng ta có thể giải quyết các vấn đề bằng cách:
Không gian trắng và sự không nhất quán::
-
23: Xóa tất cả các khoảng trống trước hoặc sau tên cột. Dải tất cả không gian.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
-
24: Viết hoa tất cả các nhãn để mọi nhãn được đánh vần bằng chữ in hoa.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
-
25: chữ thường, làm cho tất cả các nhãn được đánh vần bằng chữ thường# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
0Sụp đổ tất cả các tiểu bang
Tạo hoặc ánh xạ lại danh mục::
-
26: Xác định nhãn, cắt thành các nhóm N và liên kết với nhãn.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
-
27: Nhãn khác nhau và thredshold để cắt, hơn là liên kết các nhóm với nhãn.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
-
28: Giá trị nhóm đến ít giá trị hơn. Đầu tiên tạo một từ điển ánh xạ, vì vậy# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
29.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
Thu gọn dữ liệu vào danh mục: Tạo các danh mục ra khỏi dữ liệu - cột
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
30 từ cột # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
31# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
1Phương pháp
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
26 có thể không đủ chính xác. Một phương pháp khác tốt hơn nhiều:# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
2Bản đồ danh mục đến ít hơn: Giảm các danh mục trong cột phân loại. Ví dụ:
- Hoạt động_system Cột
- Cột Hoạt động_System sẽ trở thành: ‘Desktopos,‘ Mobileos,
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
3Điều này trả về:
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
33Các loại không nhất quán
DataFrame chứa siêu dữ liệu bay như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính liên quan đến sự sạch sẽ, an toàn và sự hài lòng trên sân bay San Francisco.
Chúng tôi sẽ kiểm tra hai cột phân loại từ DataFrame,
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
34 và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
35 tương ứng, đánh giá cách giải quyết chúng và đảm bảo rằng chúng được làm sạch và sẵn sàng để phân tích. Gói import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và DataFrame ____102 nằm trong môi trường của bạn.- In các giá trị duy nhất trong
34 và# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
35 tương ứng.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Thay đổi vốn hóa của tất cả các giá trị của
34 thành chữ thường.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Thay thế
42 bằng# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
43 trong# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
34 bằng phương pháp# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
28.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Dải không gian trắng từ cột
35 bằng phương pháp# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
6.import datetime as dt import pandas as pd # check data types ride_sharing['ride_date'].dtypes # Convert ride_date to datetime ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']] # Save today's date today = dt.date.today[] # Set all in the future to today's date ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today # Print maximum of ride_dt column print[ride_sharing['ride_dt'].max[]]
- Xác minh rằng các thay đổi đã có hiệu lực bằng cách in các giá trị duy nhất của các cột bằng cách sử dụng
10.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
4Các vấn đề với các cột:
- Cột
34 có các giá trị không nhất quán do vốn hóa và có một giá trị cần được bán lại.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Cột
35 chỉ có các giá trị không nhất quán do không gian dẫn đầu và dấu vết.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
Nhắc lại danh mục
Để hiểu rõ hơn những người trả lời khảo sát từ các hãng hàng không, bạn muốn tìm hiểu xem có mối quan hệ nào giữa các phản hồi nhất định và ngày trong tuần và thời gian chờ đợi tại cổng không.
DataFrame ____102 chứa các cột
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
52 và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
53, tương ứng là phân loại và số. Cột # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
52 chứa ngày chính xác một chuyến bay đã diễn ra và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
53 chứa số phút mà khách du lịch phải chờ đợi ở cổng. Để làm cho phân tích của bạn dễ dàng hơn, bạn muốn tạo hai biến phân loại mới:-
56:# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
57 trong 0-60 phút,# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
58 cho 60-180 và# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
59 cho 180+# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
-
60:# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
61 nếu ngày là vào ngày trong tuần,# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
62 nếu ngày là vào cuối tuần.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
Các gói
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
64 đã được nhập là import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
66. Hãy để tạo ra một số dữ liệu phân loại mới!Instructions::
- Tạo các phạm vi và nhãn cho cột
56 được đề cập trong mô tả ở trên.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Tạo cột
56 bằng cách từ# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
53 bằng cách sử dụng# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
70, trong khi nhập# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
71 và# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
72 trong các đối số chính xác.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Tạo các bản đồ ánh xạ ánh xạ các ngày trong tuần tới
61 và ngày cuối tuần đến# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
62.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Tạo cột
60 bằng cách sử dụng# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
28.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
5Làm sạch dữ liệu văn bản
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
6Loại bỏ tiêu đề và lấy tên
Trong khi thu thập siêu dữ liệu của người trả lời khảo sát trong DataFrame
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
02, tên đầy đủ của người trả lời đã được lưu trong cột # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
78. Tuy nhiên, khi kiểm tra kỹ hơn, bạn thấy rằng rất nhiều tên khác nhau được có tiền tố bởi Honorifics, chẳng hạn như là Tiến sĩ, ông, ông Mr. và nhớ".Mục tiêu cuối cùng của bạn là tạo hai cột mới có tên
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
79 và # Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
80, chứa tên đầu tiên và tên của người trả lời tương ứng. Tuy nhiên, trước khi làm như vậy, bạn cần loại bỏ Honorifics.DataFrame ____102 nằm trong môi trường của bạn, cùng với
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 là import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5.- Hủy bỏ, Tiến sĩ, một người khác, Mr. Từ
78 bằng cách thay thế chúng bằng một chuỗi trống rỗng theo thứ tự đó.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Chạy câu lệnh
3 bằng cách sử dụng# Find duplicates duplicates = ride_sharing.duplicated[subset='ride_id', keep=False] # Sort your duplicated rides duplicated_rides = ride_sharing[duplicates].sort_values['ride_id'] # Print relevant columns of duplicated_rides print[duplicated_rides[['ride_id','duration','user_birth_year']]]
86 kiểm tra xem Full_Name có còn chứa bất kỳ danh dự nào không.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
7Giữ nó mô tả
Để hiểu rõ hơn về trải nghiệm của khách du lịch tại sân bay San Francisco, bộ phận đảm bảo chất lượng đã gửi một bảng câu hỏi định tính cho tất cả các khách du lịch đã cho sân bay điểm số tồi tệ nhất trên tất cả các hạng mục có thể. Mục tiêu đằng sau bảng câu hỏi này là xác định các mô hình phổ biến trong những gì khách du lịch đang nói về sân bay.
Phản hồi của họ được lưu trữ trong cột
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
87. Khi nhìn kỹ hơn, bạn nhận ra một vài câu trả lời đã đưa ra số lượng ký tự ngắn nhất có thể mà không có nhiều chất. Trong bài tập này, bạn sẽ cô lập các câu trả lời với số lượng ký tự cao hơn 40 và đảm bảo DataFrame mới của bạn chứa các phản hồi có 40 ký tự trở lên bằng cách sử dụng câu lệnh # Find duplicates
duplicates = ride_sharing.duplicated[subset='ride_id', keep=False]
# Sort your duplicated rides
duplicated_rides = ride_sharing[duplicates].sort_values['ride_id']
# Print relevant columns of duplicated_rides
print[duplicated_rides[['ride_id','duration','user_birth_year']]]
3.DataFrame ____102 nằm trong môi trường của bạn và
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5.- Sử dụng
02 DataFrame, lưu trữ độ dài của mỗi trường hợp trong cột# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
87 trong# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
94 bằng cách sử dụng# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
95.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Phân lập các hàng của
02 với# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
94 cao hơn# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
98.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
- Khẳng định rằng độ dài phản hồi khảo sát nhỏ nhất trong
99 hiện lớn hơn 40.# Strip duration of minutes ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes'] # Convert duration to integer ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int'] # Write an assert statement making sure of conversion assert ride_sharing['duration_time'].dtype == 'int' # Print formed columns and calculate average ride duration print[ride_sharing[['duration','duration_trim','duration_time']]] print[ride_sharing['duration_time'].mean[]]
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
83. Các vấn đề về dữ liệu nâng cao
Tính đồng nhất
Cột | Đơn vị |
Nhiệt độ | 32 ° C cũng là 89,6 ° F |
Trọng lượng | 70 kg cũng là 11 st. |
Ngày | 26-11-2019 cũng là 26, tháng 11 năm 2019 |
Tiền bạc | 100 $ cũng là 10763,90 |
Tạo dữ liệu nhiệt độ từ F đến C: C = [F - 32] × 5/9 From F to C: C=[F−32]×5/9
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip['minutes']
# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype['int']
# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'
# Print formed columns and calculate average ride duration
print[ride_sharing[['duration','duration_trim','duration_time']]]
print[ride_sharing['duration_time'].mean[]]
9Định dạng DateTime
00 rất hữu ích cho việc biểu diễn ngày: Ngày | Định dạng DateTime 25-12-2019 | %d-%m-%y ngày 25 tháng 12 năm 2019 | %C 12-25-2019 | %m-%d-%y | | … # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
00 is useful for representing dates: Date | Datetime format 25-12-2019 | %d-%m-%Y December 25th 2019 | %c 12-25-2019 | %m-%d-%Y … | …# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
01- Có thể tự động nhận dạng hầu hết các định dạng
- Đôi khi thất bại với các định dạng sai lầm hoặc không thể nhận ra
Xử lý dữ liệu ngày
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
0Ngày mơ hồ
Bạn có một khung dữ liệu có chứa cột đăng ký_date được thu thập từ nhiều nguồn khác nhau với các định dạng ngày khác nhau như Yyyy-MM-DD và Yyyy-DD-MM. Cách tốt nhất để thống nhất các định dạng cho các giá trị mơ hồ như 2019-04-07 là gì?
- Đặt chúng thành NA và thả chúng.
- Suy ra định dạng của dữ liệu trong câu hỏi bằng cách kiểm tra định dạng của các giá trị tiếp theo và trước đó.
- Suy ra định dạng từ nguồn dữ liệu gốc.
- Tất cả những điều trên là có thể, miễn là chúng tôi điều tra dữ liệu của chúng tôi đến từ đâu và hiểu các động lực ảnh hưởng đến nó trước khi làm sạch nó. Chính xác
Tiền tệ đồng nhất
Trong bài tập này và trong suốt chương này, bạn sẽ làm việc với bộ dữ liệu
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
02 bán lẻ được lưu trữ trong DataFrame của ngân hàng. Bộ dữ liệu chứa dữ liệu về số tiền được lưu trữ trong tài khoản, tiền tệ, số tiền đầu tư, ngày mở tài khoản và ngày giao dịch cuối cùng được hợp nhất từ các chi nhánh của Mỹ và châu Âu.Bạn được giao nhiệm vụ hiểu quy mô tài khoản trung bình và cách đầu tư thay đổi theo quy mô của tài khoản, tuy nhiên để tạo ra phân tích này một cách chính xác, trước tiên bạn cần phải thống nhất số tiền tiền tệ thành đô la. Gói
import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 đã được nhập dưới dạng import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5 và DataFrame # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
02 nằm trong môi trường của bạn.- Tìm các hàng của
06 trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
02 bằng# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
08 và lưu trữ chúng trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
09.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tìm tất cả các hàng của
10 trong# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
02 phù hợp với điều kiện# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
09 và chuyển đổi chúng thành USD bằng cách nhân chúng với# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
13.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Tìm tất cả các hàng của
06 trong ngân hàng phù hợp với điều kiện# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
09, đặt chúng thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
16.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
1Ngày đồng nhất
Sau khi thống nhất các loại tiền tệ của số tiền tài khoản khác nhau của bạn, bạn muốn thêm một chiều theo thời gian vào phân tích của bạn và xem khách hàng đã đầu tư tiền của họ như thế nào với quy mô tài khoản của họ mỗi năm. Cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
17 đại diện khi khách hàng mở tài khoản của họ và là một ủy quyền tốt để phân đoạn hoạt động và đầu tư của khách hàng theo thời gian.Tuy nhiên, vì dữ liệu này được hợp nhất từ nhiều nguồn, bạn cần đảm bảo rằng tất cả các ngày có cùng định dạng. Bạn sẽ làm như vậy bằng cách chuyển đổi cột này thành một đối tượng
# Print categories DataFrame
print[categories]
# Print unique values of survey columns in airlines
print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"]
print['Safety: ', airlines["safety"].unique[], "\n"]
print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
4, trong khi đảm bảo rằng định dạng được suy ra và các định dạng không chính xác có khả năng bị thiếu. DataFrame # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
02 nằm trong môi trường của bạn và import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
3 được nhập là import datetime as dt
import pandas as pd
# check data types
ride_sharing['ride_date'].dtypes
# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime[ride_sharing['ride_date']]
# Save today's date
today = dt.date.today[]
# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
# Print maximum of ride_dt column
print[ride_sharing['ride_dt'].max[]]
5.- In tiêu đề của
17 từ DataFrame# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
02 và xem các kết quả khác nhau.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- Chuyển đổi cột
17 thành# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
4, trong khi đảm bảo định dạng ngày được suy ra và các định dạng sai lầm làm tăng lỗi trả về một giá trị bị thiếu.# Print categories DataFrame print[categories] # Print unique values of survey columns in airlines print['Cleanliness: ', airlines['cleanliness'].unique[], "\n"] print['Safety: ', airlines["safety"].unique[], "\n"] print['Satisfaction: ', airlines['satisfaction'].unique[], "\n"]
- Trích xuất năm từ cột
17 sửa đổi và gán nó cho cột# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
27.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
- In cột
27 mới được tạo.# Convert tire_sizes to integer ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int'] # Set all values above 27 to 27 ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27 # Reconvert tire_sizes back to categorical ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category'] # Print tire size description print[ride_sharing['tire_sizes'].describe[]]
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
2Hãy xem đầu ra. Bạn đã thử chuyển đổi các giá trị thành DateTime bằng cách sử dụng hàm TO_DATETIME [] mặc định mà không thay đổi bất kỳ đối số nào, tuy nhiên đã nhận được lỗi sau:
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
29Sao bạn lại nghĩ như vậy?
- Hàm to_dateTime [] cần được nói rõ ràng định dạng ngày nào mỗi hàng.
- Hàm TO_DATETIME [] chỉ có thể được áp dụng trên các định dạng ngày YY-MM-DD.
- Mục nhập 21-14-17 là sai lầm và dẫn đến một lỗi. Chính xác
Xác thực trường chéo
Việc sử dụng nhiều trường trong tập dữ liệu để kiểm tra độ chính xác dữ liệu.multiple fields in a dataset to sanity check data integrity.
Ở đây, chúng tôi chỉ định
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
30 để chỉ định tổng từng hàng. .Kiểm tra từ iPad
Ở đây, chúng tôi chỉ định
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
30 để chỉ định tổng từng hàng.Và ở đây chúng tôi kiểm tra xem các cột
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
31 và # Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['int']
# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype['category']
# Print tire size description
print[ride_sharing['tire_sizes'].describe[]]
32 có cung cấp thông tin tương tự hay không.