Hướng dẫn importing and cleaning data with python assessment answers - nhập và làm sạch dữ liệu với câu trả lời đánh giá python

Permalink

bậc thầy

Chuyển nhánh/thẻ

Không thể tải các nhánh

Không có gì để hiển thị

{{refname}}

Tên đã được sử dụng

Một thẻ đã tồn tại với tên chi nhánh được cung cấp. Nhiều lệnh GIT chấp nhận cả tên thẻ và tên chi nhánh, vì vậy việc tạo nhánh này có thể gây ra hành vi bất ngờ. Bạn có chắc là bạn muốn tạo chi nhánh này?

Đi nộp

  • Đi nộp
  • Sao chép đường dẫn
  • Sao chép permalink

Không thể lấy lại những người đóng góp tại thời điểm này

4954 dòng (4954 SLOC) 202 KB 202 KB

Đổ lỗi

Mở trong máy tính để bàn GitHub

  • Mở với máy tính để bàn
  • Xem thô
  • Xem đổ lỗi

Xin lỗi, có lỗi xảy ra. Tải lại?

Xin lỗi, chúng tôi không thể hiển thị tệp này.

Xin lỗi, tệp này không hợp lệ nên nó không thể được hiển thị.

Từ DataCamp.

1. Các vấn đề dữ liệu phổ biến

Các loại dữ liệu phổ biến

  • Các loại dữ liệu số
  • Chữ
  • ngày

Kiểu dữ liệu hạn chế

Thao tác và phân tích dữ liệu với các loại dữ liệu không chính xác có thể dẫn đến phân tích bị xâm phạm khi bạn đi dọc theo quy trình công việc khoa học dữ liệu.

Khi làm việc với dữ liệu mới, chúng tôi có thể sử dụng thuộc tính

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
3 hoặc phương thức
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
4. Thông thường, bạn sẽ chạy vào các cột cần được chuyển đổi thành các loại dữ liệu khác nhau trước khi bắt đầu bất kỳ phân tích nào.

Để mô tả dữ liệu và kiểm tra các loại dữ liệu:

Dữ liệu chia sẻ xe đạp ở San Francisco,

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
5, chứa thông tin về các trạm bắt đầu và kết thúc, thời lượng chuyến đi và một số thông tin người dùng cho dịch vụ chia sẻ xe đạp.

Ý chí tiêu thụ đặc biệt

  • In thông tin của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    5. Sử dụng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    7 để in số liệu thống kê tóm tắt của cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    8 từ
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    5.

# Print the information of ride_sharing
print(ride_sharing.info())

# Print summary statistics of user_type column
print(ride_sharing['user_type'].describe())

Tóm tắt các chuỗi và các số kết hợp

Một vấn đề kiểu dữ liệu phổ biến khác là nhập những gì nên là giá trị số dưới dạng chuỗi, vì các hoạt động toán học như tổng và nhân dẫn đến nối chuỗi, không phải là đầu ra số.

Bài tập này sẽ chuyển đổi cột chuỗi

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
0 thành loại
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
1. Đầu tiên, dải
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
2 từ cột để đảm bảo
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 đọc nó dưới dạng số. Gói
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 đã được nhập là
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5.

  • Sử dụng phương thức
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    6 để tước
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    0 của
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    2 và lưu trữ nó trong cột
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    9.
  • Chuyển đổi
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    9 thành
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    1 và lưu trữ nó trong
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    2.
  • Viết một câu lệnh
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    3 kiểm tra xem kiểu dữ liệu ____ 44 44 hiện là
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    1.
  • In thời gian đi xe trung bình.

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())

Hạn chế phạm vi dữ liệu

Đôi khi có thể hiển thị các giá trị nằm ngoài phạm vi dữ liệu. Ví dụ, một thời gian trong tương lai được bao gồm trong thời điểm; hoặc sáu ngôi sao trong một hệ thống năm sao.

Cách để đối phó với nó:

  • Các giá trị thả bằng cách sử dụng lọc:
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    6
  • Giá trị thả bằng cách sử dụng:
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    7:
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    8
  • Kết quả khẳng định:
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    9

Kích thước lốp bị ràng buộc

Kích thước lốp xe đạp có thể là 26, 27 hoặc 29 và được lưu trữ chính xác dưới dạng giá trị phân loại. Trong nỗ lực cắt giảm chi phí bảo trì, nhà cung cấp dịch vụ chia sẻ đi xe đã quyết định đặt kích thước lốp tối đa là 27.

Trong bài tập này, cột

# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()

# Find duplicated values again
duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
0 có phạm vi chính xác bằng cách trước tiên chuyển đổi nó thành một số nguyên, sau đó cài đặt và kiểm tra giới hạn trên mới là 27 cho kích thước lốp.

  • Chuyển đổi cột
    # Drop complete duplicates from ride_sharing
    ride_dup = ride_sharing.drop_duplicates()
    
    # Create statistics dictionary for aggregation function
    statistics = {'user_birth_year': 'min', 'duration': 'mean'}
    
    # Group by ride_id and compute new statistics
    ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()
    
    # Find duplicated values again
    duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
    duplicated_rides = ride_unique[duplicates == True]
    
    # Assert duplicates are processed
    assert duplicated_rides.shape[0] == 0
    
    0 từ danh mục thành
    # Drop complete duplicates from ride_sharing
    ride_dup = ride_sharing.drop_duplicates()
    
    # Create statistics dictionary for aggregation function
    statistics = {'user_birth_year': 'min', 'duration': 'mean'}
    
    # Group by ride_id and compute new statistics
    ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()
    
    # Find duplicated values again
    duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
    duplicated_rides = ride_unique[duplicates == True]
    
    # Assert duplicates are processed
    assert duplicated_rides.shape[0] == 0
    
    2.
  • Sử dụng
    # Drop complete duplicates from ride_sharing
    ride_dup = ride_sharing.drop_duplicates()
    
    # Create statistics dictionary for aggregation function
    statistics = {'user_birth_year': 'min', 'duration': 'mean'}
    
    # Group by ride_id and compute new statistics
    ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()
    
    # Find duplicated values again
    duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
    duplicated_rides = ride_unique[duplicates == True]
    
    # Assert duplicates are processed
    assert duplicated_rides.shape[0] == 0
    
    3 để đặt tất cả các giá trị của lốp_sizes trên 27 đến 27.
  • REConvert trở lại
    # Drop complete duplicates from ride_sharing
    ride_dup = ride_sharing.drop_duplicates()
    
    # Create statistics dictionary for aggregation function
    statistics = {'user_birth_year': 'min', 'duration': 'mean'}
    
    # Group by ride_id and compute new statistics
    ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()
    
    # Find duplicated values again
    duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
    duplicated_rides = ride_unique[duplicates == True]
    
    # Assert duplicates are processed
    assert duplicated_rides.shape[0] == 0
    
    0 thành
    # Drop complete duplicates from ride_sharing
    ride_dup = ride_sharing.drop_duplicates()
    
    # Create statistics dictionary for aggregation function
    statistics = {'user_birth_year': 'min', 'duration': 'mean'}
    
    # Group by ride_id and compute new statistics
    ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()
    
    # Find duplicated values again
    duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
    duplicated_rides = ride_unique[duplicates == True]
    
    # Assert duplicates are processed
    assert duplicated_rides.shape[0] == 0
    
    5, từ
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    1.
  • In mô tả của
    # Drop complete duplicates from ride_sharing
    ride_dup = ride_sharing.drop_duplicates()
    
    # Create statistics dictionary for aggregation function
    statistics = {'user_birth_year': 'min', 'duration': 'mean'}
    
    # Group by ride_id and compute new statistics
    ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()
    
    # Find duplicated values again
    duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
    duplicated_rides = ride_unique[duplicates == True]
    
    # Assert duplicates are processed
    assert duplicated_rides.shape[0] == 0
    
    0.

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())

Quay lại tương lai

Một bản cập nhật mới cho đường ống dữ liệu cung cấp cho

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
5 DataFrame đã được cập nhật để đăng ký mỗi ngày đi xe. Thông tin này được lưu trữ trong cột
# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()

# Find duplicated values again
duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
9 thuộc loại
# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
0, đại diện cho các chuỗi trong
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3.

Một lỗi đã được phát hiện đã chuyển tiếp các chuyến đi được thực hiện hôm nay như được thực hiện vào năm tới. Để khắc phục điều này, bạn sẽ tìm thấy tất cả các trường hợp của cột

# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()

# Find duplicated values again
duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
9 xảy ra bất cứ lúc nào trong tương lai và đặt giá trị tối đa có thể của cột này thành ngày hôm nay. Trước khi làm như vậy, bạn sẽ cần chuyển đổi
# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()

# Find duplicated values again
duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
9 sang đối tượng
# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
4.

Gói

# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
4 đã được nhập dưới dạng
# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
6, cùng với tất cả các gói mà bạn đã sử dụng cho đến bây giờ.

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())

Trùng lặp

Tập hợp con của bạn lớn như thế nào? Bạn có bản dữ liệu

# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
7 sau đây chứa dữ liệu cho vay và điểm tín dụng cho người tiêu dùng và một số siêu dữ liệu như tên đầu tiên và tên của họ. Bạn muốn tìm cả hai bản sao hoàn chỉnh và không đầy đủ bằng cách sử dụng
# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
8.
You have the following
# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
7 DataFrame which contains loan and credit score data for consumers, and some metadata such as their first and last names. You want to find both complete and incomplete duplicates using
# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
8.

họhọCredit_Scorehas_loan
JustinSaddlemeyer600 1
HadrienLacroix450 0

Chọn cách sử dụng chính xác của

# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
8 dưới đây:

Tuy nhiên, bản cập nhật trùng với thời gian đi xe trung bình ngắn hơn và ngày sinh không thường xuyên được thiết lập trong tương lai. Quan trọng nhất, số lượng chuyến đi được thực hiện đã tăng 20% ​​qua đêm, khiến bạn nghĩ rằng có thể có cả hai bản sao hoàn chỉnh và không đầy đủ trong DataFrame

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
5.

Trong bài tập này, bạn sẽ xác nhận sự nghi ngờ này bằng cách tìm thấy những bản sao đó. Một mẫu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
5 nằm trong môi trường của bạn, cũng như tất cả các gói mà bạn đã làm việc cho đến nay.

  • Tìm các hàng trùng lặp
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    2 trong DataFrame
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    5 trong khi đặt
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    4 thành
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    5.
  • Tập hợp con
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    5 trên
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    7 và sắp xếp bằng
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    2 và gán kết quả cho
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    9.
  • In các cột
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    2,
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    0 và
    # Find the cleanliness category in airlines not in categories
    cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])
    
    # Find rows with that category
    cat_clean_rows = airlines['cleanliness'].isin(cat_clean)
    
    # Print rows with inconsistent category
    print(airlines[cat_clean_rows])
    
    # Print rows with consistent categories only
    print(airlines[~cat_clean_rows])
    
    2 của
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    9 theo thứ tự đó.

# Find duplicates
duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)

# Sort your duplicated rides
duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['ride_id','duration','user_birth_year']])

Điều trị trùng lặp

Trong bài tập cuối cùng, bạn có thể xác minh rằng bản cập nhật mới cho ăn vào

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
5 chứa một lỗi tạo ra cả các hàng trùng lặp hoàn chỉnh và không đầy đủ cho một số giá trị của cột
 output:
          cleanliness           safety          satisfaction
    0           Clean          Neutral        Very satisfied
    1         Average        Very safe               Neutral
    2  Somewhat clean    Somewhat safe    Somewhat satisfied
    3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
    4           Dirty  Somewhat unsafe      Very unsatisfied
    Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
    Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
    
    Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
    Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
    
    Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
    Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                             Very unsatisfied] 
2, với các giá trị khác nhau thường xuyên cho các cột
# Find the cleanliness category in airlines not in categories
cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])

# Find rows with that category
cat_clean_rows = airlines['cleanliness'].isin(cat_clean)

# Print rows with inconsistent category
print(airlines[cat_clean_rows])

# Print rows with consistent categories only
print(airlines[~cat_clean_rows])
2 và
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
0.

Trong bài tập này, bạn sẽ xử lý các hàng trùng lặp đó bằng cách đầu tiên thả các bản sao hoàn chỉnh, sau đó hợp nhất các hàng trùng lặp không hoàn chỉnh thành một trong khi giữ mức trung bình ____30 và tối thiểu

# Find the cleanliness category in airlines not in categories
cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])

# Find rows with that category
cat_clean_rows = airlines['cleanliness'].isin(cat_clean)

# Print rows with inconsistent category
print(airlines[cat_clean_rows])

# Print rows with consistent categories only
print(airlines[~cat_clean_rows])
2 cho mỗi bộ các hàng sao chép không hoàn chỉnh.

  • Thả các bản sao hoàn chỉnh trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    5 và lưu trữ kết quả trong
    In [1]: categories
    Out[1]:
          cleanliness           safety          satisfaction
    0           Clean          Neutral        Very satisfied
    1         Average        Very safe               Neutral
    2  Somewhat clean    Somewhat safe    Somewhat satisfied
    3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
    4           Dirty  Somewhat unsafe      Very unsatisfied
    
    cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])
    
    In [2]: cat_clean
    Out[2]:
    {'Unacceptable'}
    
    cat_clean_rows = airlines['cleanliness'].isin(cat_clean)
    
    In [3]: cat_clean_rows
    Out[3]:
    0       False
    1       False
    2       False
    3       False
    4        True
            ...  
    2804    False
    2805    False
    2806    False
    2807    False
    2808    False
    Name: cleanliness, Length: 2477, dtype: bool
    
    In [4]: print(airlines[cat_clean_rows])
           id        day           airline  destination  dest_region dest_size  \
    4    2992  Wednesday          AMERICAN        MIAMI      East US       Hub   
    18   2913     Friday  TURKISH AIRLINES     ISTANBUL  Middle East       Hub   
    100  2321  Wednesday         SOUTHWEST  LOS ANGELES      West US       Hub   
    
        boarding_area   dept_time  wait_min   cleanliness         safety  \
    4     Gates 50-59  2018-12-31     559.0  Unacceptable      Very safe   
    18   Gates 91-102  2018-12-31     225.0  Unacceptable      Very safe   
    100   Gates 20-39  2018-12-31     130.0  Unacceptable  Somewhat safe   
    
               satisfaction  
    4    Somewhat satisfied  
    18   Somewhat satisfied  
    100  Somewhat satisfied  
    
    1.
  • Tạo từ điển
    In [1]: categories
    Out[1]:
          cleanliness           safety          satisfaction
    0           Clean          Neutral        Very satisfied
    1         Average        Very safe               Neutral
    2  Somewhat clean    Somewhat safe    Somewhat satisfied
    3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
    4           Dirty  Somewhat unsafe      Very unsatisfied
    
    cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])
    
    In [2]: cat_clean
    Out[2]:
    {'Unacceptable'}
    
    cat_clean_rows = airlines['cleanliness'].isin(cat_clean)
    
    In [3]: cat_clean_rows
    Out[3]:
    0       False
    1       False
    2       False
    3       False
    4        True
            ...  
    2804    False
    2805    False
    2806    False
    2807    False
    2808    False
    Name: cleanliness, Length: 2477, dtype: bool
    
    In [4]: print(airlines[cat_clean_rows])
           id        day           airline  destination  dest_region dest_size  \
    4    2992  Wednesday          AMERICAN        MIAMI      East US       Hub   
    18   2913     Friday  TURKISH AIRLINES     ISTANBUL  Middle East       Hub   
    100  2321  Wednesday         SOUTHWEST  LOS ANGELES      West US       Hub   
    
        boarding_area   dept_time  wait_min   cleanliness         safety  \
    4     Gates 50-59  2018-12-31     559.0  Unacceptable      Very safe   
    18   Gates 91-102  2018-12-31     225.0  Unacceptable      Very safe   
    100   Gates 20-39  2018-12-31     130.0  Unacceptable  Somewhat safe   
    
               satisfaction  
    4    Somewhat satisfied  
    18   Somewhat satisfied  
    100  Somewhat satisfied  
    
    2 chứa tập hợp tối thiểu cho
    # Find the cleanliness category in airlines not in categories
    cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])
    
    # Find rows with that category
    cat_clean_rows = airlines['cleanliness'].isin(cat_clean)
    
    # Print rows with inconsistent category
    print(airlines[cat_clean_rows])
    
    # Print rows with consistent categories only
    print(airlines[~cat_clean_rows])
    
    2 và tập hợp trung bình cho
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    0.
  • Thả các bản sao không hoàn chỉnh bằng cách nhóm theo
     output:
              cleanliness           safety          satisfaction
        0           Clean          Neutral        Very satisfied
        1         Average        Very safe               Neutral
        2  Somewhat clean    Somewhat safe    Somewhat satisfied
        3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
        4           Dirty  Somewhat unsafe      Very unsatisfied
        Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
        Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
        
        Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
        Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
        
        Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
        Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                                 Very unsatisfied] 
    
    2 và áp dụng tập hợp trong
    In [1]: categories
    Out[1]:
          cleanliness           safety          satisfaction
    0           Clean          Neutral        Very satisfied
    1         Average        Very safe               Neutral
    2  Somewhat clean    Somewhat safe    Somewhat satisfied
    3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
    4           Dirty  Somewhat unsafe      Very unsatisfied
    
    cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])
    
    In [2]: cat_clean
    Out[2]:
    {'Unacceptable'}
    
    cat_clean_rows = airlines['cleanliness'].isin(cat_clean)
    
    In [3]: cat_clean_rows
    Out[3]:
    0       False
    1       False
    2       False
    3       False
    4        True
            ...  
    2804    False
    2805    False
    2806    False
    2807    False
    2808    False
    Name: cleanliness, Length: 2477, dtype: bool
    
    In [4]: print(airlines[cat_clean_rows])
           id        day           airline  destination  dest_region dest_size  \
    4    2992  Wednesday          AMERICAN        MIAMI      East US       Hub   
    18   2913     Friday  TURKISH AIRLINES     ISTANBUL  Middle East       Hub   
    100  2321  Wednesday         SOUTHWEST  LOS ANGELES      West US       Hub   
    
        boarding_area   dept_time  wait_min   cleanliness         safety  \
    4     Gates 50-59  2018-12-31     559.0  Unacceptable      Very safe   
    18   Gates 91-102  2018-12-31     225.0  Unacceptable      Very safe   
    100   Gates 20-39  2018-12-31     130.0  Unacceptable  Somewhat safe   
    
               satisfaction  
    4    Somewhat satisfied  
    18   Somewhat satisfied  
    100  Somewhat satisfied  
    
    2.
  • Tìm bản sao một lần nữa và chạy câu lệnh
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    3 để xác minh sự trùng lặp.

# Drop complete duplicates from ride_sharing
ride_dup = ride_sharing.drop_duplicates()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': 'min', 'duration': 'mean'}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()

# Find duplicated values again
duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0

2. Các vấn đề về dữ liệu văn bản và phân loại

Các loại ràng buộc khác nhau:

  • Các ràng buộc kiểu dữ liệu: 数据 类型 问题 问题
  • Các ràng buộc phạm vi dữ liệu: 数值 范围 问题 问题
  • Những hạn chế về tính độc đáo: 重复值 问题
  • Tư cách thành viên ContStraints: 资格 问题
  • 处理 方式
  • 分类
  • 格式 转化
  • 缺 失值
  • 不同 表格 合并 资格

Hạn chế thành viên: Khi ghi nội dung không nên tồn tại. F. Eks. Khi ghi lại nhóm máu, viết sai loại từ A+ đến Z+. Những ví dụ khác:

  • Một cột
    In [1]: categories
    Out[1]:
          cleanliness           safety          satisfaction
    0           Clean          Neutral        Very satisfied
    1         Average        Very safe               Neutral
    2  Somewhat clean    Somewhat safe    Somewhat satisfied
    3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
    4           Dirty  Somewhat unsafe      Very unsatisfied
    
    cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])
    
    In [2]: cat_clean
    Out[2]:
    {'Unacceptable'}
    
    cat_clean_rows = airlines['cleanliness'].isin(cat_clean)
    
    In [3]: cat_clean_rows
    Out[3]:
    0       False
    1       False
    2       False
    3       False
    4        True
            ...  
    2804    False
    2805    False
    2806    False
    2807    False
    2808    False
    Name: cleanliness, Length: 2477, dtype: bool
    
    In [4]: print(airlines[cat_clean_rows])
           id        day           airline  destination  dest_region dest_size  \
    4    2992  Wednesday          AMERICAN        MIAMI      East US       Hub   
    18   2913     Friday  TURKISH AIRLINES     ISTANBUL  Middle East       Hub   
    100  2321  Wednesday         SOUTHWEST  LOS ANGELES      West US       Hub   
    
        boarding_area   dept_time  wait_min   cleanliness         safety  \
    4     Gates 50-59  2018-12-31     559.0  Unacceptable      Very safe   
    18   Gates 91-102  2018-12-31     225.0  Unacceptable      Very safe   
    100   Gates 20-39  2018-12-31     130.0  Unacceptable  Somewhat safe   
    
               satisfaction  
    4    Somewhat satisfied  
    18   Somewhat satisfied  
    100  Somewhat satisfied  
    
    8 với giá trị 12.
  • Một cột
    In [1]: categories
    Out[1]:
          cleanliness           safety          satisfaction
    0           Clean          Neutral        Very satisfied
    1         Average        Very safe               Neutral
    2  Somewhat clean    Somewhat safe    Somewhat satisfied
    3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
    4           Dirty  Somewhat unsafe      Very unsatisfied
    
    cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])
    
    In [2]: cat_clean
    Out[2]:
    {'Unacceptable'}
    
    cat_clean_rows = airlines['cleanliness'].isin(cat_clean)
    
    In [3]: cat_clean_rows
    Out[3]:
    0       False
    1       False
    2       False
    3       False
    4        True
            ...  
    2804    False
    2805    False
    2806    False
    2807    False
    2808    False
    Name: cleanliness, Length: 2477, dtype: bool
    
    In [4]: print(airlines[cat_clean_rows])
           id        day           airline  destination  dest_region dest_size  \
    4    2992  Wednesday          AMERICAN        MIAMI      East US       Hub   
    18   2913     Friday  TURKISH AIRLINES     ISTANBUL  Middle East       Hub   
    100  2321  Wednesday         SOUTHWEST  LOS ANGELES      West US       Hub   
    
        boarding_area   dept_time  wait_min   cleanliness         safety  \
    4     Gates 50-59  2018-12-31     559.0  Unacceptable      Very safe   
    18   Gates 91-102  2018-12-31     225.0  Unacceptable      Very safe   
    100   Gates 20-39  2018-12-31     130.0  Unacceptable  Somewhat safe   
    
               satisfaction  
    4    Somewhat satisfied  
    18   Somewhat satisfied  
    100  Somewhat satisfied  
    
    9 với giá trị là Satermondayday.
  • Một cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    00 với giá trị 14.
  • Một cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    01 chứa một lớp z.

Tìm kiếm sự nhất quán

Trong bài tập này và trong suốt chương này, chúng tôi sẽ làm việc với

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
02 DataFrame có chứa các câu trả lời khảo sát trên sân bay San Francisco từ các khách hàng của hãng hàng không.

DataFrame chứa siêu dữ liệu bay như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính liên quan đến sự sạch sẽ, an toàn và sự hài lòng. Một khung dữ liệu khác có tên

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
03 đã được tạo, chứa tất cả các giá trị có thể chính xác cho các cột khảo sát.

Trong bài tập này, chúng tôi sẽ sử dụng cả hai khung dữ liệu này để tìm câu trả lời khảo sát với các giá trị không nhất quán và thả chúng, thực hiện hiệu quả một kết nối bên ngoài và bên trong trên cả hai khung dữ liệu này như đã thấy trong bài tập video. Gói

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 đã được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5 và các khung dữ liệu
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
02 và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
03 nằm trong môi trường của bạn.

  • In
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    03 DataFrame và xem xét kỹ tất cả các loại chính xác có thể của các cột khảo sát.
  • In các giá trị duy nhất của các cột khảo sát trong
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    02 bằng phương pháp
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    10.

# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")

Đầu ra trông như thế này:

 output:
          cleanliness           safety          satisfaction
    0           Clean          Neutral        Very satisfied
    1         Average        Very safe               Neutral
    2  Somewhat clean    Somewhat safe    Somewhat satisfied
    3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
    4           Dirty  Somewhat unsafe      Very unsatisfied
    Cleanliness:  [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty]
    Categories (6, object): [Clean, Average, Unacceptable, Somewhat clean, Somewhat dirty, Dirty] 
    
    Safety:  [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe]
    Categories (5, object): [Neutral, Very safe, Somewhat safe, Very unsafe, Somewhat unsafe] 
    
    Satisfaction:  [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied, Very unsatisfied]
    Categories (5, object): [Very satisfied, Neutral, Somewhat satisfied, Somewhat unsatisfied,
                             Very unsatisfied] 

Hãy xem đầu ra. Trong số các cột sạch, an toàn và hài lòng, cái nào có thể loại không nhất quán và nó là gì?

Tiếp theo, tìm cột có các giá trị khác nhau bằng cách sử dụng

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
11 và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
12:

  • Tạo một bộ ra khỏi cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    13 trong ____ 102-dataset bằng cách sử dụng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    11 và tìm loại không nhất quán bằng cách tìm sự khác biệt trong cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    13 của ________ 103-dataset.difference in the
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    13 column of
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    03-dataset.
  • Tìm các hàng của
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    02 với giá trị
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    13 không có trong
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    03 và in đầu ra.
  • In các hàng chỉ với các loại nhất quán của
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    13.

# Find the cleanliness category in airlines not in categories
cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])

# Find rows with that category
cat_clean_rows = airlines['cleanliness'].isin(cat_clean)

# Print rows with inconsistent category
print(airlines[cat_clean_rows])

# Print rows with consistent categories only
print(airlines[~cat_clean_rows])

Và điều này cho đầu ra sau khi khám phá dữ liệu:

In [1]: categories
Out[1]:
      cleanliness           safety          satisfaction
0           Clean          Neutral        Very satisfied
1         Average        Very safe               Neutral
2  Somewhat clean    Somewhat safe    Somewhat satisfied
3  Somewhat dirty      Very unsafe  Somewhat unsatisfied
4           Dirty  Somewhat unsafe      Very unsatisfied

cat_clean = set(airlines['cleanliness']).difference(categories['cleanliness'])

In [2]: cat_clean
Out[2]:
{'Unacceptable'}

cat_clean_rows = airlines['cleanliness'].isin(cat_clean)

In [3]: cat_clean_rows
Out[3]:
0       False
1       False
2       False
3       False
4        True
        ...  
2804    False
2805    False
2806    False
2807    False
2808    False
Name: cleanliness, Length: 2477, dtype: bool

In [4]: print(airlines[cat_clean_rows])
       id        day           airline  destination  dest_region dest_size  \
4    2992  Wednesday          AMERICAN        MIAMI      East US       Hub   
18   2913     Friday  TURKISH AIRLINES     ISTANBUL  Middle East       Hub   
100  2321  Wednesday         SOUTHWEST  LOS ANGELES      West US       Hub   

    boarding_area   dept_time  wait_min   cleanliness         safety  \
4     Gates 50-59  2018-12-31     559.0  Unacceptable      Very safe   
18   Gates 91-102  2018-12-31     225.0  Unacceptable      Very safe   
100   Gates 20-39  2018-12-31     130.0  Unacceptable  Somewhat safe   

           satisfaction  
4    Somewhat satisfied  
18   Somewhat satisfied  
100  Somewhat satisfied  

Loại lỗi

Để giải quyết các vấn đề phổ biến ảnh hưởng đến các biến phân loại trong dữ liệu bao gồm không gian trắng và sự không nhất quán trong các danh mục và vấn đề tạo các danh mục mới và ánh xạ các loại hiện có đến các loại mới.

Đầu tiên, chúng ta có thể xem các giá trị cho một cột bằng cách sử dụng:

  • `df [‘ colname,]. value_counts ()
  • hoặc thực hiện giá trị được tính trên DataFrame:
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    22

Điều này sẽ cung cấp một cái nhìn tổng quan về số lượng các giá trị/danh mục cho biến. Hơn chúng ta có thể giải quyết các vấn đề bằng cách:

Không gian trắng và sự không nhất quán::

  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    23: Xóa tất cả các khoảng trống trước hoặc sau tên cột. Dải tất cả không gian.
  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    24: Viết hoa tất cả các nhãn để mọi nhãn được đánh vần bằng chữ in hoa.
  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    25: chữ thường, làm cho tất cả các nhãn được đánh vần bằng chữ thường

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
0

Sụp đổ tất cả các tiểu bang

Hướng dẫn importing and cleaning data with python assessment answers - nhập và làm sạch dữ liệu với câu trả lời đánh giá python

Tạo hoặc ánh xạ lại danh mục::

  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    26: Xác định nhãn, cắt thành các nhóm N và liên kết với nhãn.
  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    27: Nhãn khác nhau và thredshold để cắt, hơn là liên kết các nhóm với nhãn.
  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    28: Giá trị nhóm đến ít giá trị hơn. Đầu tiên tạo một từ điển ánh xạ, vì vậy
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    29.

Thu gọn dữ liệu vào danh mục: Tạo các danh mục ra khỏi dữ liệu - cột

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
30 từ cột
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
31

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
1

Phương pháp

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
26 có thể không đủ chính xác. Một phương pháp khác tốt hơn nhiều:

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
2

Bản đồ danh mục đến ít hơn: Giảm các danh mục trong cột phân loại. Ví dụ:

  • Hoạt động_system Cột
  • Cột Hoạt động_System sẽ trở thành: ‘Desktopos,‘ Mobileos,

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
3

Điều này trả về:

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
33

Các loại không nhất quán

DataFrame chứa siêu dữ liệu bay như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính liên quan đến sự sạch sẽ, an toàn và sự hài lòng trên sân bay San Francisco.

Chúng tôi sẽ kiểm tra hai cột phân loại từ DataFrame,

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
34 và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
35 tương ứng, đánh giá cách giải quyết chúng và đảm bảo rằng chúng được làm sạch và sẵn sàng để phân tích. Gói
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 đã được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5 và DataFrame ____102 nằm trong môi trường của bạn.

  • In các giá trị duy nhất trong
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    34 và
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    35 tương ứng.
  • Thay đổi vốn hóa của tất cả các giá trị của
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    34 thành chữ thường.
  • Thay thế
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    42 bằng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    43 trong
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    34 bằng phương pháp
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    28.
  • Dải không gian trắng từ cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    35 bằng phương pháp
    import datetime as dt
    import pandas as pd
    
    # check data types
    ride_sharing['ride_date'].dtypes
    
    # Convert ride_date to datetime
    ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])
    
    # Save today's date
    today = dt.date.today()
    
    # Set all in the future to today's date
    ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today
    
    # Print maximum of ride_dt column
    print(ride_sharing['ride_dt'].max())
    
    6.
  • Xác minh rằng các thay đổi đã có hiệu lực bằng cách in các giá trị duy nhất của các cột bằng cách sử dụng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    10.

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
4

Các vấn đề với các cột:

  • Cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    34 có các giá trị không nhất quán do vốn hóa và có một giá trị cần được bán lại.
  • Cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    35 chỉ có các giá trị không nhất quán do không gian dẫn đầu và dấu vết.

Nhắc lại danh mục

Để hiểu rõ hơn những người trả lời khảo sát từ các hãng hàng không, bạn muốn tìm hiểu xem có mối quan hệ nào giữa các phản hồi nhất định và ngày trong tuần và thời gian chờ đợi tại cổng không.

DataFrame ____102 chứa các cột

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
52 và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
53, tương ứng là phân loại và số. Cột
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
52 chứa ngày chính xác một chuyến bay đã diễn ra và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
53 chứa số phút mà khách du lịch phải chờ đợi ở cổng. Để làm cho phân tích của bạn dễ dàng hơn, bạn muốn tạo hai biến phân loại mới:

  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    56:
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    57 trong 0-60 phút,
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    58 cho 60-180 và
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    59 cho 180+
  • # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    60:
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    61 nếu ngày là vào ngày trong tuần,
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    62 nếu ngày là vào cuối tuần.

Các gói

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
64 đã được nhập là
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5 và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
66. Hãy để tạo ra một số dữ liệu phân loại mới!

Instructions::

  • Tạo các phạm vi và nhãn cho cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    56 được đề cập trong mô tả ở trên.
  • Tạo cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    56 bằng cách từ
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    53 bằng cách sử dụng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    70, trong khi nhập
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    71 và
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    72 trong các đối số chính xác.
  • Tạo các bản đồ ánh xạ ánh xạ các ngày trong tuần tới
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    61 và ngày cuối tuần đến
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    62.
  • Tạo cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    60 bằng cách sử dụng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    28.

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
5

Làm sạch dữ liệu văn bản

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
6

Loại bỏ tiêu đề và lấy tên

Trong khi thu thập siêu dữ liệu của người trả lời khảo sát trong DataFrame

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
02, tên đầy đủ của người trả lời đã được lưu trong cột
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
78. Tuy nhiên, khi kiểm tra kỹ hơn, bạn thấy rằng rất nhiều tên khác nhau được có tiền tố bởi Honorifics, chẳng hạn như là Tiến sĩ, ông, ông Mr. và nhớ".

Mục tiêu cuối cùng của bạn là tạo hai cột mới có tên

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
79 và
# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
80, chứa tên đầu tiên và tên của người trả lời tương ứng. Tuy nhiên, trước khi làm như vậy, bạn cần loại bỏ Honorifics.

DataFrame ____102 nằm trong môi trường của bạn, cùng với

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 là
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5.

  • Hủy bỏ, Tiến sĩ, một người khác, Mr. Từ
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    78 bằng cách thay thế chúng bằng một chuỗi trống rỗng theo thứ tự đó.
  • Chạy câu lệnh
    # Find duplicates
    duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)
    
    # Sort your duplicated rides
    duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')
    
    # Print relevant columns of duplicated_rides
    print(duplicated_rides[['ride_id','duration','user_birth_year']])
    
    3 bằng cách sử dụng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    86 kiểm tra xem Full_Name có còn chứa bất kỳ danh dự nào không.

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
7

Giữ nó mô tả

Để hiểu rõ hơn về trải nghiệm của khách du lịch tại sân bay San Francisco, bộ phận đảm bảo chất lượng đã gửi một bảng câu hỏi định tính cho tất cả các khách du lịch đã cho sân bay điểm số tồi tệ nhất trên tất cả các hạng mục có thể. Mục tiêu đằng sau bảng câu hỏi này là xác định các mô hình phổ biến trong những gì khách du lịch đang nói về sân bay.

Phản hồi của họ được lưu trữ trong cột

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
87. Khi nhìn kỹ hơn, bạn nhận ra một vài câu trả lời đã đưa ra số lượng ký tự ngắn nhất có thể mà không có nhiều chất. Trong bài tập này, bạn sẽ cô lập các câu trả lời với số lượng ký tự cao hơn 40 và đảm bảo DataFrame mới của bạn chứa các phản hồi có 40 ký tự trở lên bằng cách sử dụng câu lệnh
# Find duplicates
duplicates = ride_sharing.duplicated(subset='ride_id', keep=False)

# Sort your duplicated rides
duplicated_rides = ride_sharing[duplicates].sort_values('ride_id')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['ride_id','duration','user_birth_year']])
3.

DataFrame ____102 nằm trong môi trường của bạn và

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5.

  • Sử dụng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    02 DataFrame, lưu trữ độ dài của mỗi trường hợp trong cột
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    87 trong
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    94 bằng cách sử dụng
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    95.
  • Phân lập các hàng của
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    02 với
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    94 cao hơn
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    98.
  • Khẳng định rằng độ dài phản hồi khảo sát nhỏ nhất trong
    # Strip duration of minutes
    ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')
    
    # Convert duration to integer
    ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')
    
    # Write an assert statement making sure of conversion
    assert ride_sharing['duration_time'].dtype == 'int'
    
    # Print formed columns and calculate average ride duration 
    print(ride_sharing[['duration','duration_trim','duration_time']])
    print(ride_sharing['duration_time'].mean())
    
    99 hiện lớn hơn 40.

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
8

3. Các vấn đề về dữ liệu nâng cao

Tính đồng nhất

CộtĐơn vị
Nhiệt độ32 ° C cũng là 89,6 ° F
Trọng lượng70 kg cũng là 11 st.
Ngày26-11-2019 cũng là 26, tháng 11 năm 2019
Tiền bạc100 $ cũng là 10763,90

Tạo dữ liệu nhiệt độ từ F đến C: C = (F - 32) × 5/9 From F to C: C=(F−32)×5/9

# Strip duration of minutes
ride_sharing['duration_trim'] = ride_sharing['duration'].str.strip('minutes')

# Convert duration to integer
ride_sharing['duration_time'] = ride_sharing['duration_trim'].astype('int')

# Write an assert statement making sure of conversion
assert ride_sharing['duration_time'].dtype == 'int'

# Print formed columns and calculate average ride duration 
print(ride_sharing[['duration','duration_trim','duration_time']])
print(ride_sharing['duration_time'].mean())
9

Định dạng DateTime

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
00 rất hữu ích cho việc biểu diễn ngày: Ngày | Định dạng DateTime 25-12-2019 | %d-%m-%y ngày 25 tháng 12 năm 2019 | %C 12-25-2019 | %m-%d-%y | | …
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
00 is useful for representing dates: Date | Datetime format 25-12-2019 | %d-%m-%Y December 25th 2019 | %c 12-25-2019 | %m-%d-%Y … | …

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
01

  • Có thể tự động nhận dạng hầu hết các định dạng
  • Đôi khi thất bại với các định dạng sai lầm hoặc không thể nhận ra

Xử lý dữ liệu ngày

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
0

Ngày mơ hồ

Bạn có một khung dữ liệu có chứa cột đăng ký_date được thu thập từ nhiều nguồn khác nhau với các định dạng ngày khác nhau như Yyyy-MM-DD và Yyyy-DD-MM. Cách tốt nhất để thống nhất các định dạng cho các giá trị mơ hồ như 2019-04-07 là gì?

  • Đặt chúng thành NA và thả chúng.
  • Suy ra định dạng của dữ liệu trong câu hỏi bằng cách kiểm tra định dạng của các giá trị tiếp theo và trước đó.
  • Suy ra định dạng từ nguồn dữ liệu gốc.
  • Tất cả những điều trên là có thể, miễn là chúng tôi điều tra dữ liệu của chúng tôi đến từ đâu và hiểu các động lực ảnh hưởng đến nó trước khi làm sạch nó. Chính xác
    Hướng dẫn importing and cleaning data with python assessment answers - nhập và làm sạch dữ liệu với câu trả lời đánh giá python

Tiền tệ đồng nhất

Trong bài tập này và trong suốt chương này, bạn sẽ làm việc với bộ dữ liệu

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
02 bán lẻ được lưu trữ trong DataFrame của ngân hàng. Bộ dữ liệu chứa dữ liệu về số tiền được lưu trữ trong tài khoản, tiền tệ, số tiền đầu tư, ngày mở tài khoản và ngày giao dịch cuối cùng được hợp nhất từ ​​các chi nhánh của Mỹ và châu Âu.

Bạn được giao nhiệm vụ hiểu quy mô tài khoản trung bình và cách đầu tư thay đổi theo quy mô của tài khoản, tuy nhiên để tạo ra phân tích này một cách chính xác, trước tiên bạn cần phải thống nhất số tiền tiền tệ thành đô la. Gói

import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 đã được nhập dưới dạng
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5 và DataFrame
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
02 nằm trong môi trường của bạn.

  • Tìm các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    06 trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    02 bằng
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    08 và lưu trữ chúng trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    09.
  • Tìm tất cả các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    10 trong
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    02 phù hợp với điều kiện
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    09 và chuyển đổi chúng thành USD bằng cách nhân chúng với
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    13.
  • Tìm tất cả các hàng của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    06 trong ngân hàng phù hợp với điều kiện
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    09, đặt chúng thành
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    16.

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
1

Ngày đồng nhất

Sau khi thống nhất các loại tiền tệ của số tiền tài khoản khác nhau của bạn, bạn muốn thêm một chiều theo thời gian vào phân tích của bạn và xem khách hàng đã đầu tư tiền của họ như thế nào với quy mô tài khoản của họ mỗi năm. Cột

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
17 đại diện khi khách hàng mở tài khoản của họ và là một ủy quyền tốt để phân đoạn hoạt động và đầu tư của khách hàng theo thời gian.

Tuy nhiên, vì dữ liệu này được hợp nhất từ ​​nhiều nguồn, bạn cần đảm bảo rằng tất cả các ngày có cùng định dạng. Bạn sẽ làm như vậy bằng cách chuyển đổi cột này thành một đối tượng

# Print categories DataFrame
print(categories)

# Print unique values of survey columns in airlines
print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
print('Safety: ', airlines["safety"].unique(), "\n")
print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
4, trong khi đảm bảo rằng định dạng được suy ra và các định dạng không chính xác có khả năng bị thiếu. DataFrame
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
02 nằm trong môi trường của bạn và
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
3 được nhập là
import datetime as dt
import pandas as pd

# check data types
ride_sharing['ride_date'].dtypes

# Convert ride_date to datetime
ride_sharing['ride_dt'] = pd.to_datetime(ride_sharing['ride_date'])

# Save today's date
today = dt.date.today()

# Set all in the future to today's date
ride_sharing.loc[ride_sharing['ride_dt'] > today, 'ride_dt'] = today

# Print maximum of ride_dt column
print(ride_sharing['ride_dt'].max())
5.

  • In tiêu đề của
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    17 từ DataFrame
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    02 và xem các kết quả khác nhau.
  • Chuyển đổi cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    17 thành
    # Print categories DataFrame
    print(categories)
    
    # Print unique values of survey columns in airlines
    print('Cleanliness: ', airlines['cleanliness'].unique(), "\n")
    print('Safety: ', airlines["safety"].unique(), "\n")
    print('Satisfaction: ', airlines['satisfaction'].unique(), "\n")
    
    4, trong khi đảm bảo định dạng ngày được suy ra và các định dạng sai lầm làm tăng lỗi trả về một giá trị bị thiếu.
  • Trích xuất năm từ cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    17 sửa đổi và gán nó cho cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    27.
  • In cột
    # Convert tire_sizes to integer
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')
    
    # Set all values above 27 to 27
    ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27
    
    # Reconvert tire_sizes back to categorical
    ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')
    
    # Print tire size description
    print(ride_sharing['tire_sizes'].describe())
    
    27 mới được tạo.

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
2

Hãy xem đầu ra. Bạn đã thử chuyển đổi các giá trị thành DateTime bằng cách sử dụng hàm TO_DATETIME () mặc định mà không thay đổi bất kỳ đối số nào, tuy nhiên đã nhận được lỗi sau:

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
29

Sao bạn lại nghĩ như vậy?

  • Hàm to_dateTime () cần được nói rõ ràng định dạng ngày nào mỗi hàng.
  • Hàm TO_DATETIME () chỉ có thể được áp dụng trên các định dạng ngày YY-MM-DD.
  • Mục nhập 21-14-17 là sai lầm và dẫn đến một lỗi. Chính xác
    Hướng dẫn importing and cleaning data with python assessment answers - nhập và làm sạch dữ liệu với câu trả lời đánh giá python

Xác thực trường chéo

Việc sử dụng nhiều trường trong tập dữ liệu để kiểm tra độ chính xác dữ liệu.multiple fields in a dataset to sanity check data integrity.

Ở đây, chúng tôi chỉ định

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
30 để chỉ định tổng từng hàng. .

Kiểm tra từ iPad

Hướng dẫn importing and cleaning data with python assessment answers - nhập và làm sạch dữ liệu với câu trả lời đánh giá python

Ở đây, chúng tôi chỉ định

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
30 để chỉ định tổng từng hàng.

Và ở đây chúng tôi kiểm tra xem các cột

# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
31 và
# Convert tire_sizes to integer
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('int')

# Set all values above 27 to 27
ride_sharing.loc[ride_sharing['tire_sizes'] > 27, 'tire_sizes'] = 27

# Reconvert tire_sizes back to categorical
ride_sharing['tire_sizes'] = ride_sharing['tire_sizes'].astype('category')

# Print tire size description
print(ride_sharing['tire_sizes'].describe())
32 có cung cấp thông tin tương tự hay không.
Hướng dẫn importing and cleaning data with python assessment answers - nhập và làm sạch dữ liệu với câu trả lời đánh giá python

Làm thế nào để bạn làm sạch dữ liệu trong Python?

Nhập thư viện ..
Đầu vào Bộ dữ liệu phản hồi của khách hàng ..
Xác định vị trí dữ liệu bị thiếu ..
Kiểm tra các bản sao ..
Phát hiện các ngoại lệ ..
Bình thường hóa vỏ ..

Làm thế nào để bạn nhập dữ liệu vào Python?

Các bước để nhập tệp CSV vào Python bằng Pandas..
Bước 1: Chụp đường dẫn tệp.Đầu tiên, chụp toàn bộ đường dẫn nơi tệp CSV của bạn được lưu trữ.....
Bước 2: Áp dụng mã Python.....
Bước 3: Chạy mã.....
Bước tùy chọn: Chọn tập hợp con của các cột ..

Làm sạch và chuẩn bị dữ liệu trong Python là gì?

Bạn sẽ học cách làm việc với dữ liệu bị thiếu, cách làm việc với dữ liệu trùng lặp và xử lý dữ liệu chuỗi lộn xộn.Có thể làm sạch hiệu quả và chuẩn bị một bộ dữ liệu là một kỹ năng quan trọng.Nhiều nhà khoa học dữ liệu ước tính rằng họ dành 80% thời gian để dọn dẹp và chuẩn bị bộ dữ liệu của họ.learn how to work with missing data, how to work with duplicate data, and dealing with messy string data. Being able to effectively clean and prepare a dataset is an important skill. Many data scientists estimate that they spend 80% of their time cleaning and preparing their datasets.

Thư viện Python nào được sử dụng để làm sạch dữ liệu?

Klib.KLIB là một gói Python nguồn mở để nhập, làm sạch và phân tích.Đây là gói một cửa được sử dụng để dễ dàng hiểu dữ liệu của bạn và tiền xử lý.. Klib is an open-source Python package for importing, cleaning, and analyzing. It is a one-stop package used for easily understanding your data and preprocessing.