Làm cách nào để trộn dữ liệu ngẫu nhiên trong python?

Trong hướng dẫn này, bạn sẽ học cách xáo trộn các hàng trong Khung dữ liệu Pandas bằng Python. Bạn sẽ học cách xáo trộn Khung dữ liệu Pandas của mình bằng phương pháp

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
7 của Pandas, phương pháp
# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
8 của sklearn, cũng như phương pháp
# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
9 của Numpy. Bạn cũng sẽ tìm hiểu lý do tại sao nên xáo trộn dữ liệu của mình, cũng như cách xáo trộn dữ liệu và có thể tạo lại kết quả của bạn. Cuối cùng, bạn sẽ biết phương pháp nào là phương pháp nhanh nhất

Có thể xáo trộn Pandas Dataframe là một nhiệm vụ mà bạn thường muốn thực hiện trước khi thực hiện bất kỳ loại hình đào tạo mô hình máy học nào. Vì dữ liệu của chúng tôi thường được sắp xếp theo một cách cụ thể (ví dụ: theo ngày hoặc theo khu vực địa lý), nên chúng tôi muốn đảm bảo rằng dữ liệu của mình mang tính đại diện. Vì điều này, chúng tôi sẽ muốn xáo trộn khung dữ liệu Pandas của mình trước khi thực hiện bất kỳ mô hình nào

Bởi vì các mô hình máy học của chúng tôi thường sẽ dựa trên một mẫu dữ liệu nhỏ hơn, nên chúng tôi muốn đảm bảo rằng dữ liệu mà chúng tôi chọn là đại diện cho phân phối thực sự của dữ liệu của chúng tôi

Câu trả lời nhanh. Sử dụng Phương pháp

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
0 của Pandas để xáo trộn khung dữ liệu của bạn

Làm cách nào để trộn dữ liệu ngẫu nhiên trong python?
Làm cách nào để trộn dữ liệu ngẫu nhiên trong python?
Cách xáo trộn Pandas Dataframe với
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
1

Mục lục

  • Đang tải một khung dữ liệu Pandas mẫu
  • Xáo trộn một khung dữ liệu Pandas với mẫu
  • Tái tạo khung dữ liệu Pandas xáo trộn của bạn
  • Xáo trộn khung dữ liệu Pandas với tính năng xáo trộn của Scikit Learn
  • Xáo trộn khung dữ liệu Pandas với ngẫu nhiên của Numpy. hoán vị
  • Cách nhanh nhất để xáo trộn khung dữ liệu Pandas
  • Sự kết luận
  • Những bài viết liên quan

Đang tải một khung dữ liệu Pandas mẫu

Trong khối mã bên dưới, bạn sẽ tìm thấy một số mã Python để tạo một Khung dữ liệu Pandas mẫu. Nếu bạn muốn làm theo từng dòng hướng dẫn này, vui lòng sao chép mã bên dưới theo thứ tự. Bạn cũng có thể sử dụng khung dữ liệu của riêng mình, nhưng tất nhiên, kết quả của bạn sẽ khác với kết quả trong hướng dẫn

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50

Chúng ta có thể thấy rằng khung dữ liệu của chúng ta có bốn cột. hai chứa chuỗi và hai chứa giá trị số

Xáo trộn một khung dữ liệu Pandas với mẫu

Một trong những cách dễ nhất để xáo trộn Pandas Dataframe là sử dụng phương pháp Pandas

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
7. Phương thức
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
3 cho phép bạn lấy mẫu một số hàng trong Khung dữ liệu Pandas theo thứ tự ngẫu nhiên. Do đó, chúng tôi chỉ cần xác định rằng chúng tôi muốn trả về toàn bộ Khung dữ liệu Pandas, theo thứ tự ngẫu nhiên

Để thực hiện việc này, chúng tôi áp dụng phương thức

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
7 cho khung dữ liệu của mình và yêu cầu phương thức trả về toàn bộ khung dữ liệu bằng cách chuyển vào
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
5. Điều này hướng dẫn Pandas trả lại 100% khung dữ liệu

Hãy thử điều này trong Pandas

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85

Chúng ta có thể thấy rằng bằng cách áp dụng phương pháp

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
6, khung dữ liệu đã được xáo trộn theo thứ tự ngẫu nhiên. Tuy nhiên, chúng tôi có thể thấy rằng các giá trị chỉ mục ban đầu của chúng tôi được duy trì. Chúng tôi có thể đặt lại chỉ mục của mình bằng phương pháp Pandas
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
7, phương pháp này sẽ đặt lại chỉ mục của chúng tôi để được sắp xếp từ 0 trở đi. Hãy xem nó trông như thế nào

________số 8

Trong phần tiếp theo, bạn sẽ tìm hiểu cách xáo trộn Khung dữ liệu Pandas bằng cách sử dụng

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
7, đồng thời có thể tái tạo kết quả của mình

Tái tạo khung dữ liệu Pandas xáo trộn của bạn

Một trong những khía cạnh quan trọng của khoa học dữ liệu là khả năng tái tạo kết quả của bạn. Khi bạn áp dụng phương pháp

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
7 cho một khung dữ liệu, nó sẽ trả về một khung dữ liệu mới được xáo trộn mỗi lần

Chúng tôi có thể tái tạo kết quả của mình bằng cách chuyển một giá trị vào đối số

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
0. Chúng ta có thể chỉ cần chuyển vào một giá trị số nguyên và khung dữ liệu được xáo trộn sẽ trông giống nhau mỗi lần

Tại sao sử dụng

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
1? . Điều này có thể đặc biệt hữu ích khi những người khác đang xem xét và sao chép kết quả của bạn. Nó cũng rất hữu ích trong việc có thể khắc phục sự cố mã của bạn một cách chính xác

Hãy xem cách nó hoạt động

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
1

Khi chúng tôi chạy lại mã này, bây giờ chúng tôi nhận được kết quả giống nhau mỗi lần

Xáo trộn khung dữ liệu Pandas với tính năng xáo trộn của Scikit Learn

Một cách hữu ích khác để chọn ngẫu nhiên Pandas Dataframe là sử dụng thư viện máy học,

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
2. Một trong những lợi ích chính của phương pháp này là bạn có thể dễ dàng xây dựng nó vào các quy trình sklearn của mình, cho phép bạn tạo các luồng dữ liệu đơn giản

Sklearn đi kèm với một phương thức,

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
8, mà chúng ta có thể áp dụng cho khung dữ liệu của mình. Hãy xem nó trông như thế nào

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
3

Tương tự như việc sử dụng phương pháp Pandas

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
0, nếu chúng tôi muốn có thể tái tạo kết quả của mình, chúng tôi có thể sử dụng tham số
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
0. Hãy xem nó trông như thế nào

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
6

Trong phần cuối cùng bên dưới, bạn sẽ tìm hiểu cách sử dụng thư viện numpy để ngẫu nhiên hóa khung dữ liệu Pandas của bạn

Xáo trộn khung dữ liệu Pandas với ngẫu nhiên của Numpy. hoán vị

Trong phần cuối cùng này, bạn sẽ học cách sử dụng NumPy để tạo ngẫu nhiên khung dữ liệu Pandas. Numpy đi kèm với một chức năng,

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
6, cho phép chúng tôi tạo một hoán vị ngẫu nhiên của một mảng

Để xáo trộn khung dữ liệu của chúng tôi, chúng tôi có thể chuyển các chỉ số của khung dữ liệu của mình vào hàm, điều này sẽ ngẫu nhiên hóa thứ tự của chúng. Sau đó, chúng tôi sử dụng trình truy cập

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
7 để sắp xếp lại dữ liệu của mình. Hãy xem nó trông như thế nào

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
9

Cách nhanh nhất để xáo trộn khung dữ liệu Pandas

Bạn có thể tự hỏi, tại thời điểm này, nên chọn phương pháp nào. Tôi khuyên bạn nên xem phương pháp nào phù hợp nhất với quy trình làm việc của bạn. Ví dụ: nếu bạn đang xây dựng quy trình khoa học dữ liệu với sklearn, bạn có thể muốn xây dựng tính năng xáo trộn vào quy trình của mình bằng tiện ích sklearn

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
8

Một cân nhắc lớn khác có thể là tốc độ – phương pháp nào sẽ mang lại kết quả nhanh nhất hết lần này đến lần khác

Để tạo ra kết quả bên dưới, chúng tôi đã xáo trộn Khung dữ liệu Pandas chứa 1.500.00 bản ghi một nghìn lần. Trung bình của mỗi lần chạy đã được tính toán, tạo ra một kết quả đáng tin cậy

Phương thứcThời gian thực hiện
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
118. 3 µs ± 255 ns trên mỗi vòng lặp (trung bình ± tiêu chuẩn. nhà phát triển. trong số 7 lần chạy, mỗi lần 100000 vòng lặp)
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
1017. 9 µs ± 122 ns trên mỗi vòng lặp (trung bình ± tiêu chuẩn. nhà phát triển. trong số 7 lần chạy, mỗi lần 100000 vòng lặp)
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
1117. 9 µs ± 5. 53 ns trên mỗi vòng lặp (trung bình ± tiêu chuẩn. nhà phát triển. trong số 7 lần chạy, 100000 vòng lặp mỗi lần) Cách nhanh nhất để xáo trộn Khung dữ liệu Pandas là gì?

Chúng ta có thể thấy rằng kết quả khá gần. Trừ khi tốc độ tối ưu là mục tiêu cuối cùng của bạn, bạn có thể chọn bất kỳ phương pháp nào một cách an toàn. Điều đó đang được nói, bạn sẽ nhập Pandas bất kể. Việc nhập các gói bạn không sử dụng có thể bổ sung thêm các cân nhắc về tốc độ cho tập lệnh của bạn

Sự kết luận

Trong hướng dẫn này, bạn đã học cách trộn Pandas Dataframe bằng phương pháp Pandas

# Loading a Sample Pandas Dataframe
import pandas as pd

df = pd.DataFrame.from_dict({
    'Name': ['Nik', 'Kate', 'Kevin', 'Evan', 'Jane', 'Kyra', 'Melissa'],
    'Gender': ['Male', 'Female', 'Male', 'Male', 'Female', 'Female', 'Female'],
    'January': [90, 95, 75, 93, 60, 85, 75],
    'February': [95, 95, 75, 65, 50, 85, 100],
})

print(df.head())

# Returns:
#     Name  Gender  January  February
# 0    Nik    Male       90        95
# 1   Kate  Female       95        95
# 2  Kevin    Male       75        75
# 3   Evan    Male       93        65
# 4   Jane  Female       60        50
7. Phương pháp này cho phép chúng tôi lấy mẫu các hàng theo thứ tự ngẫu nhiên. Để xáo trộn khung dữ liệu của chúng tôi, chúng tôi chỉ cần lấy mẫu toàn bộ khung dữ liệu. Chúng tôi thậm chí có thể tái tạo khung dữ liệu xáo trộn của mình bằng cách sử dụng tham số
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
0

Bạn cũng đã học cách sử dụng các thư viện

# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
2 và
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1)
print(shuffled)

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 2    Kevin    Male       75        75
# 6  Melissa  Female       75       100
# 1     Kate  Female       95        95
# 3     Evan    Male       93        65
# 4     Jane  Female       60        50
# 5     Kyra  Female       85        85
15 để xáo trộn khung dữ liệu của mình, giúp bạn linh hoạt hơn về cách tạo ra kết quả của mình. Ví dụ: sử dụng
# Shuffling a Pandas dataframe with .shuffle()
shuffled = df.sample(frac=1).reset_index()
print(shuffled.head())

# Returns:
#       Name  Gender  January  February
# 0      Nik    Male       90        95
# 1    Kevin    Male       75        75
# 2  Melissa  Female       75       100
# 3     Kate  Female       95        95
# 4     Evan    Male       93        65
2 mang đến cho bạn cơ hội dễ dàng tích hợp bước này vào quy trình học máy

Để tìm hiểu thêm về các phương pháp được trình bày trong hướng dẫn này, hãy xem tài liệu chính thức được tìm thấy tại đây