Bootstrap python sklearn

Trước khi bạn đưa mô hình ML vào sản xuất, nó phải được kiểm tra độ chính xác. Đây là lý do tại sao chúng tôi chia dữ liệu có sẵn thành đào tạo và thử nghiệm. Thông thường 70% dành cho đào tạo và 30% còn lại để thử nghiệm mô hình. Tại sao nó lại như thế này?

Hoạt động phân chia dữ liệu một cách ngẫu nhiên này được gọi là lấy mẫu. Bây giờ khi bạn đang đo độ chính xác của các mô hình học máy, có khả năng mẫu mà bạn có được là do may mắn. Điều đó có nghĩa là độ chính xác có thể cao do sự phân chia dữ liệu may mắn theo cách mà dữ liệu thử nghiệm có các hàng rất giống với dữ liệu đào tạo, do đó mô hình sẽ hoạt động tốt hơn

Để loại trừ yếu tố may mắn này, chúng tôi cố gắng thực hiện lấy mẫu nhiều lần bằng cách thay đổi giá trị hạt giống trong hàm train_test_split[]. Điều này được gọi là Bootstrapping. nói một cách đơn giản, chia dữ liệu thành huấn luyện và kiểm tra ngẫu nhiên “nhiều lần”

Bao nhiêu lần?

Độ chính xác cuối cùng là mức trung bình của độ chính xác từ tất cả các lần lặp lại lấy mẫu

Bootstrapping để thử nghiệm các mô hình ML trong Python- quy trình tổng thể

Bạn có thể tìm hiểu về các loại lấy mẫu khác nhau trong video dưới đây

Trong đoạn mã dưới đây, tôi sẽ chỉ cho bạn cách kiểm tra mô hình hồi quy cây quyết định bằng cách sử dụng bootstrapping. Khái niệm tương tự áp dụng cho bất kỳ thuật toán ml được giám sát nào khác

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

nhập gấu trúc as pd

nhập numpy as np

Tên cột=['Giờ',

Chủ Đề