Loại bỏ các giá trị ngoại lệ bằng cách sử dụng điểm Z trong Python

Sẽ rất rủi ro khi đưa các ngoại lệ vào các mô hình điều khiển dữ liệu. Sự tồn tại của một giá trị sai lệch duy nhất có khả năng thay đổi kết luận của mô hình. Do đó, điều quan trọng là phải phát hiện và sau đó quyết định có xóa nó hay không khỏi tập dữ liệu. Đôi khi điểm dữ liệu có thể rất cao hoặc quá thấp nhưng điều đó không có nghĩa là chúng tôi muốn loại bỏ nó. Nó có thể chỉ đơn giản là một điểm dữ liệu cực đoan. Điều này tùy thuộc vào quyết định của người dùng về việc có nên đưa nó vào mô hình hay không. Tuy nhiên, đôi khi điểm dữ liệu có thể chỉ đơn giản là một lỗi đánh máy hoặc một số yếu tố tạo tác trong quá trình thu thập hoặc xử lý dữ liệu

Phương pháp phát hiện ngoại lệ

Trong bài viết này, tôi sẽ giới thiệu một số phương pháp phát hiện ngoại lệ thống kê bao gồm Phạm vi liên phần tư [IQR], độ lệch chuẩn, điểm Z và điểm Z đã sửa đổi. Tôi sẽ sử dụng python để triển khai các phương thức này và cuối cùng sẽ chia sẻ dữ liệu cũng như sổ ghi chép. Tôi sẽ sử dụng dữ liệu Boston AirBnB với CC0. Giấy phép miền công cộng

Phạm vi liên vùng

Inter Quartile Range [IQR] là một trong những quy trình được sử dụng rộng rãi nhất để phát hiện và loại bỏ giá trị ngoại lai. Theo quy trình này, chúng ta cần làm theo các bước sau

  • Tìm phần tư đầu tiên, Q1
  • Tìm phần tư thứ ba, Q3
  • Tính chỉ số IQR. IQR = Q3-Q1
  • Xác định phạm vi dữ liệu bình thường với giới hạn dưới là Q1–1. 5*IQR và giới hạn trên là Q3+1. 5*IQR
  • Bất kỳ điểm dữ liệu nào nằm ngoài phạm vi này đều được coi là ngoại lệ và cần được xóa để phân tích thêm

Trong boxplot, phương pháp IQR này được triển khai để phát hiện bất kỳ điểm dữ liệu cực trị nào có điểm cực đại [điểm cuối của râu cao] là Q3+1. 5*IQR và điểm tối thiểu [điểm bắt đầu của râu thấp] là Q1–1. 5*IQR

Thực hiện trong python

Dữ liệu AirBnB có một cột giá mà chúng tôi sẽ xem xét để triển khai. Sau khi xác định Q1, Q3 và IQR, các điểm ngoại lệ sẽ bị xóa khỏi khung dữ liệu như hình bên dưới

Một ngoại lệ được phát hiện sau khi áp dụng phương pháp IQR [Ảnh của Tác giả]

Giá trị ngoại lệ được hiển thị với các chi tiết boxplot khác [Hình ảnh của Tác giả]

Giá trị của ngoại lệ là 417, vượt quá giới hạn tối đa được hiển thị trong boxplot [whishi = 402]. Chúng tôi không có bất kỳ ngoại lệ nào dưới đây [10]

Lưu ý cho phân phối bình thường

Nếu chúng ta có một tập dữ liệu bình thường, phần tư có thể được xác định từ giá trị trung bình và trung bình

[Hình ảnh của tác giả]

[Hình ảnh của tác giả]

Do đó, đối với dữ liệu phân phối chuẩn, thực hiện phương pháp IQR với giá trị nhân bằng 1. 5 giống như tiến hành phương pháp độ lệch chuẩn với hệ số nhân là 2. 7 như hình trên. Tuy nhiên, đôi khi chúng tôi quan tâm đến việc giới hạn thông số kỹ thuật ở 3 độ lệch chuẩn. Với mục đích đó, hệ số IQR phải là ~1. 7 thay vì 1. 5 [mà chúng tôi chỉ đặt giới hạn thành 2. 7 lần độ lệch chuẩn]

Độ lệch chuẩn

Phương pháp độ lệch chuẩn tương tự như thủ tục IQR như đã thảo luận ở trên. Tùy thuộc vào giới hạn đã đặt ở 2 lần stdev hoặc 3 lần stdev, chúng tôi có thể phát hiện và loại bỏ các giá trị ngoại lệ khỏi tập dữ liệu

Giới hạn trên = trung bình + 3 * stdev

Giới hạn dưới = trung bình — 3 * stdev

Nhiều ngoại lệ hơn được tìm thấy khi giá trị trung bình +/- 3 lần stdev được đặt làm giới hạn [Hình ảnh của tác giả]

Tổng số ngoại lệ ở đây là 57. Khi sử dụng 2 lần stdev, số lượng phi công giảm xuống còn 20. Điều này là do 2 lần stdev ngụ ý đặt giới hạn chặt chẽ hơn và phần lớn các điểm cực đoan có thể xảy ra đã bị loại bỏ theo quy trình. Chỉ một số ít còn lại sau khi loại bỏ và những thứ đó vẫn được coi là ngoại lệ khi một boxplot mới được tạo với dữ liệu được cập nhật

điểm Z

Điểm Z chỉ là một dạng khác của quy trình độ lệch chuẩn. Điểm Z được sử dụng để chuyển đổi dữ liệu thành tập dữ liệu khác với giá trị trung bình = 0

[Hình ảnh của tác giả]

Ở đây, X-bar là giá trị trung bình và s là độ lệch chuẩn. Sau khi dữ liệu được chuyển đổi, tâm trở thành 0 và điểm z tương ứng với từng điểm dữ liệu biểu thị khoảng cách từ tâm theo độ lệch chuẩn. Ví dụ: điểm z là 2. 5 chỉ ra rằng điểm dữ liệu là 2. 5 độ lệch chuẩn so với giá trị trung bình. Thông thường z-score =3 được coi là giá trị giới hạn để đặt giới hạn. Do đó, bất kỳ điểm số z nào lớn hơn +3 hoặc nhỏ hơn -3 đều được coi là ngoại lệ, điều này khá giống với phương pháp độ lệch chuẩn

Chúng tôi thấy rằng số lượng ngoại lệ là 21 trước khi thực hiện phương pháp này và thu được 20 sau khi loại bỏ 21 ngoại lệ đó

Các ngoại lệ sau khi triển khai phương pháp điểm Z với giá trị giới hạn được đặt ở mức 3 [Ảnh của tác giả]

Trên thực tế, 20 điểm ngoại lệ này là cùng một điểm dữ liệu mà chúng tôi thu được từ phương pháp 3 lần stdev. Do đó, người dùng có thể tiếp tục với một trong hai

Điểm Z đã sửa đổi

Điểm Z nhạy cảm với các điểm dữ liệu cực đoan. Nếu có một giá trị cực trị thì z-score tương ứng với điểm đó cũng sẽ là cực trị. Nó có khả năng dịch chuyển đáng kể giá trị trung bình khỏi giá trị thực của nó. Điểm z đã sửa đổi mạnh hơn một chút so với điểm z tiêu chuẩn vì nó được tính từ độ lệch tuyệt đối trung bình [MAD]. Công thức cho điểm Z đã sửa đổi là [1]

[Hình ảnh của tác giả]

Vì nó dựa trên giá trị trung bình, nên nó ít bị ảnh hưởng bởi bất kỳ giá trị ngoại lệ nào. Chúng ta có thể sử dụng giá trị ngưỡng của Z-score đã sửa đổi ở mức 3. 5 [1]. Khi quy trình này được thực hiện, chúng tôi đã thu được kết quả tương tự như điểm Z do tập dữ liệu có thể không có bất kỳ ngoại lệ có ảnh hưởng nào

Các ngoại lệ sau khi thực hiện phương pháp điểm Z đã sửa đổi với giá trị giới hạn được đặt ở mức 3. 5 [Ảnh của tác giả]

Phần kết luận

Trong bài viết này, chúng tôi đã chỉ ra bốn quy trình thống kê phát hiện các ngoại lệ trong tập dữ liệu. Đối với tập dữ liệu bình thường, hệ số IQR là 1. 7 tương tự như hệ số stdev của 3, cũng tương tự như việc đặt điểm Z giới hạn ở mức 3 làm giới hạn phát hiện. Các nhà thống kê sử dụng điểm Z đã sửa đổi để giảm thiểu ảnh hưởng của các giá trị ngoại lệ đối với điểm Z. Điểm Z đã sửa đổi này cho biết sức mạnh tương đối của ngoại lệ và mức độ sai lệch của nó so với điểm Z mà nó được cho là có. Tất cả các quy trình này là quy trình chuẩn để xác định các giá trị ngoại lệ theo thống kê

Z là gì

Thông thường z-score =3 được coi là giá trị giới hạn để đặt giới hạn. Do đó, bất kỳ điểm số z nào lớn hơn +3 hoặc nhỏ hơn -3 đều được coi là ngoại lệ, điều này khá giống với phương pháp độ lệch chuẩn.

Liệu Z

Mặc dù Z-Score là một cách hiệu quả cao để phát hiện và loại bỏ các giá trị ngoại lai , nhưng chúng tôi không thể sử dụng điểm này với mọi loại dữ liệu.

Z được sửa đổi là gì

Điểm số z đã sửa đổi là điểm số được tiêu chuẩn hóa đo lường sức mạnh vượt trội hoặc mức độ khác biệt của một điểm số cụ thể so với điểm số thông thường . Sử dụng các đơn vị độ lệch chuẩn, nó xấp xỉ sự khác biệt của điểm so với trung bình.

Chủ Đề