Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

Kỹ thuật tính năng là gì?

  • Khi chúng ta có rất nhiều tính năng trong bộ dữ liệu đã cho, kỹ thuật tính năng có thể trở thành một mô -đun khá thách thức và thú vị.a LOT OF FEATURES in the given dataset, feature engineering can become quite a challenging and interesting module.
  • Số lượng các tính năng có thể ảnh hưởng đáng kể đến mô hình đáng kể, do đó kỹ thuật tính năng là một nhiệm vụ quan trọng trong vòng đời khoa học dữ liệu.

Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

Gia đình kỹ thuật tính năng

Cải tiến tính năng

Trong gia đình kỹ thuật tính năng, chúng tôi đang có nhiều yếu tố chính ở đó, hãy để thảo luận về ngoại lệ ở đây. Đây là một trong những chủ đề thú vị và dễ hiểu trong các thuật ngữ & nbsp; Layman.Outlier here. This is one of the interesting topics and easy to understand in Layman’s terms.

  • Một ngoại lệ là một quan sát của một điểm dữ liệu nằm ở khoảng cách bất thường với các giá trị khác trong một dân số nhất định. (Người đàn ông kỳ quặc)
    • Giống như trong điểm dữ liệu sau (tuổi)
      • 18,22,45,67,89,125,30125,30
  • Một ngoại lệ là (các) đối tượng lệch đáng kể so với phần còn lại của bộ sưu tập đối tượng.
    • Danh sách các thành phố
      • New York, Las Angles, London, Pháp, Delhi, ChennaiFrance, Delhi, Chennai
  • Đó là một quan sát bất thường trong giai đoạn phân tích dữ liệu, điểm dữ liệu nằm cách xa các giá trị khác.
    • Danh sách động vật
      • mèo, cáo, thỏ, cáfish
  • Một ngoại lệ là một quan sát phân kỳ từ dữ liệu có cấu trúc tốt.
  • Nguyên nhân gốc của ngoại lệ có thể là một lỗi trong lỗi đo lường hoặc thu thập dữ liệu.
  • Cách nhanh chóng để xử lý các ngoại lệ.
    • Outliers có thể là một sai lầm hoặc chỉ là phương sai. (Như đã đề cập, ví dụ)
    • Nếu chúng tôi tìm thấy điều này là do một sai lầm, thì chúng tôi có thể bỏ qua chúng.
    • Nếu chúng tôi tìm thấy điều này là do phương sai, trong dữ liệu, chúng tôi có thể làm việc này.

Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

Trong hình ảnh của những quả táo, chúng ta có thể tìm thấy người đàn ông ra ngoài ?? Là nó? Hy vọng có thể có!

Nhưng danh sách khổng lồ của một tính năng/cột nhất định từ tệp .csv có thể là một tính năng thực sự khó khăn cho đôi mắt trần trụi.

Đầu tiên và quan trọng nhất, cách tốt nhất để tìm các ngoại lệ nằm trong tính năng là phương pháp trực quan.Outliers are in the feature is the visualization method.

Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

Hình dung của ngoại lệ

Các khả năng của & nbsp; cho một ngoại lệ là gì? & Nbsp;Possibilities for an Outlier? 

Tất nhiên! Nó sẽ dưới đây lý do nhanh chóng.

  • Nhập dữ liệu hoặc lỗi không chính xác trong quá trình xử lý dữ liệu
  • Thiếu giá trị trong một bộ dữ liệu.
  • Dữ liệu không đến từ mẫu dự định.
  • Lỗi xảy ra trong các thí nghiệm.
  • Không phải là một lỗi, nó sẽ là bất thường từ bản gốc.
  • Phân phối cực hơn bình thường.

Điều đó rất tốt, nhưng bạn có thể có câu hỏi về Outrier & NBSP; nếu bạn là một người yêu thực sự về phân tích dữ liệu, khai thác dữ liệu và quan điểm khoa học dữ liệu.Outlier if you’re a real lover of Data Analytics, Data mining, and Data Science point of view.

Hãy để một cuộc thảo luận nhanh về những điều đó.

Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

Hiểu thêm về ngoại lệ

  • Các ngoại lệ cho chúng ta biết rằng các quan sát của tập dữ liệu đã cho, cách & nbsp; điểm dữ liệu (s) khác biệt đáng kể so với quan điểm tổng thể. Đơn giản chỉ cần nói & nbsp; Odd One/nhiều. Đây sẽ là một & nbsp; lỗi trong & nbsp; thu thập dữ liệu. & nbsp; that the observations of the given data set, how the data point(s) differ significantly from the overall perspective. Simply saying odd one/many. this would be an error during data collection. 
  • Nói chung, & nbsp; Outliers & nbsp; ảnh hưởng & nbsp; kết quả thống kê trong khi thực hiện quy trình EDA, chúng tôi có thể nói một ví dụ nhanh là giá trị trung bình và & nbsp; chế độ & nbsp; của một tập hợp dữ liệu nhất định, sẽ gây hiểu lầm rằng các giá trị dữ liệu & nbsp; Họ thực sự là.Outliers affect statistical results while doing the EDA process, we could say a quick example is the MEAN and MODE of a given set of data set, which will be misleading that the data values would be higher than they really are.
  • Các hệ số tương quan & nbsp; rất nhạy cảm với các ngoại lệ. Vì nó đo lường sức mạnh của mối quan hệ tuyến tính giữa hai biến. Mối quan hệ phụ thuộc vào dữ liệu. Mối tương quan là một biện pháp không kháng và R (hệ số tương quan) bị ảnh hưởng mạnh mẽ bởi các ngoại lệ. CORRELATION COEFFICIENT is highly sensitive to outliers. Since it measures the strength of a linear relationship between
    two variables. the relationship dependent of the data. correlation is a non-resistant measure and r (correlation coefficient) is strongly affected by
    outliers.
    • Mối quan hệ tích cực & nbsp; 
      • Khi & nbsp; hệ số tương quan gần với giá trị hơn 1closer to value 1
    • & nbsp; mối quan hệ tiêu cựcNegative Relationship
      • Khi hệ số tương quan gần với giá trị hơn -1closer to value -1
    • Độc lập
      • Khi x và y độc lập, thì hệ số tương quan gần với & nbsp; 0 (0)X and Y are independent, then the correlation coefficient is close to zero (0)
  • Chúng tôi có thể hiểu quá trình thu thập dữ liệu từ các ngoại lệ và các quan sát của nó. Một phân tích về cách nó xảy ra và làm thế nào để giảm thiểu và đặt quy trình trong các hướng dẫn thu thập dữ liệu trong tương lai.data collection guidelines.
  • Mặc dù các ngoại lệ làm tăng kết quả không nhất quán trong bộ dữ liệu của bạn trong quá trình phân tích và sức mạnh của các tác động thống kê đáng kể, sẽ thách thức và rào cản để loại bỏ chúng trong một vài tình huống.challenge and roadblocks to remove them in few situations.
  • Làm hoặc không (bỏ ngoại lệ)
    • Trước khi bỏ các ngoại lệ, & nbsp; chúng ta phải phân tích bộ dữ liệu có và không có ngoại lệ và hiểu rõ hơn về tác động của kết quả.
    • Nếu bạn quan sát thấy rằng rõ ràng là do nhập hoặc đo lường không chính xác, chắc chắn bạn có thể thả ngoại lệ. Không có vấn đề về trường hợp đó.
    • Nếu bạn thấy rằng các giả định của bạn đang bị ảnh hưởng, bạn có thể bỏ ngay lập tức, miễn là không có thay đổi nào trong kết quả.
    • Nếu ngoại lệ ảnh hưởng đến các giả định và kết quả của bạn. Không có câu hỏi chỉ đơn giản là bỏ ngoại lệ và tiến hành các bước tiếp theo của bạn.

Tìm kiếm ngoại lệ

Cho đến nay chúng tôi đã thảo luận về những gì các ngoại lệ, nó ảnh hưởng đến bộ dữ liệu đã cho như thế nào, & nbsp; và chúng tôi có thể bỏ chúng hay không. Bây giờ hãy xem làm thế nào để tìm từ bộ dữ liệu đã cho. Bạn đã sẵn sàng chưa!

Chúng tôi sẽ xem xét các phương pháp đơn giản trước, & nbsp; phân tích đa biến và nbsp; phân tích đa biến.Univariate and Multivariate analysis.

  • Phương thức Univariate: Tôi tin rằng bạn đã quen thuộc với phân tích đơn biến, chơi xung quanh một biến/tính năng từ tập dữ liệu đã cho. Ở đây để xem xét ngoại lệ mà chúng tôi sẽ áp dụng lô hộp để hiểu bản chất của ngoại lệ và chính xác là nơi nào. I believe you’re familiar with Univariate analysis, playing around one variable/feature from the given data set. Here to look at the Outlier we’re going to apply the BOX plot to understand the nature of the Outlier and where it is exactly.

Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

Hãy xem một số mã mẫu. & NBSP; Chỉ cần tôi lấy Titanic.csv làm mẫu cho phân tích của tôi, ở đây tôi đang xem xét tuổi để phân tích của mình.

plt.figure(figsize=(5,5))
sns.boxplot(y='age',data=df_titanic)

Bạn có thể thấy các ngoại lệ trên phần trên cùng của biểu đồ hộp một cách trực quan dưới dạng dấu chấm.

  • Phương pháp đa biến: Chỉ cần tôi đang sử dụng & nbsp; titanic.csv như một mẫu cho phân tích của tôi, ở đây tôi đang xem xét lớp học tuổi và hành khách để phân tích.
plt.figure(figsize=(8,5))
sns.boxplot(x='pclass',y='age',data=df_titanic)

Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

Chúng ta rất có thể sử dụng biểu đồ và kỹ thuật trực quan biểu đồ phân tán để xác định các ngoại lệ.

Trên hết, chúng tôi có về mặt toán học để tìm các ngoại lệ như sau & nbsp; z-score và & nbsp; phương pháp điểm phân tứ (IQR)ith
mathematically to find the Outliers as follows 
Z-Score and Inter Quartile Range (IQR) Score methods

Phương pháp điểm Z: & nbsp; trong đó phân phối dữ liệu trong biểu mẫu trung bình là 0 và độ lệch chuẩn (SD) là 1 là định dạng phân phối bình thường. In which the distribution of data in the form mean is 0 and the standard deviation (SD) is 1 as Normal Distribution format.

Hãy cùng xem xét bên dưới nhóm tuổi của trẻ em, được thu thập trong giai đoạn vòng đời của Khoa học Dữ liệu và tiến hành phân tích, trước khi phân tích sâu hơn, nhà khoa học dữ liệu muốn loại bỏ các ngoại lệ. Nhìn vào mã và đầu ra, chúng ta có thể hiểu bản chất của việc tìm kiếm các ngoại lệ bằng phương pháp điểm Z.

import numpy as np  
kids_age = [1, 2, 4, 8, 3, 8, 11, 15, 12, 6, 6, 3, 6, 7, 12,9,5,5,7,10,10,11,13,14,14] 
mean = np.mean(voting_age) 
std = np.std(voting_age) 
print('Mean of the kid''s age in the given series :', mean) 
print('STD Deviation of kid''s age in the given series :', std)
threshold = 3
outlier = [] 
for i in voting_age: 
    z = (i-mean)/std 
    if z > threshold: 
        outlier.append(i) 
print('Outlier in the dataset is (Teen agers):', outlier)

Đầu ra

Giá trị trung bình của tuổi trẻ trong loạt phim đã cho: 2.666666666666665 STD Độ lệch của trẻ em trong loạt phim đã cho: 3.3598941782277745 Ngoại lệ trong bộ dữ liệu là (thanh thiếu niên): [15]
STD Deviation of kids age in the given series: 3.3598941782277745
The outlier in the dataset is (Teenagers): [15]

. Vui lòng tham khảo hình ảnh & nbsp; ngoại lệ tỷ lệ ở trên. & Nbsp; Phạm vi như dưới đây. In which data has been divided into quartiles (Q1, Q2, and Q3). Please refer to the picture Outliers Scaling above.  Ranges as below.

  • Phần trăm thứ 25 của dữ liệu - Q1
  • Tỷ lệ phần trăm thứ 50 của dữ liệu - Q2
  • Tỷ lệ phần trăm thứ 75 của dữ liệu - Q3

Hãy để Lừa có chuỗi loại trọng lượng quyền anh từ Junior & NBSP; từ bộ dữ liệu đã cho và sẽ tìm ra các ngoại lệ.

import numpy as np  
import seaborn as sns
# jr_boxing_weight_categories
jr_boxing_weight_categories = [25,30,35,40,45,50,45,35,50,60,120,150] 
Q1 = np.percentile(jr_boxing_weight_categories, 25, interpolation = 'midpoint')
Q2 = np.percentile(jr_boxing_weight_categories, 50, interpolation = 'midpoint')  
Q3 = np.percentile(jr_boxing_weight_categories, 75, interpolation = 'midpoint')
IQR = Q3 - Q1
print('Interquartile range is', IQR)
low_lim = Q1 - 1.5 * IQR
up_lim = Q3 + 1.5 * IQR
print('low_limit is', low_lim)
print('up_limit is', up_lim)
outlier =[]
for x in jr_boxing_weight_categories:
    if ((x> up_lim) or (x

Đầu ra

Giá trị trung bình của tuổi trẻ trong loạt phim đã cho: 2.666666666666665 STD Độ lệch của trẻ em trong loạt phim đã cho: 3.3598941782277745 Ngoại lệ trong bộ dữ liệu là (thanh thiếu niên): [15]
low_limit is 5.0
up_limit is 85.0
the outlier in the dataset is [120, 150]

sns.boxplot(jr_boxing_weight_categories)

Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?

. Vui lòng tham khảo hình ảnh & nbsp; ngoại lệ tỷ lệ ở trên. & Nbsp; Phạm vi như dưới đây.

Phần trăm thứ 25 của dữ liệu - Q1

Tỷ lệ phần trăm thứ 50 của dữ liệu - Q2(IQR) Score with the condition we can correct or remove the outliers on-demand basis. because as mentioned earlier Outliers are not errors, it would be unusual from the original.

Tỷ lệ phần trăm thứ 75 của dữ liệu - Q3until then bye for now! Thanks for reading! Cheers!!

Hãy để Lừa có chuỗi loại trọng lượng quyền anh từ Junior & NBSP; từ bộ dữ liệu đã cho và sẽ tìm ra các ngoại lệ.