Hướng dẫn how do you solve for outliers in python? - làm thế nào để bạn giải quyết các ngoại lệ trong python?
Kỹ thuật tính năng là gì?
Show Gia đình kỹ thuật tính năng Cải tiến tính năngTrong gia đình kỹ thuật tính năng, chúng tôi đang có nhiều yếu tố chính ở đó, hãy để thảo luận về ngoại lệ ở đây. Đây là một trong những chủ đề thú vị và dễ hiểu trong các thuật ngữ & nbsp; Layman.Outlier here. This is one of the interesting topics and easy to understand in Layman’s terms.
Trong hình ảnh của những quả táo, chúng ta có thể tìm thấy người đàn ông ra ngoài ?? Là nó? Hy vọng có thể có! Nhưng danh sách khổng lồ của một tính năng/cột nhất định từ tệp .csv có thể là một tính năng thực sự khó khăn cho đôi mắt trần trụi. Đầu tiên và quan trọng nhất, cách tốt nhất để tìm các ngoại lệ nằm trong tính năng là phương pháp trực quan.Outliers are in the feature is the visualization method. Có thể bạn quan tâmHình dung của ngoại lệ Các khả năng của & nbsp; cho một ngoại lệ là gì? & Nbsp;Possibilities for an Outlier?Tất nhiên! Nó sẽ dưới đây lý do nhanh chóng.
Điều đó rất tốt, nhưng bạn có thể có câu hỏi về Outrier & NBSP; nếu bạn là một người yêu thực sự về phân tích dữ liệu, khai thác dữ liệu và quan điểm khoa học dữ liệu.Outlier if you’re a real lover of Data Analytics, Data mining, and Data Science point of view. Hãy để một cuộc thảo luận nhanh về những điều đó. Hiểu thêm về ngoại lệ
Tìm kiếm ngoại lệCho đến nay chúng tôi đã thảo luận về những gì các ngoại lệ, nó ảnh hưởng đến bộ dữ liệu đã cho như thế nào, & nbsp; và chúng tôi có thể bỏ chúng hay không. Bây giờ hãy xem làm thế nào để tìm từ bộ dữ liệu đã cho. Bạn đã sẵn sàng chưa! Chúng tôi sẽ xem xét các phương pháp đơn giản trước, & nbsp; phân tích đa biến và nbsp; phân tích đa biến.Univariate and Multivariate analysis.
Hãy xem một số mã mẫu. & NBSP; Chỉ cần tôi lấy Titanic.csv làm mẫu cho phân tích của tôi, ở đây tôi đang xem xét tuổi để phân tích của mình. plt.figure(figsize=(5,5)) sns.boxplot(y='age',data=df_titanic) Bạn có thể thấy các ngoại lệ trên phần trên cùng của biểu đồ hộp một cách trực quan dưới dạng dấu chấm.
plt.figure(figsize=(8,5)) sns.boxplot(x='pclass',y='age',data=df_titanic) Chúng ta rất có thể sử dụng biểu đồ và kỹ thuật trực quan biểu đồ phân tán để xác định các ngoại lệ. Trên hết, chúng tôi có về mặt toán học để tìm các ngoại lệ như sau & nbsp; z-score và & nbsp; phương pháp điểm phân tứ (IQR)ith Phương pháp điểm Z: & nbsp; trong đó phân phối dữ liệu trong biểu mẫu trung bình là 0 và độ lệch chuẩn (SD) là 1 là định dạng phân phối bình thường. In which the distribution of data in the form mean is 0 and the standard deviation (SD) is 1 as Normal Distribution format. Hãy cùng xem xét bên dưới nhóm tuổi của trẻ em, được thu thập trong giai đoạn vòng đời của Khoa học Dữ liệu và tiến hành phân tích, trước khi phân tích sâu hơn, nhà khoa học dữ liệu muốn loại bỏ các ngoại lệ. Nhìn vào mã và đầu ra, chúng ta có thể hiểu bản chất của việc tìm kiếm các ngoại lệ bằng phương pháp điểm Z. import numpy as np kids_age = [1, 2, 4, 8, 3, 8, 11, 15, 12, 6, 6, 3, 6, 7, 12,9,5,5,7,10,10,11,13,14,14] mean = np.mean(voting_age) std = np.std(voting_age) print('Mean of the kid''s age in the given series :', mean) print('STD Deviation of kid''s age in the given series :', std) threshold = 3 outlier = [] for i in voting_age: z = (i-mean)/std if z > threshold: outlier.append(i) print('Outlier in the dataset is (Teen agers):', outlier) Đầu raGiá trị trung bình của tuổi trẻ trong loạt phim đã cho: 2.666666666666665 STD Độ lệch của trẻ em trong loạt phim đã cho: 3.3598941782277745 Ngoại lệ trong bộ dữ liệu là (thanh thiếu niên): [15] . Vui lòng tham khảo hình ảnh & nbsp; ngoại lệ tỷ lệ ở trên. & Nbsp; Phạm vi như dưới đây. In which data has been divided into quartiles (Q1, Q2, and Q3). Please refer to the picture Outliers Scaling above. Ranges as below.
Hãy để Lừa có chuỗi loại trọng lượng quyền anh từ Junior & NBSP; từ bộ dữ liệu đã cho và sẽ tìm ra các ngoại lệ. import numpy as np import seaborn as sns # jr_boxing_weight_categories jr_boxing_weight_categories = [25,30,35,40,45,50,45,35,50,60,120,150] Q1 = np.percentile(jr_boxing_weight_categories, 25, interpolation = 'midpoint') Q2 = np.percentile(jr_boxing_weight_categories, 50, interpolation = 'midpoint') Q3 = np.percentile(jr_boxing_weight_categories, 75, interpolation = 'midpoint') IQR = Q3 - Q1 print('Interquartile range is', IQR) low_lim = Q1 - 1.5 * IQR up_lim = Q3 + 1.5 * IQR print('low_limit is', low_lim) print('up_limit is', up_lim) outlier =[] for x in jr_boxing_weight_categories: if ((x> up_lim) or (x |