Hướng dẫn write a python code to perform correlation between data how to interpret the result - viết mã python để thực hiện tương quan giữa dữ liệu cách diễn giải kết quả
Cập nhật lần cuối vào ngày 20 tháng 8 năm 2020 Show
Có thể có mối quan hệ phức tạp và chưa biết giữa các biến trong bộ dữ liệu của bạn. Điều quan trọng là khám phá và định lượng mức độ mà các biến trong tập dữ liệu của bạn phụ thuộc vào nhau. Kiến thức này có thể giúp bạn chuẩn bị tốt hơn dữ liệu của mình để đáp ứng các kỳ vọng của các thuật toán học máy, chẳng hạn như hồi quy tuyến tính, có hiệu suất sẽ giảm dần với sự hiện diện của các sự phụ thuộc lẫn nhau này. Trong hướng dẫn này, bạn sẽ phát hiện ra rằng mối tương quan là bản tóm tắt thống kê về mối quan hệ giữa các biến và cách tính toán nó cho các loại và mối quan hệ khác nhau.correlation is the statistical summary of the relationship between variables and how to calculate it for different types variables and relationships. Sau khi hoàn thành hướng dẫn này, bạn sẽ biết:
Khởi động dự án của bạn với số liệu thống kê sách mới của tôi cho học máy, bao gồm các hướng dẫn từng bước và các tệp mã nguồn Python cho tất cả các ví dụ. with my new book Statistics for Machine Learning, including step-by-step tutorials and the Python source code files for all examples. Bắt đầu nào.
Cách sử dụng tương quan để hiểu mối quan hệ giữa các biến của Fraser, một số quyền được bảo lưu. Tổng quan hướng dẫnHướng dẫn này được chia thành 5 phần; họ đang:
Cần trợ giúp về số liệu thống kê cho học máy?Tham gia khóa học gặp sự cố email 7 ngày miễn phí của tôi ngay bây giờ (với mã mẫu). Nhấp để đăng ký và cũng nhận được phiên bản Ebook PDF miễn phí của khóa học. Tương quan là gì?Kiểm tra bộ dữ liệu Hiệp phương sai
Tham gia khóa học gặp sự cố email 7 ngày miễn phí của tôi ngay bây giờ (với mã mẫu). Nhấp để đăng ký và cũng nhận được phiên bản Ebook PDF miễn phí của khóa học.
Một biến có thể được liên kết nhẹ với một biến khác. Hai biến có thể phụ thuộc vào một biến không xác định thứ ba. Nó có thể hữu ích trong phân tích dữ liệu và mô hình hóa để hiểu rõ hơn về mối quan hệ giữa các biến. Mối quan hệ thống kê giữa hai biến được gọi là mối tương quan của chúng. Một mối tương quan có thể là tích cực, có nghĩa là cả hai biến di chuyển theo cùng một hướng hoặc âm, có nghĩa là khi một giá trị biến biến tăng, các biến khác của các giá trị của các biến khác giảm. Tương quan cũng có thể là trung tính hoặc không, có nghĩa là các biến không liên quan. Kiểm tra bộ dữ liệuHiệp phương sai Tương quan Pearson Tương quan Spearman Cần trợ giúp về số liệu thống kê cho học máy?
Chạy ví dụ đầu tiên in độ lệch trung bình và độ lệch chuẩn cho mỗi biến.
Một biểu đồ phân tán của hai biến được tạo ra. Bởi vì chúng tôi đã tạo ra bộ dữ liệu, chúng tôi biết có một mối quan hệ giữa hai biến. Điều này là rõ ràng khi chúng tôi xem xét âm mưu phân tán được tạo ra nơi chúng ta có thể thấy một xu hướng ngày càng tăng. Biểu đồ phân tán của bộ dữ liệu tương quan thử nghiệm Trước khi chúng ta xem xét việc tính toán một số điểm tương quan, trước tiên chúng ta phải xem xét một khối xây dựng thống kê quan trọng, được gọi là hiệp phương sai. Hiệp phương saiCác biến có thể liên quan bởi một mối quan hệ tuyến tính. Đây là một mối quan hệ liên tục phụ gia trên hai mẫu dữ liệu. Mối quan hệ này có thể được tóm tắt giữa hai biến, được gọi là hiệp phương sai. Nó được tính là trung bình của sản phẩm giữa các giá trị từ mỗi mẫu, trong đó các giá trị đã được tập trung (có sự trừ trung bình của chúng). Việc tính toán hiệp phương sai như sau:
Việc sử dụng giá trị trung bình trong tính toán cho thấy sự cần thiết của mỗi mẫu dữ liệu phải có phân phối giống như Gaussian hoặc Gaussian. Dấu hiệu của hiệp phương sai có thể được giải thích là liệu hai biến thay đổi theo cùng một hướng (dương) hoặc thay đổi theo các hướng khác nhau (âm). Độ lớn của hiệp phương sai không dễ dàng diễn giải. Giá trị hiệp phương sai của Zero chỉ ra rằng cả hai biến hoàn toàn độc lập. Hàm Numpy Cov () có thể được sử dụng để tính toán ma trận hiệp phương sai giữa hai hoặc nhiều biến.
Đường chéo của ma trận chứa hiệp phương sai giữa mỗi biến và chính nó. Các giá trị khác trong ma trận đại diện cho hiệp phương sai giữa hai biến; Trong trường hợp này, hai giá trị còn lại là giống nhau mà chúng tôi đang tính toán hiệp phương sai chỉ cho hai biến. Chúng ta có thể tính toán ma trận hiệp phương sai cho hai biến trong bài kiểm tra của chúng ta. Ví dụ hoàn chỉnh được liệt kê dưới đây.
print ('data1: mean =%. 3f stdv =%. 3f'%(mean (data1), std (data1)))) print ('data2: mean =%. 3f stdv =%. 3f'%(trung bình (data2), std (data2)))) # kịch bản Chạy ví dụ đầu tiên in độ lệch trung bình và độ lệch chuẩn cho mỗi biến.
Một biểu đồ phân tán của hai biến được tạo ra. Bởi vì chúng tôi đã tạo ra bộ dữ liệu, chúng tôi biết có một mối quan hệ giữa hai biến. Điều này là rõ ràng khi chúng tôi xem xét âm mưu phân tán được tạo ra nơi chúng ta có thể thấy một xu hướng ngày càng tăng. Biểu đồ phân tán của bộ dữ liệu tương quan thử nghiệmTrước khi chúng ta xem xét việc tính toán một số điểm tương quan, trước tiên chúng ta phải xem xét một khối xây dựng thống kê quan trọng, được gọi là hiệp phương sai. Hiệp phương sai
Mối quan hệ này có thể được tóm tắt giữa hai biến, được gọi là hiệp phương sai. Nó được tính là trung bình của sản phẩm giữa các giá trị từ mỗi mẫu, trong đó các giá trị đã được tập trung (có sự trừ trung bình của chúng). Việc tính toán hiệp phương sai như sau: cov (x, y) = (sum (x - mean (x)) * (y - mean (y))) * 1/(n -1) Hàm scipy pearsonr () có thể được sử dụng để tính toán hệ số tương quan Pearson, giữa hai mẫu dữ liệu có cùng độ dài. Chúng ta có thể tính toán mối tương quan giữa hai biến trong bài kiểm tra của chúng ta. Ví dụ hoàn chỉnh được liệt kê dưới đây.
Chạy ví dụ tính toán và in hệ số tương quan Pearson. Chúng ta có thể thấy rằng hai biến có mối tương quan tích cực và mối tương quan là 0,8. Điều này cho thấy mức độ tương quan cao, ví dụ: giá trị trên 0,5 và gần 1,0.
Hệ số tương quan Pearson, có thể được sử dụng để đánh giá mối quan hệ giữa hơn hai biến. Điều này có thể được thực hiện bằng cách tính toán một ma trận của các mối quan hệ giữa mỗi cặp biến trong tập dữ liệu. Kết quả là một ma trận đối xứng được gọi là ma trận tương quan với giá trị 1.0 dọc theo đường chéo vì mỗi cột luôn tương quan hoàn hảo với chính nó. Tương quan SpearmanHai biến có thể liên quan đến mối quan hệ phi tuyến, do đó mối quan hệ mạnh hơn hoặc yếu hơn trong quá trình phân phối của các biến. Hơn nữa, hai biến được xem xét có thể có phân phối không Gaussian. Trong trường hợp này, hệ số tương quan Spearman, (được đặt tên cho Charles Spearman) có thể được sử dụng để tóm tắt sức mạnh giữa hai mẫu dữ liệu. Bài kiểm tra mối quan hệ này cũng có thể được sử dụng nếu có mối quan hệ tuyến tính giữa các biến, nhưng sẽ có công suất ít hơn một chút (ví dụ: có thể dẫn đến điểm số hệ số thấp hơn). Như với hệ số tương quan Pearson, điểm số nằm trong khoảng từ -1 đến 1 cho các biến tương quan tiêu cực hoàn hảo và tương quan hoàn hảo tương ứng. Thay vì tính toán hệ số bằng cách sử dụng hiệp phương sai và độ lệch chuẩn trên chính các mẫu, các số liệu thống kê này được tính từ thứ hạng tương đối của các giá trị trên mỗi mẫu. Đây là một cách tiếp cận phổ biến được sử dụng trong các thống kê không tham số, ví dụ: Các phương pháp thống kê trong đó chúng tôi không giả định phân phối dữ liệu như Gaussian.
Một mối quan hệ tuyến tính giữa các biến không được giả định, mặc dù mối quan hệ đơn điệu được giả định. Đây là một tên toán học cho mối quan hệ tăng hoặc giảm giữa hai biến. Nếu bạn không chắc chắn về phân phối và mối quan hệ có thể có giữa hai biến, hệ số tương quan Spearman là một công cụ tốt để sử dụng. Chức năng scipy SpearManr () có thể được sử dụng để tính toán hệ số tương quan Spearman, giữa hai mẫu dữ liệu có cùng độ dài. Chúng ta có thể tính toán mối tương quan giữa hai biến trong bài kiểm tra của chúng ta. Ví dụ hoàn chỉnh được liệt kê dưới đây.
Chạy ví dụ tính toán và in hệ số tương quan Pearson. Chúng ta có thể thấy rằng hai biến có mối tương quan tích cực và mối tương quan là 0,8. Điều này cho thấy mức độ tương quan cao, ví dụ: giá trị trên 0,5 và gần 1,0.
Hệ số tương quan Pearson, có thể được sử dụng để đánh giá mối quan hệ giữa hơn hai biến. Điều này có thể được thực hiện bằng cách tính toán một ma trận của các mối quan hệ giữa mỗi cặp biến trong tập dữ liệu. Kết quả là một ma trận đối xứng được gọi là ma trận tương quan với giá trị 1.0 dọc theo đường chéo vì mỗi cột luôn tương quan hoàn hảo với chính nó.
Hai biến có thể liên quan đến mối quan hệ phi tuyến, do đó mối quan hệ mạnh hơn hoặc yếu hơn trong quá trình phân phối của các biến.Hơn nữa, hai biến được xem xét có thể có phân phối không Gaussian.
Hệ số tương quan của Spearman = covariance (xếp hạng (x), xếp hạng (y)) / (stdv (xếp hạng (x)) * stdv (xếp hạng (y))) Đọc thêmPhần này cung cấp nhiều tài nguyên hơn về chủ đề nếu bạn đang muốn đi sâu hơn. Bài viết
API
Bài viết
Bản tóm tắtTrong hướng dẫn này, bạn đã phát hiện ra rằng mối tương quan là bản tóm tắt thống kê về mối quan hệ giữa các biến và cách tính toán nó cho các loại và mối quan hệ khác nhau. Cụ thể, bạn đã học được:
Bạn có câu hỏi nào không? Đặt câu hỏi của bạn trong các ý kiến dưới đây và tôi sẽ cố gắng hết sức để trả lời. Nhận một xử lý về số liệu thống kê cho học máy!Phát triển sự hiểu biết làm việc về số liệu thống kê... bằng cách viết dòng mã trong Python Khám phá cách trong ebook mới của tôi: Phương pháp thống kê cho học máy Nó cung cấp các hướng dẫn tự học về các chủ đề như: các bài kiểm tra giả thuyết, tương quan, thống kê không tham số, lấy mẫu lại và nhiều hơn nữa ...self-study tutorials on topics like: Khám phá cách chuyển đổi dữ liệu thành kiến thứcBỏ qua các học giả. Chỉ là kết quả. Xem những gì bên trong |
Bài Viết Liên Quan
Hướng dẫn dùng open in python
Nội dung chínhCách 1: Sử dụng hàm openCách 2: mở file sử dụng context managerCách 3: Sử dụng thư viện pathlibCách 4: Sử dụng shellCách 5: Xây dựng một thư viện ...
Mùng 6 tết 2023 là ngày mấy
Chẳng bao lâu nữa thì mùa xuân năm 2023 lại về với những khởi đầu mới và hứng khởi mới. Chắc hẳn là hiện tại cũng đang có rất nhiều bạn mong muốn ...
Hướng dẫn convert json string to list of dictionaries python - chuyển đổi chuỗi json thành danh sách từ điển python
19 Mới! Lưu câu hỏi hoặc câu trả lời và sắp xếp nội dung yêu thích của bạn. Tìm hiểu thêm.Learn more. Tôi đang gửi một chuỗi JSON từ Objective-C đến Python. ...
Hướng dẫn python is an interpreted high-level language what does it mean to you - python là một ngôn ngữ cấp cao được thông dịch, nó có ý nghĩa như thế nào đối với bạn
Python là một trong những ngôn ngữ được giải thích phổ biến nhất, nhưng bạn đã bao giờ nghĩ về lý do tại sao Python được gọi là ngôn ngữ được giải ...
Hướng dẫn uniroot python - trăn uniroot
Hướng dẫn fuzzy python - trăn mờChuỗi mờ khớp trong PythonChúng tôi đã thực hiện nhiệm vụ của mình để lấy vé sự kiện từ mọi góc của internet, cho bạn ...
Hướng dẫn how do you sum two inputs in python? - làm thế nào để bạn tổng hợp hai đầu vào trong python?
Trong chương trình này, bạn sẽ học cách thêm hai số và hiển thị nó bằng hàm in ().Để hiểu ví dụ này, bạn nên có kiến thức về các chủ đề lập ...
Hướng dẫn sensitivity analysis python code - phân tích độ nhạy mã python
Composite number in python assignment expertComposite NumberGiven an integer N, write a program to find if the given number is a composite number or not. If it is composite, print True or else print ...
Hướng dẫn is there lcm function in python? - có chức năng lcm trong python không?
Trong chương trình này, bạn sẽ học cách tìm LCM của hai số và hiển thị nó.Để hiểu ví dụ này, bạn nên có kiến thức về các chủ đề lập trình ...
Hướng dẫn how do you click an element in python? - làm thế nào để bạn nhấp vào một phần tử trong python?
Xem thảo luậnCải thiện bài viếtLưu bài viếtĐọcBàn luậnXem thảo luậnCải thiện bài viếtLưu bài viếtĐọcBàn luậnMô -đun Selenium sườn Python được xây ...
Hướng dẫn is python more versatile than r? - python có linh hoạt hơn r không?
Khám phá những điều cơ bản của hai ngôn ngữ lập trình nguồn mở này, sự khác biệt chính làm cho chúng khác biệt và cách chọn đúng ngôn ngữ cho tình huống ...
Hướng dẫn is python little or big endian? - trăn nhỏ hay endian lớn?
21 Mới! Lưu câu hỏi hoặc câu trả lời và sắp xếp nội dung yêu thích của bạn. Tìm hiểu thêm.Learn more. Tôi đang làm việc trên một chương trình nơi tôi lưu ...
Hướng dẫn python get thread id - python lấy id chuỗi
246 Mới! Lưu câu hỏi hoặc câu trả lời và sắp xếp nội dung yêu thích của bạn. Tìm hiểu thêm.Learn more. Tôi có một chương trình Python đa luồng và chức năng ...
Hướng dẫn eclipse javascript - javascript nhật thực
Chào các bạn, trong bài viết này mình sẽ hướng dẫn mọi người tìm hiểu về một IDE (Integrated Development Environment) cực kỳ phổ biến đối với những lập ...
Lệnh thay đổi password trong linux
Trong bài này mình sẽ hướng dẫn cách đổi mật khẩu người dùng trên Linux, bằng cách sử dụng lệnh passwd Linux là bạn có thể đổi mật khẩu user trên Linux ...
25 tháng chạp 2023
Mục lục1 Lịch vạn niên ngày 25 tháng 12 năm 20232 Tử vi tốt xấu ngày 25 tháng 12 năm 20232.1 ☯ Việc tốt trong ngày2.2 ☯ Ngày bách kỵ2.3 ❎ Danh sách giờ xấu ...
Hướng dẫn how do i download mysql jdbc connector? - làm cách nào để tải xuống trình kết nối jdbc mysql?
Tải xuống cộng đồng MySQL Đầu nối/j Tính khả dụng chung (GA) phát hànhLưu trữĐầu nối/j 8.0.31 Chọn hệ điều hành: Tải xuống Windows được đề ...
Hướng dẫn ssh python - trăn ssh
Tiếp series lập trình Python, xin giới thiệu với các bạn đoạn code Python 3 sau sử dụng thư viện paramiko có nhiệm vụ kết nối SSH tới 1 Remote Linux Server và ...
Hướng dẫn how does php know the session? - làm thế nào để php biết phiên?
Một phiên là một cách để lưu trữ thông tin (trong các biến) sẽ được sử dụng trên nhiều trang.Không giống như cookie, thông tin không được lưu trữ trên máy ...
Hướng dẫn trinket python compiler - trình biên dịch trăn trinket
Hướng dẫn how do you extract something from a list in python? - làm thế nào để bạn trích xuất một cái gì đó từ một danh sách trong python?Hãy cùng tìm hiểu các cách ...
Lấy dữ liệu từ web vào excel trên macbook
Lấy dữ liệu, báo cáo từ website nhanh chóng với Excel là thủ thuật ít người biết đến. Trong bài viết dưới đây, chúng ta hãy cùng khám phá tính năng lấy ...