Trong hồi quy tuyến tính, các biến giả được sử dụng để biểu diễn các biến phân loại trong mô hình. Có một vài cách khác nhau mà các biến giả có thể được tạo và chúng tôi sẽ khám phá một vài trong số chúng trong bài đăng trên blog này. Chúng tôi cũng sẽ xem xét một số ví dụ để giúp minh họa cách các biến giả hoạt động. Chúng tôi cũng sẽ hiểu các khái niệm liên quan đến bẫy biến giả. Đến cuối bài này, bạn nên hiểu rõ hơn về cách sử dụng các biến giả trong các mô hình hồi quy tuyến tính. Là một nhà khoa học dữ liệu, điều quan trọng là phải hiểu cách sử dụng hồi quy tuyến tính và các biến giả.linear regression, dummy variables are used to represent the categorical variables in the model. There are a few different ways that dummy variables can be created, and we will explore a few of them in this blog post. We will also take a look at some examples to help illustrate how dummy variables work. We will also understand concepts related to the dummy variable trap. By the end of this post, you should have a better understanding of how to use dummy variables in linear regression models. As a data scientist, it is important to understand how to use linear regression and dummy variables.
- Các biến giả trong các mô hình hồi quy tuyến tính là gì?
- Bẫy biến giả
- Các biến giả trong Python
- Các biến giả trong r
Các biến giả trong các mô hình hồi quy tuyến tính là gì?
Bẫy biến giả
Các biến giả trong Python
Các biến giả trong r
Mặc dù đào tạo các mô hình hồi quy tuyến tính, nếu tất cả các biến dự đoán đều có tính chất định lượng hoặc số, thì nó không đặt ra bất kỳ vấn đề nào. Tuy nhiên, nếu có một hoặc nhiều biến dự đoán có tính tự nhiên, thì đó là nơi mà thách thức xuất hiện. Ví dụ, hãy xem xét mô hình hồi quy tuyến tính để dự đoán giá của một ngôi nhà. Một số biến dự đoán trong mô hình có thể là kích thước của ngôi nhà, số lượng phòng ngủ, số lượng phòng tắm, vị trí, v.v. trong khi kích thước và số lượng phòng ngủ là các biến số có thể mang bất kỳ giá trị nào, vị trí là một biến phân loại. Nó có thể nhận các giá trị như trung tâm thành phố, vùng ngoại ô, nông thôn, v.v ... Để sử dụng biến phân loại này trong mô hình hồi quy tuyến tính, chúng ta cần một số cơ chế. Đây là nơi các biến giả vào hình ảnh.
Các biến giả thường được sử dụng trong các mô hình hồi quy tuyến tính để thể hiện các biến phân loại hoặc biến định tính. Hãy xem xét một kịch bản khi một biến dự đoán chỉ có hai giá trị có thể. Ví dụ, hãy để nói rằng có một biến dự đoán, chẳng hạn như doc_smoke chỉ có hai giá trị có thể như người hút thuốc hoặc không hút thuốc. Đối với một kịch bản như vậy, một biến được gọi là một biến giả được tạo ra, có các giá trị như sau:
DO_SMOKE = 1 Nếu người đó hút thuốc và 0 nếu người đó không hút thuốc.two possible values for a predictor variable. The technique is called one-hot encoding. In this technique, a new dummy variable is created for each unique value of the predictor variable. For a particular record, the value of one except all dummy variables will be 1. The ordering of dummy variables doesn’t matter. This is also demonstrated in the previous example in relation to gender having value such as male or female. For example, let’s say we have a variable such as education that can take on the following values:
- Dựa trên các mô hình trên được đào tạo và hồi quy tuyến tính được áp dụng. Người ta cũng có thể sử dụng một sơ đồ mã hóa khác & nbsp; chẳng hạn như -1 và 1 thay vì 0/1. Vì vậy, những điều sau đây cũng có thể giữ tốt:
- DO_SMOKE = 1 nếu người đó hút thuốc và -1 nếu người đó không hút thuốc.
- Post-graduate
Các biến giả cũng được sử dụng khi có nhiều hơn hai giá trị có thể cho biến dự đoán. Kỹ thuật được gọi là mã hóa một lần nóng. Trong kỹ thuật này, một biến giả mới được tạo cho từng giá trị duy nhất của biến dự đoán. Đối với một bản ghi cụ thể, giá trị của một ngoại trừ tất cả các biến giả sẽ là 1. thứ tự của các biến giả không quan trọng. Điều này cũng được chứng minh trong ví dụ trước liên quan đến giới tính có giá trị như nam hoặc nữ. Ví dụ, hãy để nói rằng chúng ta có một biến như giáo dục có thể nhận các giá trị sau:
- Trung học phổ thông
- Tốt nghiệp
- Trong trường hợp này, chúng tôi sẽ tạo ra ba biến giả cho ba giá trị giáo dục duy nhất như trường trung học, sau đại học và sau đại học. Tại bất kỳ thời điểm nào, chỉ có một trong các biến giả được hiển thị bên dưới sẽ có giá trị là 1. Các biến khác sẽ có giá trị 0.
is_high_school = 1 nếu người đó học trung học và 0 over other techniques for creating dummy variables.
- is_college = 1 nếu người đó học đại học và 0
- is_university = 1 nếu người đó đang học đại học và 0
Bẫy biến giả
Các biến giả trong Python
- Các biến giả trong r
- Mặc dù đào tạo các mô hình hồi quy tuyến tính, nếu tất cả các biến dự đoán đều có tính chất định lượng hoặc số, thì nó không đặt ra bất kỳ vấn đề nào. Tuy nhiên, nếu có một hoặc nhiều biến dự đoán có tính tự nhiên, thì đó là nơi mà thách thức xuất hiện. Ví dụ, hãy xem xét mô hình hồi quy tuyến tính để dự đoán giá của một ngôi nhà. Một số biến dự đoán trong mô hình có thể là kích thước của ngôi nhà, số lượng phòng ngủ, số lượng phòng tắm, vị trí, v.v. trong khi kích thước và số lượng phòng ngủ là các biến số có thể mang bất kỳ giá trị nào, vị trí là một biến phân loại. Nó có thể nhận các giá trị như trung tâm thành phố, vùng ngoại ô, nông thôn, v.v ... Để sử dụng biến phân loại này trong mô hình hồi quy tuyến tính, chúng ta cần một số cơ chế. Đây là nơi các biến giả vào hình ảnh.
Các biến giả thường được sử dụng trong các mô hình hồi quy tuyến tính để thể hiện các biến phân loại hoặc biến định tính. Hãy xem xét một kịch bản khi một biến dự đoán chỉ có hai giá trị có thể. Ví dụ, hãy để nói rằng có một biến dự đoán, chẳng hạn như doc_smoke chỉ có hai giá trị có thể như người hút thuốc hoặc không hút thuốc. Đối với một kịch bản như vậy, một biến được gọi là một biến giả được tạo ra, có các giá trị như sau:
Các biến giả trong Python
Sau đây đại diện cho một số kỹ thuật mà người ta có thể sử dụng để chuyển đổi các biến phân loại thành các biến số bằng cách sử dụng các biến giả trong Python.
- Mã hóa một lần nóng: chức năng gấu trúc get_dummies []. Bạn cũng có thể sử dụng mô -đun OneHotenCoder hoặc Sklearn.Preprocessing. Dưới đây là một bài đăng chi tiết về các khái niệm mã hóa một lần nóng và ví dụ về mã Python.: pandas get_dummies[] function. You can also use OneHotEncoder or sklearn.preprocessing module. Here is a detailed post on one-hot encoding concepts and python code example.
- Mã hóa nhãn: Lớp Scikit-Learn từ Labelencoder. Kiểm tra bài viết của tôi trên LabelEncoder.: scikit-learn’s LabelEncoder class. Check out my post on LabelEncoder.
- Mã hóa nhị phân: Lớp SCIKIT-LEARN từ: scikit-learn’s LabelBinarizer class
Các biến giả trong r
Sau đây đại diện cho một số kỹ thuật mà người ta có thể sử dụng để chuyển đổi các biến phân loại thành các biến số bằng cách sử dụng các biến giả trong R.
- Mã hóa một lần nóng: hàm giả caret dummyvars []: caret’s dummyVars[] function
- Mã hóa nhãn: hàm model.matrix [] và hàm [] hàm: model.matrix[] function and factor[] function
- Mã hóa nhị phân: hàm model.matrix []: model.matrix[] function
Các biến giả được sử dụng trong các mô hình hồi quy tuyến tính để biểu thị các biến phân loại hoặc biến định tính. Trong hồi quy tuyến tính, các biến giả được sử dụng để biểu diễn các biến phân loại trong mô hình. Có một vài cách khác nhau mà các biến giả có thể được tạo và chúng tôi đã khám phá một vài trong số chúng trong bài đăng trên blog này. Người ta cũng nên chú ý đến bẫy biến giả khi làm việc với các biến giả cho các mô hình hồi quy đào tạo. Chúng tôi cũng đã xem xét một số ví dụ để giúp minh họa cách các biến giả hoạt động bao gồm các chức năng từ Python và R. Trong trường hợp bạn có thêm câu hỏi, xin vui lòng tiếp cận! are used in linear regression models to represent categorical variables or qualitative variable. In linear regression, dummy variables are used to represent the categorical variables in the model. There are a few different ways that dummy variables can be created, and we explored a few of them in this blog post. One should also pay attention to dummy variable trap when working with dummy variables for training regression models. We also looked at some examples to help illustrate how dummy variables work including functions from Python and R. In case you have further questions, please feel free to reach out!
- Tác giả
- Bài viết gần đây
Gần đây tôi đã làm việc trong lĩnh vực phân tích dữ liệu bao gồm khoa học dữ liệu và học máy / học sâu. Tôi cũng đam mê các công nghệ khác nhau bao gồm các ngôn ngữ lập trình như Java/JEE, JavaScript, Python, R, Julia, v.v. vv Để cập nhật và blog mới nhất, hãy theo dõi chúng tôi trên Twitter. Tôi rất thích kết nối với bạn trên LinkedIn.
Kiểm tra cuốn sách mới nhất của tôi có tiêu đề là Nguyên tắc đầu tiên suy nghĩ: Xây dựng các sản phẩm chiến thắng bằng cách sử dụng suy nghĩ nguyên tắc đầu tiên
Ajitesh Kumar
Gần đây tôi đã làm việc trong lĩnh vực phân tích dữ liệu bao gồm khoa học dữ liệu và học máy / học sâu. Tôi cũng đam mê các công nghệ khác nhau bao gồm các ngôn ngữ lập trình như Java/JEE, JavaScript, Python, R, Julia, v.v. vv Để cập nhật và blog mới nhất, hãy theo dõi chúng tôi trên Twitter. Tôi rất thích kết nối với bạn trên LinkedIn. Kiểm tra cuốn sách mới nhất của tôi có tiêu đề là Nguyên tắc đầu tiên suy nghĩ: Xây dựng các sản phẩm chiến thắng bằng cách sử dụng suy nghĩ nguyên tắc đầu tiên