Hướng dẫn python regression with dummy variables - hồi quy python với các biến giả

Trong hồi quy tuyến tính, các biến giả được sử dụng để biểu diễn các biến phân loại trong mô hình. Có một vài cách khác nhau mà các biến giả có thể được tạo và chúng tôi sẽ khám phá một vài trong số chúng trong bài đăng trên blog này. Chúng tôi cũng sẽ xem xét một số ví dụ để giúp minh họa cách các biến giả hoạt động. Chúng tôi cũng sẽ hiểu các khái niệm liên quan đến bẫy biến giả. Đến cuối bài này, bạn nên hiểu rõ hơn về cách sử dụng các biến giả trong các mô hình hồi quy tuyến tính. Là một nhà khoa học dữ liệu, điều quan trọng là phải hiểu cách sử dụng hồi quy tuyến tính và các biến giả.linear regression, dummy variables are used to represent the categorical variables in the model. There are a few different ways that dummy variables can be created, and we will explore a few of them in this blog post. We will also take a look at some examples to help illustrate how dummy variables work. We will also understand concepts related to the dummy variable trap. By the end of this post, you should have a better understanding of how to use dummy variables in linear regression models. As a data scientist, it is important to understand how to use linear regression and dummy variables.

  • Các biến giả trong các mô hình hồi quy tuyến tính là gì?
  • Bẫy biến giả
  • Các biến giả trong Python
  • Các biến giả trong r

Các biến giả trong các mô hình hồi quy tuyến tính là gì?

Bẫy biến giả

Các biến giả trong Python

Các biến giả trong r

Mặc dù đào tạo các mô hình hồi quy tuyến tính, nếu tất cả các biến dự đoán đều có tính chất định lượng hoặc số, thì nó không đặt ra bất kỳ vấn đề nào. Tuy nhiên, nếu có một hoặc nhiều biến dự đoán có tính tự nhiên, thì đó là nơi mà thách thức xuất hiện. Ví dụ, hãy xem xét mô hình hồi quy tuyến tính để dự đoán giá của một ngôi nhà. Một số biến dự đoán trong mô hình có thể là kích thước của ngôi nhà, số lượng phòng ngủ, số lượng phòng tắm, vị trí, v.v. trong khi kích thước và số lượng phòng ngủ là các biến số có thể mang bất kỳ giá trị nào, vị trí là một biến phân loại. Nó có thể nhận các giá trị như trung tâm thành phố, vùng ngoại ô, nông thôn, v.v ... Để sử dụng biến phân loại này trong mô hình hồi quy tuyến tính, chúng ta cần một số cơ chế. Đây là nơi các biến giả vào hình ảnh.

Các biến giả thường được sử dụng trong các mô hình hồi quy tuyến tính để thể hiện các biến phân loại hoặc biến định tính. Hãy xem xét một kịch bản khi một biến dự đoán chỉ có hai giá trị có thể. Ví dụ, hãy để nói rằng có một biến dự đoán, chẳng hạn như doc_smoke chỉ có hai giá trị có thể như người hút thuốc hoặc không hút thuốc. Đối với một kịch bản như vậy, một biến được gọi là một biến giả được tạo ra, có các giá trị như sau:

DO_SMOKE = 1 Nếu người đó hút thuốc và 0 nếu người đó không hút thuốc.two possible values for a predictor variable. The technique is called one-hot encoding. In this technique, a new dummy variable is created for each unique value of the predictor variable. For a particular record, the value of one except all dummy variables will be 1. The ordering of dummy variables doesn’t matter. This is also demonstrated in the previous example in relation to gender having value such as male or female. For example, let’s say we have a variable such as education that can take on the following values:

  • Dựa trên các mô hình trên được đào tạo và hồi quy tuyến tính được áp dụng. Người ta cũng có thể sử dụng một sơ đồ mã hóa khác & nbsp; chẳng hạn như -1 và 1 thay vì 0/1. Vì vậy, những điều sau đây cũng có thể giữ tốt:
  • DO_SMOKE = 1 nếu người đó hút thuốc và -1 nếu người đó không hút thuốc.
  • Post-graduate

Các biến giả cũng được sử dụng khi có nhiều hơn hai giá trị có thể cho biến dự đoán. Kỹ thuật được gọi là mã hóa một lần nóng. Trong kỹ thuật này, một biến giả mới được tạo cho từng giá trị duy nhất của biến dự đoán. Đối với một bản ghi cụ thể, giá trị của một ngoại trừ tất cả các biến giả sẽ là 1. thứ tự của các biến giả không quan trọng. Điều này cũng được chứng minh trong ví dụ trước liên quan đến giới tính có giá trị như nam hoặc nữ. Ví dụ, hãy để nói rằng chúng ta có một biến như giáo dục có thể nhận các giá trị sau:

  • Trung học phổ thông
  • Tốt nghiệp
  • Trong trường hợp này, chúng tôi sẽ tạo ra ba biến giả cho ba giá trị giáo dục duy nhất như trường trung học, sau đại học và sau đại học. Tại bất kỳ thời điểm nào, chỉ có một trong các biến giả được hiển thị bên dưới sẽ có giá trị là 1. Các biến khác sẽ có giá trị 0.

is_high_school = 1 nếu người đó học trung học và 0 over other techniques for creating dummy variables.

  • is_college = 1 nếu người đó học đại học và 0
  • is_university = 1 nếu người đó đang học đại học và 0

Bẫy biến giả

Các biến giả trong Python

  • Các biến giả trong r
  • Mặc dù đào tạo các mô hình hồi quy tuyến tính, nếu tất cả các biến dự đoán đều có tính chất định lượng hoặc số, thì nó không đặt ra bất kỳ vấn đề nào. Tuy nhiên, nếu có một hoặc nhiều biến dự đoán có tính tự nhiên, thì đó là nơi mà thách thức xuất hiện. Ví dụ, hãy xem xét mô hình hồi quy tuyến tính để dự đoán giá của một ngôi nhà. Một số biến dự đoán trong mô hình có thể là kích thước của ngôi nhà, số lượng phòng ngủ, số lượng phòng tắm, vị trí, v.v. trong khi kích thước và số lượng phòng ngủ là các biến số có thể mang bất kỳ giá trị nào, vị trí là một biến phân loại. Nó có thể nhận các giá trị như trung tâm thành phố, vùng ngoại ô, nông thôn, v.v ... Để sử dụng biến phân loại này trong mô hình hồi quy tuyến tính, chúng ta cần một số cơ chế. Đây là nơi các biến giả vào hình ảnh.

Các biến giả thường được sử dụng trong các mô hình hồi quy tuyến tính để thể hiện các biến phân loại hoặc biến định tính. Hãy xem xét một kịch bản khi một biến dự đoán chỉ có hai giá trị có thể. Ví dụ, hãy để nói rằng có một biến dự đoán, chẳng hạn như doc_smoke chỉ có hai giá trị có thể như người hút thuốc hoặc không hút thuốc. Đối với một kịch bản như vậy, một biến được gọi là một biến giả được tạo ra, có các giá trị như sau:

Các biến giả trong Python

Sau đây đại diện cho một số kỹ thuật mà người ta có thể sử dụng để chuyển đổi các biến phân loại thành các biến số bằng cách sử dụng các biến giả trong Python.

  • Mã hóa một lần nóng: chức năng gấu trúc get_dummies []. Bạn cũng có thể sử dụng mô -đun OneHotenCoder hoặc Sklearn.Preprocessing. Dưới đây là một bài đăng chi tiết về các khái niệm mã hóa một lần nóng và ví dụ về mã Python.: pandas get_dummies[] function. You can also use OneHotEncoder or sklearn.preprocessing module. Here is a detailed post on one-hot encoding concepts and python code example.
  • Mã hóa nhãn: Lớp Scikit-Learn từ Labelencoder. Kiểm tra bài viết của tôi trên LabelEncoder.: scikit-learn’s LabelEncoder class. Check out my post on LabelEncoder.
  • Mã hóa nhị phân: Lớp SCIKIT-LEARN từ: scikit-learn’s LabelBinarizer class

Các biến giả trong r

Sau đây đại diện cho một số kỹ thuật mà người ta có thể sử dụng để chuyển đổi các biến phân loại thành các biến số bằng cách sử dụng các biến giả trong R.

  • Mã hóa một lần nóng: hàm giả caret dummyvars []: caret’s dummyVars[] function
  • Mã hóa nhãn: hàm model.matrix [] và hàm [] hàm: model.matrix[] function and factor[] function
  • Mã hóa nhị phân: hàm model.matrix []: model.matrix[] function

Các biến giả được sử dụng trong các mô hình hồi quy tuyến tính để biểu thị các biến phân loại hoặc biến định tính. Trong hồi quy tuyến tính, các biến giả được sử dụng để biểu diễn các biến phân loại trong mô hình. Có một vài cách khác nhau mà các biến giả có thể được tạo và chúng tôi đã khám phá một vài trong số chúng trong bài đăng trên blog này. Người ta cũng nên chú ý đến bẫy biến giả khi làm việc với các biến giả cho các mô hình hồi quy đào tạo. Chúng tôi cũng đã xem xét một số ví dụ để giúp minh họa cách các biến giả hoạt động bao gồm các chức năng từ Python và R. Trong trường hợp bạn có thêm câu hỏi, xin vui lòng tiếp cận! are used in linear regression models to represent categorical variables or qualitative variable. In linear regression, dummy variables are used to represent the categorical variables in the model. There are a few different ways that dummy variables can be created, and we explored a few of them in this blog post. One should also pay attention to dummy variable trap when working with dummy variables for training regression models. We also looked at some examples to help illustrate how dummy variables work including functions from Python and R. In case you have further questions, please feel free to reach out!

  • Tác giả
  • Bài viết gần đây

Gần đây tôi đã làm việc trong lĩnh vực phân tích dữ liệu bao gồm khoa học dữ liệu và học máy / học sâu. Tôi cũng đam mê các công nghệ khác nhau bao gồm các ngôn ngữ lập trình như Java/JEE, JavaScript, Python, R, Julia, v.v. vv Để cập nhật và blog mới nhất, hãy theo dõi chúng tôi trên Twitter. Tôi rất thích kết nối với bạn trên LinkedIn.

Kiểm tra cuốn sách mới nhất của tôi có tiêu đề là Nguyên tắc đầu tiên suy nghĩ: Xây dựng các sản phẩm chiến thắng bằng cách sử dụng suy nghĩ nguyên tắc đầu tiên

Ajitesh Kumar

Gần đây tôi đã làm việc trong lĩnh vực phân tích dữ liệu bao gồm khoa học dữ liệu và học máy / học sâu. Tôi cũng đam mê các công nghệ khác nhau bao gồm các ngôn ngữ lập trình như Java/JEE, JavaScript, Python, R, Julia, v.v. vv Để cập nhật và blog mới nhất, hãy theo dõi chúng tôi trên Twitter. Tôi rất thích kết nối với bạn trên LinkedIn. Kiểm tra cuốn sách mới nhất của tôi có tiêu đề là Nguyên tắc đầu tiên suy nghĩ: Xây dựng các sản phẩm chiến thắng bằng cách sử dụng suy nghĩ nguyên tắc đầu tiên

Bạn có thể thực hiện hồi quy với các biến giả không?

Các biến giả rất hữu ích vì chúng cho phép chúng tôi sử dụng một phương trình hồi quy duy nhất để biểu diễn nhiều nhóm. Điều này có nghĩa là chúng ta không cần phải viết ra các mô hình phương trình riêng cho mỗi nhóm con. Các biến giả hoạt động giống như 'các công tắc' bật và tắt các tham số khác nhau trong một phương trình.. This means that we don't need to write out separate equation models for each subgroup. The dummy variables act like 'switches' that turn various parameters on and off in an equation.

Bạn có thể thực hiện hồi quy tuyến tính với các biến phân loại python không?

Để bao gồm một biến phân loại trong mô hình hồi quy, biến phải được mã hóa dưới dạng biến nhị phân [biến giả]. Trong gấu trúc, chúng ta có thể dễ dàng chuyển đổi một biến phân loại thành một biến giả bằng hàm pandas.get_dummies.In Pandas, we can easily convert a categorical variable into a dummy variable using the pandas. get_dummies function.

Tại sao các biến giả được sử dụng trong Python?

Một bộ dữ liệu có thể chứa các loại giá trị khác nhau, đôi khi nó bao gồm các giá trị phân loại.Vì vậy, theo đơn đặt hàng để sử dụng các giá trị phân loại đó để lập trình một cách hiệu quả, chúng tôi tạo ra các biến giả.Một biến giả là một biến nhị phân cho biết liệu một biến phân loại riêng biệt có vào một giá trị cụ thể hay không.in-order to use those categorical value for programming efficiently we create dummy variables. A dummy variable is a binary variable that indicates whether a separate categorical variable takes on a specific value.

Bạn có thể thực hiện hồi quy với các biến phân loại?

Các biến phân loại đòi hỏi sự chú ý đặc biệt trong phân tích hồi quy bởi vì, không giống như các biến nhị phân hoặc liên tục, chúng không thể được nhập vào phương trình hồi quy giống như chúng.Thay vào đó, chúng cần được mã hóa lại thành một loạt các biến mà sau đó có thể được nhập vào mô hình hồi quy.they cannot by entered into the regression equation just as they are. Instead, they need to be recoded into a series of variables which can then be entered into the regression model.

Bài Viết Liên Quan

Chủ Đề