Hướng dẫn how does the merge function work in python? - hàm hợp nhất hoạt động như thế nào trong python?
Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem cùng với hướng dẫn bằng văn bản để hiểu sâu hơn về sự hiểu biết của bạn: kết hợp dữ liệu trong gấu trúc với concat () và merge () This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Combining Data in pandas With concat() and merge() Show
Các đối tượng 2 và 3 trong gấu trúc là những công cụ mạnh mẽ để khám phá và phân tích dữ liệu. Một phần sức mạnh của họ đến từ một cách tiếp cận nhiều mặt để kết hợp các bộ dữ liệu riêng biệt. Với gấu trúc, bạn có thể hợp nhất, tham gia và nối các bộ dữ liệu của bạn, cho phép bạn thống nhất và hiểu rõ hơn về dữ liệu của bạn khi bạn phân tích nó.merge, join, and concatenate your datasets, allowing you to unify and better understand your data as you analyze it. Trong hướng dẫn này, bạn sẽ học cách và thời điểm kết hợp dữ liệu của bạn trong gấu trúc với:
Nếu bạn có một số kinh nghiệm sử dụng các đối tượng 3 và 2 trong gấu trúc và bạn đã sẵn sàng để học cách kết hợp chúng, thì hướng dẫn này sẽ giúp bạn làm chính xác điều đó. Nếu bạn cảm thấy hơi gỉ, thì bạn có thể xem một sự bồi dưỡng nhanh trên DataFrames trước khi tiến hành.Bạn có thể làm theo cùng với các ví dụ trong hướng dẫn này bằng cách sử dụng các tệp dữ liệu và máy tính xách tay Jupyter tương tác có sẵn tại liên kết bên dưới: Pandas >>> climate_temp.shape (127020, 21) >>> climate_precip.shape (151110, 29) 4: Kết hợp dữ liệu trên các cột hoặc chỉ số chungKỹ thuật đầu tiên mà bạn sẽ học là 4. Bạn có thể sử dụng 4 Bất cứ khi nào bạn muốn chức năng tương tự như các hoạt động tham gia cơ sở dữ liệu. Nó linh hoạt nhất trong ba hoạt động mà bạn sẽ học được.Khi bạn muốn kết hợp các đối tượng dữ liệu dựa trên một hoặc nhiều khóa, tương tự như những gì bạn đã làm trong cơ sở dữ liệu quan hệ, 4 là công cụ bạn cần. Cụ thể hơn, 4 là hữu ích nhất khi bạn muốn kết hợp các hàng chia sẻ dữ liệu.Bạn có thể đạt được cả hai và nhiều người tham gia với 4. Trong một lần tham gia nhiều-một, một trong những bộ dữ liệu của bạn sẽ có nhiều hàng trong cột hợp nhất lặp lại cùng một giá trị. Ví dụ, các giá trị có thể là 1, 1, 3, 5 và 5. Đồng thời, cột hợp nhất trong bộ dữ liệu khác won won có các giá trị lặp lại. Lấy 1, 3 và 5 làm ví dụ.many-to-one and many-to-many joins with 4. In a many-to-one join, one of your datasets will have many rows in the merge column that repeat the same values. For example, the values could be 1, 1, 3, 5, and 5. At the same
time, the merge column in the other dataset won’t have repeated values. Take 1, 3, and 5 as an example.Như bạn có thể đoán, trong một tham gia nhiều-nhiều, cả hai cột hợp nhất của bạn sẽ có các giá trị lặp đi lặp lại. Những sáp nhập này phức tạp hơn và dẫn đến sản phẩm Cartesian của các hàng đã tham gia. Điều này có nghĩa là, sau khi hợp nhất, bạn sẽ có mọi kết hợp các hàng có cùng giá trị trong cột chính. Bạn sẽ thấy điều này trong hành động trong các ví dụ dưới đây. Điều làm cho 4 rất linh hoạt là số lượng tùy chọn tuyệt đối để xác định hành vi hợp nhất của bạn. Mặc dù danh sách có vẻ khó khăn, nhưng với thực tế, bạn sẽ có thể hợp nhất các bộ dữ liệu thuộc mọi loại.Khi bạn sử dụng 4, bạn sẽ cung cấp hai đối số bắt buộc:
Sau đó, bạn có thể cung cấp một số đối số tùy chọn để xác định cách các bộ dữ liệu của bạn được hợp nhất:
Đây là một số tham số quan trọng nhất để chuyển sang 4. Để biết danh sách đầy đủ, xem tài liệu Pandas.Cách sử dụng >>> climate_temp.shape (127020, 21) >>> climate_precip.shape (151110, 29) 4Trước khi đi sâu vào các chi tiết về cách sử dụng 4, trước tiên bạn nên hiểu các hình thức tham gia khác nhau:
Bạn có thể tìm hiểu về các kết nối khác nhau này một cách chi tiết dưới đây, nhưng trước tiên hãy xem đại diện trực quan này của họ: Đại diện trực quan của các loại tham giaTrong hình ảnh này, hai vòng tròn là hai bộ dữ liệu của bạn và các nhãn chỉ vào phần hoặc phần của bộ dữ liệu bạn có thể mong đợi. Mặc dù sơ đồ này không bao gồm tất cả các sắc thái, nhưng nó có thể là một hướng dẫn tiện dụng cho người học trực quan. Nếu bạn có nền SQL, thì bạn có thể nhận ra tên hoạt động hợp nhất từ cú pháp 7. Ngoại trừ 3, tất cả các kỹ thuật này là các loại tham gia bên ngoài. Với các kết nối bên ngoài, bạn sẽ hợp nhất dữ liệu của mình dựa trên tất cả các khóa trong đối tượng bên trái, đối tượng bên phải hoặc cả hai. Đối với các khóa chỉ tồn tại trong một đối tượng, các cột chưa từng có trong đối tượng khác sẽ được điền vào 9, viết tắt của không phải là một số.outer joins. With outer joins, you’ll merge your data based on all the keys in the left object, the right object, or both.
For keys that only exist in one object, unmatched columns in the other object will be filled in with 9, which stands for Not a Number.Bạn cũng có thể thấy một lời giải thích trực quan về các liên kết khác nhau trong bối cảnh SQL về kinh dị mã hóa. Bây giờ hãy xem các tham gia khác nhau trong hành động. Ví dụNhiều hướng dẫn của gấu trúc cung cấp các khung dữ liệu rất đơn giản để minh họa các khái niệm mà họ đang cố gắng giải thích. Cách tiếp cận này có thể gây nhầm lẫn vì bạn có thể liên hệ dữ liệu với bất cứ điều gì cụ thể. Vì vậy, đối với hướng dẫn này, bạn sẽ sử dụng hai bộ dữ liệu trong thế giới thực làm các khung dữ liệu được hợp nhất:
Bạn có thể khám phá các bộ dữ liệu này và theo dõi cùng với các ví dụ bên dưới bằng cách sử dụng máy tính xách tay Jupyter tương tác và dữ liệu khí hậu CSVS: Nếu bạn muốn tìm hiểu cách sử dụng máy tính xách tay Jupyter, thì hãy xem Jupyter Notebook: Giới thiệu. Hai bộ dữ liệu này là từ Cơ quan Khí quyển và Đại dương Quốc gia (NOAA) và được lấy từ kho lưu trữ dữ liệu công cộng NOAA. Đầu tiên, tải các bộ dữ liệu vào các khung dữ liệu riêng biệt: >>>
Trong mã trên, bạn đã sử dụng gấu trúc 0 để tải các tệp CSV nguồn của bạn vào các đối tượng 3 một cách thuận tiện. Sau đó, bạn có thể nhìn vào các tiêu đề và một vài hàng đầu tiên của các khung dữ liệu được tải với 2:>>>
Trong mã trên, bạn đã sử dụng gấu trúc 0 để tải các tệp CSV nguồn của bạn vào các đối tượng 3 một cách thuận tiện. Sau đó, bạn có thể nhìn vào các tiêu đề và một vài hàng đầu tiên của các khung dữ liệu được tải với 2:Tại đây, bạn đã sử dụng 2 để có được năm hàng đầu tiên của mỗi DataFrame. Đảm bảo tự mình thử điều này, với máy tính xách tay Jupyter tương tác hoặc trong bảng điều khiển của bạn, để bạn có thể khám phá dữ liệu ở độ sâu lớn hơn.>>>
Trong mã trên, bạn đã sử dụng gấu trúc 0 để tải các tệp CSV nguồn của bạn vào các đối tượng 3 một cách thuận tiện. Sau đó, bạn có thể nhìn vào các tiêu đề và một vài hàng đầu tiên của các khung dữ liệu được tải với 2:Tại đây, bạn đã sử dụng >>> left_merged = pd.merge(
... climate_temp, precip_one_station, how="left", on=["STATION", "DATE"]
... )
>>> left_merged.shape
(127020, 48)
|