Hướng dẫn importing and cleaning data with python assessment answers - nhập và làm sạch dữ liệu với câu trả lời đánh giá python
Permalink Show
bậc thầy Chuyển nhánh/thẻ
Không thể tải các nhánh Không có gì để hiển thị {{refname}}
Tên đã được sử dụngMột thẻ đã tồn tại với tên chi nhánh được cung cấp. Nhiều lệnh GIT chấp nhận cả tên thẻ và tên chi nhánh, vì vậy việc tạo nhánh này có thể gây ra hành vi bất ngờ. Bạn có chắc là bạn muốn tạo chi nhánh này? Đi nộp
Không thể lấy lại những người đóng góp tại thời điểm này 4954 dòng (4954 SLOC) 202 KB 202 KB Đổ lỗi Mở trong máy tính để bàn GitHub
Xin lỗi, có lỗi xảy ra. Tải lại? Xin lỗi, chúng tôi không thể hiển thị tệp này. Xin lỗi, tệp này không hợp lệ nên nó không thể được hiển thị. Từ DataCamp. 1. Các vấn đề dữ liệu phổ biếnCác loại dữ liệu phổ biến
Kiểu dữ liệu hạn chếThao tác và phân tích dữ liệu với các loại dữ liệu không chính xác có thể dẫn đến phân tích bị xâm phạm khi bạn đi dọc theo quy trình công việc khoa học dữ liệu. Khi làm việc với dữ liệu mới, chúng tôi có thể sử dụng thuộc tính 3 hoặc phương thức 4. Thông thường, bạn sẽ chạy vào các cột cần được chuyển đổi thành các loại dữ liệu khác nhau trước khi bắt đầu bất kỳ phân tích nào.Để mô tả dữ liệu và kiểm tra các loại dữ liệu:Dữ liệu chia sẻ xe đạp ở San Francisco, 5, chứa thông tin về các trạm bắt đầu và kết thúc, thời lượng chuyến đi và một số thông tin người dùng cho dịch vụ chia sẻ xe đạp.Ý chí tiêu thụ đặc biệt
Tóm tắt các chuỗi và các số kết hợpMột vấn đề kiểu dữ liệu phổ biến khác là nhập những gì nên là giá trị số dưới dạng chuỗi, vì các hoạt động toán học như tổng và nhân dẫn đến nối chuỗi, không phải là đầu ra số. Bài tập này sẽ chuyển đổi cột chuỗi 0 thành loại 1. Đầu tiên, dải 2 từ cột để đảm bảo 3 đọc nó dưới dạng số. Gói 3 đã được nhập là 5.
Hạn chế phạm vi dữ liệuĐôi khi có thể hiển thị các giá trị nằm ngoài phạm vi dữ liệu. Ví dụ, một thời gian trong tương lai được bao gồm trong thời điểm; hoặc sáu ngôi sao trong một hệ thống năm sao. Cách để đối phó với nó:
Kích thước lốp bị ràng buộcKích thước lốp xe đạp có thể là 26, 27 hoặc 29 và được lưu trữ chính xác dưới dạng giá trị phân loại. Trong nỗ lực cắt giảm chi phí bảo trì, nhà cung cấp dịch vụ chia sẻ đi xe đã quyết định đặt kích thước lốp tối đa là 27. Trong bài tập này, cột 0 có phạm vi chính xác bằng cách trước tiên chuyển đổi nó thành một số nguyên, sau đó cài đặt và kiểm tra giới hạn trên mới là 27 cho kích thước lốp.
Quay lại tương laiMột bản cập nhật mới cho đường ống dữ liệu cung cấp cho 5 DataFrame đã được cập nhật để đăng ký mỗi ngày đi xe. Thông tin này được lưu trữ trong cột 9 thuộc loại 0, đại diện cho các chuỗi trong 3.Một lỗi đã được phát hiện đã chuyển tiếp các chuyến đi được thực hiện hôm nay như được thực hiện vào năm tới. Để khắc phục điều này, bạn sẽ tìm thấy tất cả các trường hợp của cột 9 xảy ra bất cứ lúc nào trong tương lai và đặt giá trị tối đa có thể của cột này thành ngày hôm nay. Trước khi làm như vậy, bạn sẽ cần chuyển đổi 9 sang đối tượng 4.Gói 4 đã được nhập dưới dạng 6, cùng với tất cả các gói mà bạn đã sử dụng cho đến bây giờ.
Trùng lặpTập hợp con của bạn lớn như thế nào? Bạn có bản dữ liệu 7 DataFrame which contains loan and credit score data for consumers, and some metadata
such as their first and last names. You want to find both complete and incomplete duplicates using 8.
Chọn cách sử dụng chính xác của 8 dưới đây:Tuy nhiên, bản cập nhật trùng với thời gian đi xe trung bình ngắn hơn và ngày sinh không thường xuyên được thiết lập trong tương lai. Quan trọng nhất, số lượng chuyến đi được thực hiện đã tăng 20% qua đêm, khiến bạn nghĩ rằng có thể có cả hai bản sao hoàn chỉnh và không đầy đủ trong DataFrame 5.Trong bài tập này, bạn sẽ xác nhận sự nghi ngờ này bằng cách tìm thấy những bản sao đó. Một mẫu 5 nằm trong môi trường của bạn, cũng như tất cả các gói mà bạn đã làm việc cho đến nay.
Điều trị trùng lặpTrong bài tập cuối cùng, bạn có thể xác minh rằng bản cập nhật mới cho ăn vào 5 chứa một lỗi tạo ra cả các hàng trùng lặp hoàn chỉnh và không đầy đủ cho một số giá trị của cột 2, với các giá trị khác nhau thường xuyên cho các cột 2 và 0.Trong bài tập này, bạn sẽ xử lý các hàng trùng lặp đó bằng cách đầu tiên thả các bản sao hoàn chỉnh, sau đó hợp nhất các hàng trùng lặp không hoàn chỉnh thành một trong khi giữ mức trung bình ____30 và tối thiểu 2 cho mỗi bộ các hàng sao chép không hoàn chỉnh.
2. Các vấn đề về dữ liệu văn bản và phân loạiCác loại ràng buộc khác nhau:
Hạn chế thành viên: Khi ghi nội dung không nên tồn tại. F. Eks. Khi ghi lại nhóm máu, viết sai loại từ A+ đến Z+. Những ví dụ khác:
Tìm kiếm sự nhất quánTrong bài tập này và trong suốt chương này, chúng tôi sẽ làm việc với 02 DataFrame có chứa các câu trả lời khảo sát trên sân bay San Francisco từ các khách hàng của hãng hàng không.DataFrame chứa siêu dữ liệu bay như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính liên quan đến sự sạch sẽ, an toàn và sự hài lòng. Một khung dữ liệu khác có tên 03 đã được tạo, chứa tất cả các giá trị có thể chính xác cho các cột khảo sát.Trong bài tập này, chúng tôi sẽ sử dụng cả hai khung dữ liệu này để tìm câu trả lời khảo sát với các giá trị không nhất quán và thả chúng, thực hiện hiệu quả một kết nối bên ngoài và bên trong trên cả hai khung dữ liệu này như đã thấy trong bài tập video. Gói 3 đã được nhập dưới dạng 5 và các khung dữ liệu 02 và 03 nằm trong môi trường của bạn.
Đầu ra trông như thế này:
Hãy xem đầu ra. Trong số các cột sạch, an toàn và hài lòng, cái nào có thể loại không nhất quán và nó là gì? Tiếp theo, tìm cột có các giá trị khác nhau bằng cách sử dụng 11 và 12:
Và điều này cho đầu ra sau khi khám phá dữ liệu:
Loại lỗiĐể giải quyết các vấn đề phổ biến ảnh hưởng đến các biến phân loại trong dữ liệu bao gồm không gian trắng và sự không nhất quán trong các danh mục và vấn đề tạo các danh mục mới và ánh xạ các loại hiện có đến các loại mới. Đầu tiên, chúng ta có thể xem các giá trị cho một cột bằng cách sử dụng:
Điều này sẽ cung cấp một cái nhìn tổng quan về số lượng các giá trị/danh mục cho biến. Hơn chúng ta có thể giải quyết các vấn đề bằng cách: Không gian trắng và sự không nhất quán::
0Sụp đổ tất cả các tiểu bang Tạo hoặc ánh xạ lại danh mục::
Thu gọn dữ liệu vào danh mục: Tạo các danh mục ra khỏi dữ liệu - cột 30 từ cột 31 1Phương pháp 26 có thể không đủ chính xác. Một phương pháp khác tốt hơn nhiều: 2Bản đồ danh mục đến ít hơn: Giảm các danh mục trong cột phân loại. Ví dụ:
3Điều này trả về: 33Các loại không nhất quánDataFrame chứa siêu dữ liệu bay như hãng hàng không, điểm đến, thời gian chờ đợi cũng như câu trả lời cho các câu hỏi chính liên quan đến sự sạch sẽ, an toàn và sự hài lòng trên sân bay San Francisco. Chúng tôi sẽ kiểm tra hai cột phân loại từ DataFrame, 34 và 35 tương ứng, đánh giá cách giải quyết chúng và đảm bảo rằng chúng được làm sạch và sẵn sàng để phân tích. Gói 3 đã được nhập dưới dạng 5 và DataFrame ____102 nằm trong môi trường của bạn.
4Các vấn đề với các cột:
Nhắc lại danh mụcĐể hiểu rõ hơn những người trả lời khảo sát từ các hãng hàng không, bạn muốn tìm hiểu xem có mối quan hệ nào giữa các phản hồi nhất định và ngày trong tuần và thời gian chờ đợi tại cổng không. DataFrame ____102 chứa các cột 52 và 53, tương ứng là phân loại và số. Cột 52 chứa ngày chính xác một chuyến bay đã diễn ra và 53 chứa số phút mà khách du lịch phải chờ đợi ở cổng. Để làm cho phân tích của bạn dễ dàng hơn, bạn muốn tạo hai biến phân loại mới:
Các gói 3 và 64 đã được nhập là 5 và 66. Hãy để tạo ra một số dữ liệu phân loại mới!Instructions::
5Làm sạch dữ liệu văn bản 6Loại bỏ tiêu đề và lấy tênTrong khi thu thập siêu dữ liệu của người trả lời khảo sát trong DataFrame 02, tên đầy đủ của người trả lời đã được lưu trong cột 78. Tuy nhiên, khi kiểm tra kỹ hơn, bạn thấy rằng rất nhiều tên khác nhau được có tiền tố bởi Honorifics, chẳng hạn như là Tiến sĩ, ông, ông Mr. và nhớ".Mục tiêu cuối cùng của bạn là tạo hai cột mới có tên 79 và 80, chứa tên đầu tiên và tên của người trả lời tương ứng. Tuy nhiên, trước khi làm như vậy, bạn cần loại bỏ Honorifics.DataFrame ____102 nằm trong môi trường của bạn, cùng với 3 là 5.
7Giữ nó mô tảĐể hiểu rõ hơn về trải nghiệm của khách du lịch tại sân bay San Francisco, bộ phận đảm bảo chất lượng đã gửi một bảng câu hỏi định tính cho tất cả các khách du lịch đã cho sân bay điểm số tồi tệ nhất trên tất cả các hạng mục có thể. Mục tiêu đằng sau bảng câu hỏi này là xác định các mô hình phổ biến trong những gì khách du lịch đang nói về sân bay. Phản hồi của họ được lưu trữ trong cột 87. Khi nhìn kỹ hơn, bạn nhận ra một vài câu trả lời đã đưa ra số lượng ký tự ngắn nhất có thể mà không có nhiều chất. Trong bài tập này, bạn sẽ cô lập các câu trả lời với số lượng ký tự cao hơn 40 và đảm bảo DataFrame mới của bạn chứa các phản hồi có 40 ký tự trở lên bằng cách sử dụng câu lệnh 3.DataFrame ____102 nằm trong môi trường của bạn và 3 được nhập dưới dạng 5.
83. Các vấn đề về dữ liệu nâng caoTính đồng nhất
Tạo dữ liệu nhiệt độ từ F đến C: C = (F - 32) × 5/9 From F to C: C=(F−32)×5/9 9Định dạng DateTime 00 is useful for representing dates: Date | Datetime format 25-12-2019 | %d-%m-%Y December 25th 2019 | %c 12-25-2019 | %m-%d-%Y … | … 01
Xử lý dữ liệu ngày 0Ngày mơ hồBạn có một khung dữ liệu có chứa cột đăng ký_date được thu thập từ nhiều nguồn khác nhau với các định dạng ngày khác nhau như Yyyy-MM-DD và Yyyy-DD-MM. Cách tốt nhất để thống nhất các định dạng cho các giá trị mơ hồ như 2019-04-07 là gì?
Tiền tệ đồng nhấtTrong bài tập này và trong suốt chương này, bạn sẽ làm việc với bộ dữ liệu 02 bán lẻ được lưu trữ trong DataFrame của ngân hàng. Bộ dữ liệu chứa dữ liệu về số tiền được lưu trữ trong tài khoản, tiền tệ, số tiền đầu tư, ngày mở tài khoản và ngày giao dịch cuối cùng được hợp nhất từ các chi nhánh của Mỹ và châu Âu.Bạn được giao nhiệm vụ hiểu quy mô tài khoản trung bình và cách đầu tư thay đổi theo quy mô của tài khoản, tuy nhiên để tạo ra phân tích này một cách chính xác, trước tiên bạn cần phải thống nhất số tiền tiền tệ thành đô la. Gói 3 đã được nhập dưới dạng 5 và DataFrame 02 nằm trong môi trường của bạn.
1Ngày đồng nhấtSau khi thống nhất các loại tiền tệ của số tiền tài khoản khác nhau của bạn, bạn muốn thêm một chiều theo thời gian vào phân tích của bạn và xem khách hàng đã đầu tư tiền của họ như thế nào với quy mô tài khoản của họ mỗi năm. Cột 17 đại diện khi khách hàng mở tài khoản của họ và là một ủy quyền tốt để phân đoạn hoạt động và đầu tư của khách hàng theo thời gian.Tuy nhiên, vì dữ liệu này được hợp nhất từ nhiều nguồn, bạn cần đảm bảo rằng tất cả các ngày có cùng định dạng. Bạn sẽ làm như vậy bằng cách chuyển đổi cột này thành một đối tượng 4, trong khi đảm bảo rằng định dạng được suy ra và các định dạng không chính xác có khả năng bị thiếu. DataFrame 02 nằm trong môi trường của bạn và 3 được nhập là 5.
2Hãy xem đầu ra. Bạn đã thử chuyển đổi các giá trị thành DateTime bằng cách sử dụng hàm TO_DATETIME () mặc định mà không thay đổi bất kỳ đối số nào, tuy nhiên đã nhận được lỗi sau: 29Sao bạn lại nghĩ như vậy?
Xác thực trường chéoViệc sử dụng nhiều trường trong tập dữ liệu để kiểm tra độ chính xác dữ liệu.multiple fields in a dataset to sanity check data integrity. Ở đây, chúng tôi chỉ định 30 để chỉ định tổng từng hàng. .Kiểm tra từ iPad Ở đây, chúng tôi chỉ định 30 để chỉ định tổng từng hàng.Và ở đây chúng tôi kiểm tra xem các cột 31 và 32 có cung cấp thông tin tương tự hay không.
Làm thế nào để bạn làm sạch dữ liệu trong Python?Nhập thư viện .. Đầu vào Bộ dữ liệu phản hồi của khách hàng .. Xác định vị trí dữ liệu bị thiếu .. Kiểm tra các bản sao .. Phát hiện các ngoại lệ .. Bình thường hóa vỏ .. Làm thế nào để bạn nhập dữ liệu vào Python?Các bước để nhập tệp CSV vào Python bằng Pandas.. Bước 1: Chụp đường dẫn tệp.Đầu tiên, chụp toàn bộ đường dẫn nơi tệp CSV của bạn được lưu trữ..... Bước 2: Áp dụng mã Python..... Bước 3: Chạy mã..... Bước tùy chọn: Chọn tập hợp con của các cột .. Làm sạch và chuẩn bị dữ liệu trong Python là gì?Bạn sẽ học cách làm việc với dữ liệu bị thiếu, cách làm việc với dữ liệu trùng lặp và xử lý dữ liệu chuỗi lộn xộn.Có thể làm sạch hiệu quả và chuẩn bị một bộ dữ liệu là một kỹ năng quan trọng.Nhiều nhà khoa học dữ liệu ước tính rằng họ dành 80% thời gian để dọn dẹp và chuẩn bị bộ dữ liệu của họ.learn how to work with missing data, how to work with duplicate data, and dealing with messy string data. Being able to effectively clean and prepare a dataset is an important skill. Many data scientists estimate that they spend 80% of their time cleaning and preparing their datasets.
Thư viện Python nào được sử dụng để làm sạch dữ liệu?Klib.KLIB là một gói Python nguồn mở để nhập, làm sạch và phân tích.Đây là gói một cửa được sử dụng để dễ dàng hiểu dữ liệu của bạn và tiền xử lý.. Klib is an open-source Python package for importing, cleaning, and analyzing. It is a one-stop package used for easily understanding your data and preprocessing. |