Đọc CSV từ thư mục Python Pandas khác nhau
Mọi đường dẫn chuỗi hợp lệ đều được chấp nhận. Chuỗi có thể là một URL. Lược đồ URL hợp lệ bao gồm http, ftp, s3, gs và tệp. Đối với các URL của tệp, một máy chủ lưu trữ được yêu cầu. Một tệp cục bộ có thể là. tập tin. // localhost/đường dẫn/đến/bảng. csv Nếu bạn muốn truyền vào một đối tượng đường dẫn, pandas chấp nhận bất kỳ Theo đối tượng giống như tệp, chúng tôi đề cập đến các đối tượng có phương thức Dấu phân cách để sử dụng. Nếu sep là Không có, công cụ C không thể tự động phát hiện dấu tách, nhưng công cụ phân tích cú pháp Python thì có thể, nghĩa là cái sau sẽ được sử dụng và tự động phát hiện dấu tách bằng công cụ trình thám thính dựng sẵn của Python, None Bí danh cho sep tiêu đề int, danh sách int, Không, mặc định 'suy ra'(Các) số hàng để sử dụng làm tên cột và bắt đầu dữ liệu. Hành vi mặc định là suy ra tên cột. nếu không có tên nào được chuyển thì hành vi giống với Danh sách các tên cột để sử dụng. Nếu tệp chứa hàng tiêu đề, thì bạn nên chuyển rõ ràng None (Các) cột để sử dụng làm nhãn hàng của Ghi chú. Trả về một tập hợp con của các cột. Nếu giống như danh sách, tất cả các phần tử phải là vị trí (i. e. chỉ số nguyên vào cột tài liệu) hoặc chuỗi tương ứng với tên cột do người dùng cung cấp trong tên hoặc được suy ra từ (các) hàng tiêu đề tài liệu. Nếu Nếu có thể gọi được, hàm có thể gọi được sẽ được đánh giá dựa trên tên cột, trả về các tên mà hàm có thể gọi được đánh giá là True. Một ví dụ về đối số có thể gọi được hợp lệ sẽ là Nếu dữ liệu được phân tích cú pháp chỉ chứa một cột thì trả về Sê-ri Không dùng nữa kể từ phiên bản 1. 4. 0. Nối Tiền tố để thêm vào số cột khi không có tiêu đề, e. g. 'X' cho X0, X1, ... Không dùng nữa kể từ phiên bản 1. 4. 0. Sử dụng cách hiểu danh sách trên các cột của DataFrame sau khi gọi Các cột trùng lặp sẽ được chỉ định là 'X', 'X. 1’, …’X. N', thay vì 'X'...'X'. Truyền vào Sai sẽ khiến dữ liệu bị ghi đè nếu có tên trùng lặp trong các cột Không dùng nữa kể từ phiên bản 1. 5. 0. Chưa triển khai và một đối số mới để chỉ định mẫu cho tên của các cột trùng lặp sẽ được thêm vào thay thế dtype Nhập tên hoặc chính tả của cột -> loại, tùy chọnKiểu dữ liệu cho dữ liệu hoặc cột. e. g. {'một'. np. float64, 'b'. np. int32, 'c'. ‘Int64’} Sử dụng str hoặc đối tượng cùng với cài đặt na_values phù hợp để giữ nguyên và không diễn giải dtype. Nếu bộ chuyển đổi được chỉ định, chúng sẽ được áp dụng THAY THẾ cho chuyển đổi dtype Mới trong phiên bản 1. 5. 0. Đã thêm hỗ trợ cho defaultdict. Chỉ định một defaultdict làm đầu vào trong đó mặc định xác định dtype của các cột không được liệt kê rõ ràng. công cụ {'c', 'python', 'pyarrow'}, tùy chọnCông cụ phân tích cú pháp để sử dụng. Công cụ C và pyarrow nhanh hơn, trong khi công cụ python hiện có nhiều tính năng hơn. Đa luồng hiện chỉ được hỗ trợ bởi công cụ pyarrow Mới trong phiên bản 1. 4. 0. Công cụ “pyarrow” đã được thêm làm công cụ thử nghiệm và một số tính năng không được hỗ trợ hoặc có thể không hoạt động chính xác với công cụ này. bộ chuyển đổi chính tả, tùy chọnDict của các chức năng để chuyển đổi các giá trị trong các cột nhất định. Các khóa có thể là số nguyên hoặc nhãn cột Các giá trị được coi là True false_values danh sách, tùy chọnCác giá trị được coi là Sai skipinitialspace bool, mặc định SaiBỏ qua khoảng trắng sau dấu phân cách skiprows giống như danh sách, int hoặc có thể gọi được, tùy chọnSố dòng cần bỏ qua (được lập chỉ mục 0) hoặc số dòng cần bỏ qua (int) ở đầu tệp Nếu có thể gọi được, hàm có thể gọi được sẽ được đánh giá dựa trên các chỉ số hàng, trả về True nếu hàng sẽ bị bỏ qua và Sai nếu không. Một ví dụ về đối số có thể gọi được hợp lệ sẽ là Số dòng ở cuối tệp cần bỏ qua (Không được hỗ trợ với engine=’c’) nén int, tùy chọnSố hàng của tập tin để đọc. Hữu ích để đọc các phần của tệp lớn na_values vô hướng, str, giống như danh sách hoặc dict, tùy chọnAdditional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘ Có hay không bao gồm các giá trị NaN mặc định khi phân tích dữ liệu. Tùy thuộc vào việc na_values có được chuyển vào hay không, hành vi sẽ như sau
Lưu ý rằng nếu na_filter được chuyển thành Sai, các tham số keep_default_na và na_values sẽ bị bỏ qua na_filter bool, mặc định ĐúngPhát hiện các điểm đánh dấu giá trị bị thiếu (chuỗi trống và giá trị của na_values). Trong dữ liệu không có bất kỳ NA nào, việc chuyển na_filter=False có thể cải thiện hiệu suất đọc một tệp lớn dài dòng bool, mặc định SaiCho biết số lượng giá trị NA được đặt trong các cột không phải là số skip_blank_lines bool, mặc định ĐúngNếu Đúng, hãy bỏ qua các dòng trống thay vì diễn giải dưới dạng giá trị NaN parse_dates bool hoặc danh sách int hoặc tên hoặc danh sách danh sách hoặc dict, mặc định SaiHành vi như sau
Nếu một cột hoặc chỉ mục không thể được biểu diễn dưới dạng một mảng thời gian, chẳng hạn như do giá trị không thể phân tích cú pháp hoặc hỗn hợp các múi giờ, thì cột hoặc chỉ mục sẽ được trả về không thay đổi dưới dạng một kiểu dữ liệu đối tượng. Đối với phân tích cú pháp ngày giờ không chuẩn, hãy sử dụng Ghi chú. Đường dẫn nhanh tồn tại cho các ngày có định dạng iso8601 infer_datetime_format bool, mặc định SaiNếu True và parse_dates được bật, gấu trúc sẽ cố gắng suy ra định dạng của chuỗi ngày giờ trong các cột và nếu có thể suy ra, hãy chuyển sang phương pháp phân tích cú pháp nhanh hơn. Trong một số trường hợp, điều này có thể tăng tốc độ phân tích cú pháp lên 5-10 lần keep_date_col bool, mặc định SaiNếu True và parse_dates chỉ định kết hợp nhiều cột thì hãy giữ các cột ban đầu date_parser chức năng, tùy chọnHàm sử dụng để chuyển đổi một chuỗi các cột chuỗi thành một mảng các thể hiện thời gian. Mặc định sử dụng Ngày định dạng DD/MM, định dạng quốc tế và châu Âu cache_dates bool, mặc định ĐúngNếu Đúng, hãy sử dụng bộ nhớ cache của các ngày đã chuyển đổi, duy nhất để áp dụng chuyển đổi ngày giờ. Có thể tạo ra tốc độ tăng đáng kể khi phân tích chuỗi ngày trùng lặp, đặc biệt là các chuỗi có chênh lệch múi giờ Mới trong phiên bản 0. 25. 0 trình lặp bool, mặc định SaiTrả về đối tượng TextFileReader để lặp lại hoặc nhận các khối với Đã thay đổi trong phiên bản 1. 2. ______30 là trình quản lý ngữ cảnh. kích thước khối int, tùy chọnTrả về đối tượng TextFileReader để lặp lại. Xem tài liệu Công cụ IO để biết thêm thông tin về Đã thay đổi trong phiên bản 1. 2. ______30 là trình quản lý ngữ cảnh. nén str hoặc dict, mặc định 'suy luận'Để giải nén dữ liệu trên đĩa nhanh chóng. Nếu 'infer' và 'filepath_or_buffer' giống như đường dẫn, thì hãy phát hiện nén từ các tiện ích mở rộng sau. ‘. gz', '. bz2', '. nén', '. xz', '. zst', '. hắc ín', '. hắc ín. gz', '. hắc ín. xz' hoặc '. hắc ín. bz2’ (nếu không thì không nén). Nếu sử dụng 'zip' hoặc 'tar', tệp ZIP chỉ được chứa một tệp dữ liệu để đọc trong. Đặt thành
Đã thay đổi trong phiên bản 1. 4. 0. Hỗ trợ tiêu chuẩn Z. nghìn str, tùy chọnDấu phân cách hàng nghìn thập phân str, mặc định ‘. ’Ký tự để nhận dạng là dấu thập phân (e. g. sử dụng ',' cho dữ liệu châu Âu) lineterminator str (độ dài 1), tùy chọnKý tự để chia tệp thành các dòng. Chỉ hợp lệ với trình phân tích cú pháp C quotechar str (độ dài 1), tùy chọnKý tự được sử dụng để biểu thị phần đầu và phần cuối của một mục được trích dẫn. Các mục được trích dẫn có thể bao gồm dấu phân cách và nó sẽ bị bỏ qua trích dẫn int hoặc csv. Ví dụ QUOTE_*, mặc định 0Kiểm soát hành vi trích dẫn trường trên mỗi hằng số csv.Sniffer 8Khi quotechar được chỉ định và trích dẫn không phải là Chuỗi một ký tự được sử dụng để thoát các ký tự khác nhận xét str, tùy chọnCho biết phần còn lại của dòng không nên được phân tích cú pháp. Nếu được tìm thấy ở đầu dòng, dòng đó sẽ bị bỏ qua hoàn toàn. Tham số này phải là một ký tự đơn. Giống như các dòng trống (miễn là Mã hóa để sử dụng cho UTF khi đọc/ghi (ví dụ:. 'utf-8'). Danh sách mã hóa tiêu chuẩn Python Đã thay đổi trong phiên bản 1. 2. Khi Đã thay đổi trong phiên bản 1. 3. 0. ______62 là một đối số mới. Cách xử lý lỗi mã hóa. Danh sách các giá trị có thể Mới trong phiên bản 1. 3. 0 phương ngữ str hoặc csv. Phương ngữ, tùy chọnNếu được cung cấp, thông số này sẽ ghi đè giá trị (mặc định hoặc không) cho các thông số sau. dấu phân cách, trích dẫn kép, ký tự thoát, bỏ qua khoảng trống, ký tự trích dẫn và trích dẫn. Nếu cần ghi đè các giá trị, Cảnh báo phân tích cú pháp sẽ được đưa ra. xem csv. Tài liệu tiếng địa phương để biết thêm chi tiết error_bad_lines bool, tùy chọn, mặc địnhNone Các dòng có quá nhiều trường (e. g. một dòng csv có quá nhiều dấu phẩy) theo mặc định sẽ gây ra một ngoại lệ và không có DataFrame nào được trả về. Nếu Sai, thì những "dòng xấu" này sẽ bị loại bỏ khỏi DataFrame được trả về Không dùng nữa kể từ phiên bản 1. 3. 0. Tham số None Nếu error_bad_lines là Sai và cảnh báo_bad_lines là Đúng, thì một cảnh báo cho mỗi “dòng xấu” sẽ được xuất ra Không dùng nữa kể từ phiên bản 1. 3. 0. Tham số Chỉ định những việc cần làm khi gặp phải một dòng xấu (một dòng có quá nhiều trường). Các giá trị được phép là
Mới trong phiên bản 1. 3. 0 Mới trong phiên bản 1. 4. 0
Chỉ định có hay không khoảng trắng (e. g. Xử lý nội bộ tệp theo khối, dẫn đến sử dụng bộ nhớ thấp hơn trong khi phân tích cú pháp, nhưng có thể suy luận kiểu hỗn hợp. Để đảm bảo không có loại hỗn hợp, hãy đặt Sai hoặc chỉ định loại bằng tham số dtype. Lưu ý rằng toàn bộ tệp được đọc vào một DataFrame duy nhất, sử dụng tham số chunksize hoặc iterator để trả về dữ liệu theo khối. (Chỉ hợp lệ với trình phân tích cú pháp C) memory_map bool, mặc định SaiNếu một đường dẫn tệp được cung cấp cho filepath_or_buffer, ánh xạ đối tượng tệp trực tiếp vào bộ nhớ và truy cập dữ liệu trực tiếp từ đó. Sử dụng tùy chọn này có thể cải thiện hiệu suất vì không còn bất kỳ chi phí I/O nào float_precision str, tùy chọnChỉ định trình chuyển đổi nào mà công cụ C sẽ sử dụng cho các giá trị dấu phẩy động. Các tùy chọn là Thay đổi trong phiên bản 1. 2 storage_options chính tả, tùy chọnCác tùy chọn bổ sung có ý nghĩa đối với một kết nối lưu trữ cụ thể, e. g. máy chủ, cổng, tên người dùng, mật khẩu, v.v. Đối với URL HTTP(S), các cặp khóa-giá trị được chuyển tiếp tới Làm cách nào để đọc tệp CSV từ thư mục khác trong python Pandas?Các bước để nhập tệp CSV vào Python bằng Pandas . Bước 1. Nắm bắt đường dẫn tệp. Đầu tiên, nắm bắt đường dẫn đầy đủ nơi tệp CSV của bạn được lưu trữ. . Bước 2. Áp dụng mã Python. . Bước 3. Chạy mã. . Bước tùy chọn. Chọn tập hợp con của các cột Làm cách nào để đọc nhiều tệp trong Python bằng Pandas?Sử dụng gói toàn cầu để truy xuất tệp hoặc tên đường dẫn, sau đó lặp qua các đường dẫn tệp bằng vòng lặp for. Tạo một khung dữ liệu về nội dung của từng tệp sau khi đọc nó bằng pd. phương thức read_table() lấy đường dẫn tệp làm đối số. Nối từng khung dữ liệu vào một khung dữ liệu chính bằng cách sử dụng pd |