Thao tác với tệp trong python
Chúng ta thường lưu trữ dữ liệu của mình dưới các định dạng file khác nhau như .txt, .json, .xml, .csv, .tsv, .xlsx). Trong phần này, ta sẽ làm quen với cách xử lý file (tệp tin) trong python. Đầu tiên, chúng ta hãy làm quen với việc xử lý các file có định dạng phổ biến nhất là .txt Show Xử lý file là một phần không thể thiếu khi lập trình, đôi lúc bạn sẽ phải thực hiện các thao tác như tạo file, đọc file, cập nhật file và xóa file. Trong python mở một tệp tin để xử lý dữ liệu chúng ta sẽ sử dụng hàm được tích hợp sẵn
Bạn cũng nên xem thêm phần mà tôi đã giới thiệu ở phần nhập xuất dữ liệu để hiểu rõ hơn. Chế độ mở mặc định là đọc, vì vậy chúng ta không chỉ định 3 hoặc 1. Như vậy, bạn đã tạo và lưu một file có tên là read_file_example.txt trong thư mục. Hãy xem đoạn code dưới đây hoạt động như thế nào:
Như bạn có thể thấy trong ví dụ trên, bạn đã print tệp đã mở và nó hiển thị cho bạn một số thông tin về tệp đó. Tệp được mở có các phương thức đọc khác nhau như: Đọc toàn bộ nội dung dưới dạng chuỗi (xem lại bài viết về string trong python). Nếu chúng ta muốn giới hạn số ký tự mà chúng ta đọc, bạn có thể giới hạn nó bằng .
Thay vì hiển thị tất cả nội dung, chúng ta hãy lấy ra 10 ký tự đầu tiên của file.
Phương thức này chỉ sẽ trả về kết quả của dòng đầu tiên
Phương thức này sẽ đọc tất cả các dòng có trong tệp và trả về một list (mỗi dòng là một phần tử của list)
Ngoài ra, Một cách khác để lấy tất cả các dòng trong file để đưa vào list ta có thể sử dụng phương thức
Sau khi mở một tệp, phần lớn chúng ta thường quên sử dụng
Để ghi vào một tệp hiện có, chúng ta phải thêm một chế độ làm tham số cho hàm
Hãy nối một số nội dung vào tệp mà chúng ta đang đọc:
Đoạn mã dưới đây sẽ tạo một tệp mới, nếu tệp không tồn tại:
Trong phần trước chúng ta đã biết . Tương tự, để xóa một tệp, chúng ta cũng . 0Nếu tệp không tồn tại, phương thức 1Tệp có phần mở rộng .txt là một dạng dữ liệu rất phổ biến mà chúng ta đã trình bày trong phần trước (bạn có thể xem lại ). Hãy chuyển sang tệp JSON JSON là viết tắt của JavaScript Object Notation. Trên thực tế, đó là một đối tượng JavaScript được chuỗi hóa. Ví dụ: 2
3
4
5Trong đoạn code trên, chúng ta sử dụng encoding='utf-8' và indent=4 (thụt đầu dòng). Thụt lề giúp dễ đọc file json hơn. CSV là viết tắt của cụm từ Comma Separated Values (các giá trị được phân tách bằng dấu phẩy) mà ở phần trước chúng ta cũng đã tìm hiểu cơ bản . CSV là một định dạng tệp đơn giản được sử dụng để lưu trữ dữ liệu dưới dạng bảng, chẳng hạn như bảng tính hoặc cơ sở dữ liệu. CSV là một định dạng dữ liệu rất phổ biến trong data science. Ví dụ đây là nội dụng của file csv_example.csv 6Ví dụ: 7Để đọc các tệp excel, chúng ta cần cài đặt package có tên xlrd. Bạn cần tham khảo . XML là một định dạng dữ liệu có cấu trúc khác trông giống như HTML. Trong XML, các thẻ không được xác định trước. Dòng đầu tiên là dòng khai báo trong XML. Person là tags (thẻ) gốc của file XML dưới đây. Ví dụ về một file XML: |