Chuyển đổi tệp văn bản Excel sang tệp văn bản được phân tách bằng đường ống python

Trong bài đăng trên blog này, chúng tôi sẽ chỉ cho bạn cách thay đổi dấu phân cách trong tệp CSV bằng Python. Tệp CSV [giá trị được phân tách bằng dấu phẩy] là tệp văn bản sử dụng dấu phẩy để phân tách các giá trị và có thể được mở trong Microsoft Excel, Google Trang tính, trình soạn thảo văn bản, v.v.

Có thể đôi khi bạn cần thay đổi dấu phân cách để, ví dụ: nhập tệp của bạn vào một ứng dụng. Trong ví dụ này, chúng tôi sẽ thay đổi dấu phân cách từ dấu phẩy thành dấu chấm phẩy

Trước khi chúng ta bắt đầu

Nếu bạn chưa cài đặt Python trên máy tính của mình, hãy làm theo bước 1 và 2 của bài đăng trên blog Chuyển đổi PDF sang Excel, CSV hoặc XML bằng Python. Bây giờ bạn sẽ cài đặt thư viện Python, Anaconda và PDFTables Python

Tôi sẽ thay đổi dấu phân cách trong hóa đơn mẫu từ một công ty vận chuyển hàng hóa đã được chuyển đổi từ PDF sang CSV bằng PDFTables. com

Bước 1

Tạo một tệp Python mới ở vị trí lưu tệp CSV của bạn. Đảm bảo tệp được lưu ở định dạng .py và sử dụng tên tệp bạn chọn. Thêm mã sau vào tệp mới

import csv

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]

Bạn sẽ cần thực hiện một số hoặc tất cả các thay đổi sau đối với tập lệnh

  • Thay thế freight_invoice.csv bằng tên tệp đầu vào của bạn
  • Thay thế
    import csv
    import pdftables_api
    
    c = pdftables_api.Client['my-api-key']
    c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 
    
    reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
    writer = csv.writer[open["output.txt", 'w'], delimiter=';']
    writer.writerows[reader]
    
    print["Delimiter successfully changed"]
    
    0 bằng tên bạn muốn đặt cho tệp đầu ra của mình
  • Thay thế dấu chấm phẩy trong
    import csv
    import pdftables_api
    
    c = pdftables_api.Client['my-api-key']
    c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 
    
    reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
    writer = csv.writer[open["output.txt", 'w'], delimiter=';']
    writer.writerows[reader]
    
    print["Delimiter successfully changed"]
    
    1 bằng dấu phân cách mới do bạn chọn

Bước 2

Mở một phiên bản Dấu nhắc Anaconda. Bạn có thể tìm thấy điều này bằng cách tìm kiếm trong hộp tìm kiếm máy tính của bạn. Nhấn Enter để mở một phiên bản

Định vị thư mục lưu tập lệnh Python bằng cách sử dụng

import csv
import pdftables_api

c = pdftables_api.Client['my-api-key']
c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]
2 hoặc
import csv
import pdftables_api

c = pdftables_api.Client['my-api-key']
c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]
3 để di chuyển quanh các thư mục

Bước 3

Nhập

import csv
import pdftables_api

c = pdftables_api.Client['my-api-key']
c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]
4 [thay thế
import csv
import pdftables_api

c = pdftables_api.Client['my-api-key']
c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]
5 bằng tên tệp Python của bạn] rồi nhấn Enter

Bây giờ, tệp được phân tách bằng dấu phẩy sẽ được đọc, sau đó một tệp mới sẽ được xuất ở định dạng

import csv
import pdftables_api

c = pdftables_api.Client['my-api-key']
c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]
0 với dấu phân cách mới. Bạn sẽ thấy thông báo
import csv
import pdftables_api

c = pdftables_api.Client['my-api-key']
c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]
1 sau khi tập lệnh chạy xong

Bước 4

Bây giờ bạn có thể mở tệp mới trong trình soạn thảo văn bản hoặc nhập tệp vào ứng dụng

Chuyển đổi PDF sang CSV trước

Nếu trước tiên bạn cần trích xuất dữ liệu từ PDF, bạn có thể chuyển đổi PDF sang CSV bằng PDFTables. com. Đoạn mã sau sử dụng API PDFTables để chuyển đổi PDF sang CSV, sau đó sử dụng đoạn mã ở trên để thay đổi dấu phân cách

import csv
import pdftables_api

c = pdftables_api.Client['my-api-key']
c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 

reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
writer = csv.writer[open["output.txt", 'w'], delimiter=';']
writer.writerows[reader]

print["Delimiter successfully changed"]

Bạn sẽ cần thực hiện các thay đổi sau đối với tập lệnh

  • Thay thế
    import csv
    import pdftables_api
    
    c = pdftables_api.Client['my-api-key']
    c.csv['freight_invoice.pdf', 'freight_invoice.csv'] 
    
    reader = csv.reader[open["freight_invoice.csv", "rU"], delimiter=',']
    writer = csv.writer[open["output.txt", 'w'], delimiter=';']
    writer.writerows[reader]
    
    print["Delimiter successfully changed"]
    
    2 bằng khóa API của bạn mà bạn sẽ tìm thấy ở đây

Bạn còn có câu hỏi nào nữa không?

Kiểm tra các bài đăng blog khác của chúng tôi ở đây hoặc trang Câu hỏi thường gặp của chúng tôi. Ngoài ra, hãy liên hệ với chúng tôi

Yêu PDFTables?

Biểu tượng dấu chấm phẩy, biểu tượng Dấu hai chấm và Hashtag Biểu tượng biểu tượng lớn của Icons8. Biểu tượng CSV được tạo bởi prettycons từ www. biểu tượng phẳng. com

Trong phần tiếp theo, bạn sẽ thấy các bước hoàn chỉnh để chuyển đổi tệp Excel của mình thành tệp CSV bằng Python

Các bước để chuyển đổi Excel sang CSV bằng Python

Bước 1. Cài đặt gói Pandas

Nếu bạn chưa làm như vậy, hãy cài đặt gói Pandas. Bạn có thể sử dụng lệnh sau để cài đặt Pandas [trong Windows]

pip install pandas

Bước 2. Chụp đường dẫn nơi tệp Excel được lưu trữ

Tiếp theo chụp lại đường dẫn nơi chứa file Excel trên máy tính

Dưới đây là một ví dụ về đường dẫn nơi tệp Excel được lưu trữ

C. \Users\Ron\Desktop\Test\Product_List. xlsx

Trong đó ‘Product_List‘ là tên tệp Excel và ‘xlsx‘ là phần mở rộng của tệp

Bước 3. Chỉ định Đường dẫn nơi Tệp CSV Mới sẽ được Lưu trữ

Bây giờ, bạn sẽ cần chỉ định đường dẫn nơi tệp CSV mới sẽ được lưu trữ. Ví dụ

C. \Users\Ron\Desktop\Test\New_Products. csv

Trong đó ‘New_Products‘ là tên tệp mới và ‘csv‘ là phần mở rộng của tệp

Bước 4. Chuyển đổi Excel sang CSV bằng Python

Đối với phần cuối cùng, hãy sử dụng mẫu sau để hỗ trợ bạn chuyển đổi Excel sang CSV

import pandas as pd

read_file = pd.read_excel [r'Path where the Excel file is stored\File name.xlsx']
read_file.to_csv [r'Path to store the CSV file\File name.csv', index = None, header=True]

Đây là cách mã sẽ trông như thế nào trong ngữ cảnh ví dụ của chúng tôi [bạn sẽ cần sửa đổi đường dẫn để phản ánh vị trí nơi các tệp sẽ được lưu trữ trên máy tính của bạn]

import pandas as pd

read_file = pd.read_excel [r'C:\Users\Ron\Desktop\Test\Product_List.xlsx']
read_file.to_csv [r'C:\Users\Ron\Desktop\Test\New_Products.csv', index = None, header=True]

Khi bạn chạy mã [được điều chỉnh theo đường dẫn của bạn], bạn sẽ nhận được tệp CSV mới tại vị trí đã chỉ định của mình

Chủ Đề