Hướng dẫn python rich text to plain text - văn bản phong phú python thành văn bản thuần túy

Lý tưởng nhất là tôi muốn một mô -đun hoặc thư viện không yêu cầu truy cập siêu người dùng để cài đặt; Tôi có các đặc quyền hạn chế trong môi trường làm việc của mình.

Hỏi ngày 26 tháng 8 năm 2009 lúc 20:56Aug 26, 2009 at 20:56

2

Tôi đã làm việc trên một thư viện có tên Pyth, có thể làm điều này:

//pypi.python.org/pypi/pyth/

Chuyển đổi tệp RTF thành Plaintext trông giống như thế này:

from pyth.plugins.rtf15.reader import Rtf15Reader
from pyth.plugins.plaintext.writer import PlaintextWriter

doc = Rtf15Reader.read[open['sample.rtf']]

print PlaintextWriter.write[doc].getvalue[]

Pyth cũng có thể tạo các tệp RTF, đọc và ghi XHTML, tạo tài liệu từ Python Markup a La Nevow's Stan và có hạn chế hỗ trợ thử nghiệm cho đầu ra latex và PDF. Hỗ trợ RTF của nó khá mạnh mẽ - chúng tôi sử dụng nó trong sản xuất để đọc các tệp RTF được tạo bởi các phiên bản khác nhau của Word, OpenOffice, Mac Textedit, Eioffice và các phiên bản khác.

Đã trả lời ngày 30 tháng 11 năm 2009 lúc 18:07Nov 30, 2009 at 18:07

BrendonbrendonBrendon

7567 Huy hiệu bạc8 Huy hiệu Đồng7 silver badges8 bronze badges

3

OpenOffice có một đầu đọc RTF. Bạn có thể sử dụng Python để script OpenOffice, xem ở đây để biết thêm thông tin.

Bạn có thể thử sử dụng đối tượng com ma thuật trên Windows để đọc bất cứ thứ gì có mùi ms. Tôi sẽ không đề nghị điều đó mặc dù.

Trên thực tế, phân tích dữ liệu thô có thể sẽ không khó, hãy xem ví dụ này được viết bằng .bat/qbasic.

DocFrac là một bộ chuyển đổi nguồn mở miễn phí betweeen rtf, html và văn bản. Các nền tảng Windows, Linux, ActiveX và DLL có sẵn. Nó có thể sẽ khá dễ dàng để bọc nó trong Python.

RTF :: Text :: Bộ chuyển đổi - Tiện ích mở rộng Perl để chuyển đổi RTF thành văn bản. [trong trường hợp bạn có vấn đề với Docfrac].

Thông số kỹ thuật định dạng văn bản phong phú [RTF] chính thức, phiên bản 1.7, bởi Microsoft.

Chúc may mắn [với các đặc quyền hạn chế trong môi trường làm việc của bạn].

Đã trả lời ngày 26 tháng 8 năm 2009 lúc 22:10Aug 26, 2009 at 22:10

Paweł Polewiczpaweł PolewiczPaweł Polewicz

3.6612 Huy hiệu vàng19 Huy hiệu bạc24 Huy hiệu đồng2 gold badges19 silver badges24 bronze badges

5

Nếu bạn đang ở trên Mac, bạn có thể chuyển đổi tệp RTF file.rtf thành TXT từ CLI như:

textutil -convert txt file.rtf

Đã trả lời ngày 3 tháng 8 năm 2019 lúc 18:32Aug 3, 2019 at 18:32

Franco Piccolofranco PiccoloFranco Piccolo

6.1936 huy hiệu vàng28 Huy hiệu bạc49 Huy hiệu đồng6 gold badges28 silver badges49 bronze badges

Bạn đã kiểm tra pyrtf-ng?

CẬP NHẬT: Chức năng phân tích cú pháp có sẵn nếu bạn thực hiện kiểm tra Subversion, nhưng tôi không chắc nó có tính năng đầy đủ như thế nào. [Nhìn vào mô -đun rtfng.parser.base.] The parsing functionality is available if you do a Subversion checkout, but I'm not sure how full-featured it is. [Look in the rtfng.parser.base module.]

Đã trả lời ngày 26 tháng 8 năm 2009 lúc 21:01Aug 26, 2009 at 21:01

Vinay Sajipvinay SajipVinay Sajip

92.6K14 Huy hiệu vàng174 Huy hiệu bạc184 Huy hiệu đồng14 gold badges174 silver badges184 bronze badges

Có thư viện tốt pyrtf-ng để xử lý RTF đa năng.

Đã trả lời ngày 26 tháng 8 năm 2009 lúc 21:01Aug 26, 2009 at 21:01

Vinay Sajipvinay Sajipcleg

92.6K14 Huy hiệu vàng174 Huy hiệu bạc184 Huy hiệu đồng5 gold badges34 silver badges50 bronze badges

2

Có thư viện tốt pyrtf-ng để xử lý RTF đa năng.

CLEGCLEG

4.7425 Huy hiệu vàng34 Huy hiệu bạc 50 Huy hiệu Đồng

Pyrtf-ng 0.9.1 đã không phân tích bất kỳ tài liệu RTF nào của tôi, cả hai đều có ParsingException. Tài liệu đầu tiên được tạo bằng OpenOffice 3.4, tên thứ hai với Mac Textedit.

Pyth 0.5.6 được phân tích cú pháp mà không có vấn đề gì cả về tài liệu, nhưng không xử lý các ký hiệu cyrillic đúng cách.

n611x007

Nhưng mỗi trình soạn thảo sẽ mở tài liệu trình chỉnh sửa của người khác một cách chính xác và không gặp rắc rối, vì vậy tất cả các thư viện dường như có hỗ trợ RTF yếu.7 gold badges58 silver badges97 bronze badges

Vì vậy, tôi đang viết trình phân tích cú pháp của riêng mình với Blackjack và Hookers.Aug 15, 2012 at 8:22

1

.

8.6907 Huy hiệu vàng58 Huy hiệu bạc97 Huy hiệu Đồng

Đã trả lời ngày 15 tháng 8 năm 2012 lúc 8:22Apr 24, 2015 at 8:24

Tôi vừa bắt gặp pyrtflib - không có nhiều tài liệu [bất kỳ] nào trên đó, đó là một trường hợp cài đặt nó và sau đó sử dụng hàm trợ giúp [] Inbuilt [] để tìm hiểu những gì có sẵn và mọi thứ làm gì.Blair

Phải nói rằng trong lần thử nghiệm nhỏ của tôi, chức năng rtf.rtf2html.gethtml [] của nó, nó đã đi đủ tốt. Tôi chưa thử chức năng RTF2TXT nhưng với bản chất đơn giản hơn là chuyển đổi RTF thành bản rõ thì nó sẽ làm tốt tôi mong đợi.12 bronze badges

1

Đã trả lời ngày 24 tháng 4 năm 2015 lúc 8:24

f = File.open['r.rtf','r']
 b=0
 p=false
 str = ''
 begin
    while [char = f.readchar]
        if char.chr=='{'
   b+=1 
   next
  end
        if char.chr=='}'
   b-=1 
   next
  end
  if char.chr=='\\'
   p=true
   next
  end
  if p==true && [char.chr==' ' or char.chr=='\n' or char.chr=='\t' or char.chr=='\r']
   p=false 
   next
  end
  if p==true && [char.chr=='\'']
#this is the source of my headaches. you need to read the code page from the header and encode this.
   p=false 
   str 2
  next if p
  str 

Chủ Đề