Hướng dẫn python rich text to plain text - văn bản phong phú python thành văn bản thuần túy

Lý tưởng nhất là tôi muốn một mô -đun hoặc thư viện không yêu cầu truy cập siêu người dùng để cài đặt; Tôi có các đặc quyền hạn chế trong môi trường làm việc của mình.

Hỏi ngày 26 tháng 8 năm 2009 lúc 20:56Aug 26, 2009 at 20:56

Hướng dẫn python rich text to plain text - văn bản phong phú python thành văn bản thuần túy

2

Tôi đã làm việc trên một thư viện có tên Pyth, có thể làm điều này:

http://pypi.python.org/pypi/pyth/

Chuyển đổi tệp RTF thành Plaintext trông giống như thế này:

from pyth.plugins.rtf15.reader import Rtf15Reader
from pyth.plugins.plaintext.writer import PlaintextWriter

doc = Rtf15Reader.read(open('sample.rtf'))

print PlaintextWriter.write(doc).getvalue()

Pyth cũng có thể tạo các tệp RTF, đọc và ghi XHTML, tạo tài liệu từ Python Markup a La Nevow's Stan và có hạn chế hỗ trợ thử nghiệm cho đầu ra latex và PDF. Hỗ trợ RTF của nó khá mạnh mẽ - chúng tôi sử dụng nó trong sản xuất để đọc các tệp RTF được tạo bởi các phiên bản khác nhau của Word, OpenOffice, Mac Textedit, Eioffice và các phiên bản khác.

Đã trả lời ngày 30 tháng 11 năm 2009 lúc 18:07Nov 30, 2009 at 18:07

BrendonbrendonBrendon

7567 Huy hiệu bạc8 Huy hiệu Đồng7 silver badges8 bronze badges

3

OpenOffice có một đầu đọc RTF. Bạn có thể sử dụng Python để script OpenOffice, xem ở đây để biết thêm thông tin.

Bạn có thể thử sử dụng đối tượng com ma thuật trên Windows để đọc bất cứ thứ gì có mùi ms. Tôi sẽ không đề nghị điều đó mặc dù.

Trên thực tế, phân tích dữ liệu thô có thể sẽ không khó, hãy xem ví dụ này được viết bằng .bat/qbasic.

DocFrac là một bộ chuyển đổi nguồn mở miễn phí betweeen rtf, html và văn bản. Các nền tảng Windows, Linux, ActiveX và DLL có sẵn. Nó có thể sẽ khá dễ dàng để bọc nó trong Python.

RTF :: Text :: Bộ chuyển đổi - Tiện ích mở rộng Perl để chuyển đổi RTF thành văn bản. (trong trường hợp bạn có vấn đề với Docfrac).

Thông số kỹ thuật định dạng văn bản phong phú (RTF) chính thức, phiên bản 1.7, bởi Microsoft.

Chúc may mắn (với các đặc quyền hạn chế trong môi trường làm việc của bạn).

Đã trả lời ngày 26 tháng 8 năm 2009 lúc 22:10Aug 26, 2009 at 22:10

Paweł Polewiczpaweł PolewiczPaweł Polewicz

3.6612 Huy hiệu vàng19 Huy hiệu bạc24 Huy hiệu đồng2 gold badges19 silver badges24 bronze badges

5

Nếu bạn đang ở trên Mac, bạn có thể chuyển đổi tệp RTF file.rtf thành TXT từ CLI như:

textutil -convert txt file.rtf

Đã trả lời ngày 3 tháng 8 năm 2019 lúc 18:32Aug 3, 2019 at 18:32

Hướng dẫn python rich text to plain text - văn bản phong phú python thành văn bản thuần túy

Franco Piccolofranco PiccoloFranco Piccolo

6.1936 huy hiệu vàng28 Huy hiệu bạc49 Huy hiệu đồng6 gold badges28 silver badges49 bronze badges

Bạn đã kiểm tra pyrtf-ng?

CẬP NHẬT: Chức năng phân tích cú pháp có sẵn nếu bạn thực hiện kiểm tra Subversion, nhưng tôi không chắc nó có tính năng đầy đủ như thế nào. (Nhìn vào mô -đun rtfng.parser.base.) The parsing functionality is available if you do a Subversion checkout, but I'm not sure how full-featured it is. (Look in the rtfng.parser.base module.)

Đã trả lời ngày 26 tháng 8 năm 2009 lúc 21:01Aug 26, 2009 at 21:01

Vinay Sajipvinay SajipVinay Sajip

92.6K14 Huy hiệu vàng174 Huy hiệu bạc184 Huy hiệu đồng14 gold badges174 silver badges184 bronze badges

Có thư viện tốt pyrtf-ng để xử lý RTF đa năng.

Đã trả lời ngày 26 tháng 8 năm 2009 lúc 21:01Aug 26, 2009 at 21:01

Vinay Sajipvinay Sajipcleg

92.6K14 Huy hiệu vàng174 Huy hiệu bạc184 Huy hiệu đồng5 gold badges34 silver badges50 bronze badges

2

Có thư viện tốt pyrtf-ng để xử lý RTF đa năng.

CLEGCLEG

4.7425 Huy hiệu vàng34 Huy hiệu bạc 50 Huy hiệu Đồng

Pyrtf-ng 0.9.1 đã không phân tích bất kỳ tài liệu RTF nào của tôi, cả hai đều có ParsingException. Tài liệu đầu tiên được tạo bằng OpenOffice 3.4, tên thứ hai với Mac Textedit.

Pyth 0.5.6 được phân tích cú pháp mà không có vấn đề gì cả về tài liệu, nhưng không xử lý các ký hiệu cyrillic đúng cách.

n611x007

Nhưng mỗi trình soạn thảo sẽ mở tài liệu trình chỉnh sửa của người khác một cách chính xác và không gặp rắc rối, vì vậy tất cả các thư viện dường như có hỗ trợ RTF yếu.7 gold badges58 silver badges97 bronze badges

Vì vậy, tôi đang viết trình phân tích cú pháp của riêng mình với Blackjack và Hookers.Aug 15, 2012 at 8:22

1

.

8.6907 Huy hiệu vàng58 Huy hiệu bạc97 Huy hiệu Đồng

Đã trả lời ngày 15 tháng 8 năm 2012 lúc 8:22Apr 24, 2015 at 8:24

Tôi vừa bắt gặp pyrtflib - không có nhiều tài liệu (bất kỳ) nào trên đó, đó là một trường hợp cài đặt nó và sau đó sử dụng hàm trợ giúp () Inbuilt () để tìm hiểu những gì có sẵn và mọi thứ làm gì.Blair

Phải nói rằng trong lần thử nghiệm nhỏ của tôi, chức năng rtf.rtf2html.gethtml () của nó, nó đã đi đủ tốt. Tôi chưa thử chức năng RTF2TXT nhưng với bản chất đơn giản hơn là chuyển đổi RTF thành bản rõ thì nó sẽ làm tốt tôi mong đợi.12 bronze badges

1

Đã trả lời ngày 24 tháng 4 năm 2015 lúc 8:24

f = File.open('r.rtf','r')
 b=0
 p=false
 str = ''
 begin
    while (char = f.readchar)
        if char.chr=='{'
   b+=1 
   next
  end
        if char.chr=='}'
   b-=1 
   next
  end
  if char.chr=='\\'
   p=true
   next
  end
  if p==true && (char.chr==' ' or char.chr=='\n' or char.chr=='\t' or char.chr=='\r')
   p=false 
   next
  end
  if p==true && (char.chr=='\'')
#this is the source of my headaches. you need to read the code page from the header and encode this.
   p=false 
   str << '#'
   next
  end
  next if b>2
  next if p
  str << char.chr
    end
rescue EOFError
end
f.close

BlairblairOct 15, 2009 at 17:22

1

15412 Huy hiệu Đồng

from rtflib import *
file = RTF("helloworld.rtf")
file.startfile()
file.addstrict()
file.addtext("hello world")
file.writeout()

Tôi đã gặp phải điều tương tự, tôi đang cố gắng tự mã hóa nó. Nó không dễ dàng như vậy nhưng đây là những gì tôi đã có khi tôi quyết định truy cập một ứng dụng lệnh. Ruby của nó nhưng bạn có thể thích nghi với Python rất dễ dàng. Có một số rác tiêu đề để dọn dẹp, nhưng bạn có thể thấy ít nhiều ý tưởng.Jun 15, 2011 at 5:55

0

Là văn bản đơn giản RTF?

Tệp RTF là gì. Đây là định dạng tệp tài liệu đa nền tảng với khả năng điều chỉnh văn bản tốt hơn các tệp văn bản đơn giản. Định dạng tệp này cho phép người dùng thực hiện một số tác vụ định dạng, chẳng hạn như kích thước phông chữ và màu sắc, in đậm, in nghiêng và các tác phẩm khác.This is a cross-platform document file format with better text adjustability than plain text files. This file format allows the user to perform several formatting tasks, such as font sizes and colors, bolding, italics, and others.

Sự khác biệt giữa văn bản phong phú và văn bản thuần túy là gì?

Khi bạn muốn tạo một tài liệu, hai định dạng quan trọng để xem xét là văn bản phong phú và văn bản thuần túy.Văn bản phong phú cho phép bạn bao gồm một loạt các tính năng trực quan, trong khi văn bản thuần túy giữ cho tài liệu của bạn đơn giản về mặt phong cách và cung cấp một vài tùy chọn tùy chỉnh.Rich text allows you to include a variety of visual features, while plain text keeps your document stylistically simple and offers few customization options.

Sự khác biệt giữa văn bản đơn giản và định dạng và RTF và HTML là gì?

Nếu bạn cần chức năng nâng cao với các tùy chọn kiểu dáng linh hoạt hoặc bạn muốn sử dụng chữ ký email ưa thích, hãy sử dụng định dạng HTML.Nếu bạn chỉ tìm kiếm các tùy chọn văn bản có thể điều chỉnh, chẳng hạn như chữ nghiêng hoặc in đậm, hãy sử dụng định dạng văn bản phong phú.Khi bạn chỉ muốn văn bản và không có tùy chọn nào khác, bạn có thể sử dụng định dạng văn bản đơn giản.

Dữ liệu văn bản phong phú là gì?

Văn bản phong phú là gì?Văn bản phong phú là văn bản được định dạng với các tùy chọn định dạng phổ biến, chẳng hạn như in đậm và in nghiêng, không có sẵn với văn bản thuần túy.Bạn định dạng dữ liệu của mình bằng cách sử dụng các công cụ định dạng phổ biến, chẳng hạn như ruy băng và thanh công cụ mini.text that is formatted with common formatting options, such as bold and italics, that are unavailable with plain text. You format your data by using common formatting tools, such as the Ribbon and the Mini Toolbar.