If-Koubou

Cum pot copia textul dintr-un PDF în timp ce păstrez formatul?

Cum pot copia textul dintr-un PDF în timp ce păstrez formatul? (Cum să)

PDF, formatul documentului omniprezent, este excelent pentru partajarea documentelor în timp ce se păstrează fonturile, imaginile și aspectul general pe platforme. Există însă o modalitate ușoară de a păstra acea foarte formatare atunci când copiați și lipiți textul din document?

Sesiunea de întrebări și răspunsuri din ziua de astăzi vine de la amabilitatea SuperUser - o subdiviziune a Stack Exchange, o grupare bazată pe comunitate a site-urilor Q & A.

Intrebarea

Editorul SuperUser Colen caută o modalitate de a extrage textul din PDF-uri în timp ce păstrează formatul:

Când copiez text dintr-un fișier PDF și într-un editor de text, acesta se sfârșește în mod diferit. Formatarea cu caractere aldine și cursive este pierdută; rupturile liniei moi într-un paragraf de text sunt convertite în linii de rupere dure; liniuțele pentru a rupe un cuvânt pe două rânduri sunt păstrate chiar și atunci când nu ar trebui să fie; iar citatele unice și duble sunt înlocuite cu? semne.

În mod ideal, aș dori să pot copia textul dintr-un PDF și să fi transformat formatarea în coduri HTML, "citate inteligente" convertite în "și" și pauze de linie executate corect. Există vreo modalitate de a face asta?

Există o cale rapidă și ușoară pentru Colen (și pentru restul dintre noi) pentru a obține textul fără a sacrifica formatarea?

Răspunsul

Contribuitorul SuperUser Frabjous oferă o soluție combinată cu o doză mare de precauție:

În primul rând, trebuie să înțelegeți ce este un PDF. PDF-urile sunt concepute astfel încât să imite o pagină imprimată și sunt proiectate doar ca format de ieșire, nu ca format de intrare. un PDF este în principiu o hartă care conține locația exactă a caracterelor (litere individuale sau punctuație etc.) sau imagini. În cele mai multe cazuri, un PDF nu stochează nici măcar informații despre locul în care se termină un cuvânt și altul începe, cu atât mai puțin lucruri precum pauze moi sau pauze dure pentru terminațiile paragrafelor.

(Câteva PDF-uri recente stochează unele informații despre aceste lucruri, dar aceasta este o tehnologie nouă și ați fi norocoși să găsiți PDF-uri de genul ăsta. Chiar dacă ați făcut-o, vizualizatorul dvs. PDF ar putea să nu știe despre el.)

Oricum, este de datoria software-ului tău să implementeze un fel de "inteligență artificială" pentru a extrage numai din locațiile personajelor individuale ceea ce este un cuvânt, ce este un paragraf și așa mai departe. Software-ul diferit va face acest lucru mai bine decât altele și va depinde și de modul în care a fost realizat PDF-ul. În orice caz, nu trebuie să așteptați niciodată rezultate perfecte. Având PDF-ul de ieșire nu este același lucru cu documentul sursă. Este mai bine să încercați să obțineți acest lucru dacă puteți.

Soluția standard pentru problema dvs. este de a folosi Adobe Acrobat Professional (cel scump, nu cititorul liber) pentru a converti PDF-ul în HTML. Chiar și asta nu va obține rezultate perfecte.

Există software liber care poate fi folosit pentru a extrage textul din PDF-uri cu unele de formatare intact, dar din nou, nu vă așteptați la rezultate perfecte. A se vedea, de exemplu, calibrul (care poate converti în format RTF), pdftohtml / pdfreflow sau procesorul de text AbiWord (cu toate pluginurile de import / export activate). Există, de asemenea, un plugin de import PDF pentru OpenOffice.

Dar vă rog să nu vă așteptați la perfecțiune cu niciunul din aceste rezultate. Te duci împotriva cerealelor aici. PDF-ul nu este doar un format de intrare editabil.

Dacă aveți dificultăți în a decide cu ce instrument să începeți, Caliber este un adevărat document cuțit elvețian. Puteți, de asemenea, să-l utilizați pentru a converti fișiere PDF pentru utilizare pe cititorul de cărți electronice și pentru a vă organiza biblioteca de cărți electronice / de documente.

Aveți ceva de adăugat la explicație? Sunați în comentariile. Doriți să citiți mai multe răspunsuri de la alți utilizatori de tehnologie Stack Exchange? Check out discuția completă aici.