If-Koubou

Extrageți textul din fișiere PDF și imagine

Extrageți textul din fișiere PDF și imagine (Descărcare gratuită de software)

Aveți un document PDF de care doriți să extrageți întregul text? Ce se întâmplă cu fișierele imagine ale unui document scanat pe care doriți să îl convertiți în text editabil? Acestea sunt câteva dintre cele mai frecvente probleme pe care le-am văzut la locul de muncă atunci când lucrez cu fișiere.

În acest articol, voi vorbi despre câteva moduri diferite în care puteți încerca să extrageți text dintr-un PDF sau dintr-o imagine. Rezultatele dvs. de extracție vor varia în funcție de tipul și calitatea textului din PDF sau imagine. De asemenea, rezultatele dvs. vor varia în funcție de instrumentul pe care îl utilizați, deci este mai bine să încercați cât mai multe dintre opțiunile de mai jos pentru a obține cele mai bune rezultate.

Extrage text din imagine sau PDF

Cea mai simplă și mai rapidă modalitate de a începe este să încercați un serviciu online de extragere a textului PDF. Acestea sunt, în mod normal, gratuite și vă pot oferi exact ceea ce căutați fără să trebuiască să instalați nimic pe computer. Iată două pe care le-am folosit cu rezultate foarte bune până la rezultate excelente:

ExtractPDF

ExtractPDF este un instrument gratuit pentru a capta imagini, texte și fonturi dintr-un fișier PDF. Singura limitare este că dimensiunea maximă pentru fișierul PDF este de 10 MB. E un pic mic; deci dacă aveți un fișier mai mare, încercați unele dintre celelalte metode de mai jos. Alegeți fișierul dvs. și apoi faceți clic pe Trimite fișier buton. Rezultatele sunt în mod normal foarte rapide și ar trebui să vedeți o previzualizare a textului când faceți clic pe fila Text.

Este, de asemenea, un avantaj frumos adăugat că extrage imagini din fișierul PDF prea, doar în cazul în care aveți nevoie de acestea! În ansamblu, instrumentul online funcționează excelent, dar am parcurs câteva documente PDF care îmi dau o ieșire amuzantă. Textul este extras foarte bine, dar din anumite motive va avea o ruptură după fiecare cuvânt! Nu este o problemă uriașă pentru un fișier PDF scurt, dar cu siguranță o problemă pentru fișiere cu mult text. Dacă vi se întâmplă acest lucru, încercați următorul instrument.

OCR online

OCR online a avut de obicei tendința de a lucra pentru documentele care nu au fost convertite corespunzător cu ExtractPDF, deci este o idee bună să încercați ambele servicii pentru a vedea care dintre ele vă oferă rezultate mai bune. OCR on-line are, de asemenea, unele caracteristici mai frumoase, care se pot dovedi utile oricui, cu un fișier PDF mare, care are nevoie doar de a converti text pe câteva pagini, mai degrabă decât întregul document.

Primul lucru pe care doriți să-l faceți este să continuați și să creați un cont gratuit. Este un pic enervant, dar dacă nu creați contul gratuit, va converti doar parțial PDF-ul dvs., nu întregul document. De asemenea, în loc să puteți încărca doar un document de 5 MB, puteți încărca până la 100 MB pe fișier cu un cont.

Mai întâi, alegeți o limbă și apoi alegeți tipul de formate de ieșire pe care le-ați dori pentru fișierul convertit. Aveți câteva opțiuni și puteți alege mai mult de unul dacă doriți. Sub Document multi-pag, puteți selecta Numărul paginilor apoi alegeți numai paginile pe care doriți să le convertiți. Apoi selectați fișierul și faceți clic pe Convertit!

După conversie, veți fi aduși în secțiunea Documente (dacă sunteți conectat), unde puteți vedea câte pagini gratuite disponibile și link-uri pentru a descărca fișierele convertite. Se pare că aveți doar 25 de pagini gratuit pe zi, deci dacă aveți nevoie de mai mult de atât, va trebui să așteptați un pic sau să cumpărați mai multe pagini.

OCR online a făcut o treabă excelentă de conversie a fișierelor PDF, deoarece a reușit să mențină aspectul actual al textului. În testul meu, am luat un doc Word care folosea gloanțe, dimensiuni diferite de caractere, etc și a transformat-o într-un PDF. Apoi am folosit OCR online pentru ao converti în format Word și a fost de aproximativ 95% la fel ca originalul. Asta e destul de impresionant pentru mine.

În plus, dacă doriți să transformați o imagine în text, atunci OCR online poate face acest lucru la fel de ușor ca extragerea textului din fișiere PDF.

Gratuit OCR online

Din moment ce vorbea despre imagine în text OCR, permiteți-mi să menționez un alt site bun care funcționează foarte bine pe imagini. OCR gratuit online a fost foarte bun și foarte precis atunci când extrag text din imaginile testului meu. Am luat câteva fotografii din iPhone-ul meu de pagini din cărți, broșuri, etc și am fost surprins de cât de bine a fost capabil de a converti textul.

Alegeți fișierul dvs. și apoi faceți clic pe butonul Încărcați. În ecranul următor, există câteva opțiuni și o previzualizare a imaginii. Poți să-l prindă dacă nu vrei să scrii totul. Apoi, dați clic pe butonul OCR și textul dvs. convertit va apărea sub previzualizarea imaginii. De asemenea, nu are nici o limitare, ceea ce este foarte frumos.

În plus față de serviciile online, există două convertoare PDF gratuite pe care vreau să le menționez în cazul în care aveți nevoie de software care rulează local pe computer pentru a efectua conversiile. Cu serviciile online, veți avea întotdeauna nevoie de o conexiune la Internet și acest lucru nu este posibil pentru toată lumea. Cu toate acestea, am observat că calitatea conversiilor din programele freeware a fost mult mai slabă decât cea a site-urilor web.

A-PDF Text Extractor

A-PDF Text Extractor este un program freeware care face o treabă destul de bună de extragere a textului din fișiere PDF. Odată ce o descărcați și o instalați, faceți clic pe butonul Deschidere pentru a alege fișierul PDF. Apoi faceți clic pe Extragere text pentru a începe procesul.

Acesta vă va cere o locație pentru a stoca fișierul de ieșire text și apoi va începe extragerea. De asemenea, puteți da clic pe Opțiune care vă permite să alegeți numai anumite pagini de extras și tipul de extragere. A doua opțiune este interesantă, deoarece extrage textul în diferite machete și merită să încercați toate cele trei pentru a vedea care dintre cele care vă oferă cea mai bună performanță.

PDF2Text Pilot

PDF2Text Pilot face o lucrare ok de extragere a textului. Nu are opțiuni; trebuie doar să adăugați fișiere sau foldere, să convertiți și să sperați pentru cele mai bune. A funcționat bine pe unele fișiere PDF, dar pentru majoritatea acestora au existat numeroase probleme.

Doar faceți clic pe Adăugați fișiere și apoi faceți clic pe Convertit. După finalizarea conversiei, dați clic pe Răsfoiți pentru a deschide fișierul. Kilometrajul va varia în funcție de acest program, deci nu vă așteptați prea mult.

De asemenea, merită menționat faptul că, dacă vă aflați într-un mediu corporativ sau puteți obține mâna pe o copie a Adobe Acrobat de la locul de muncă, atunci puteți obține într-adevăr rezultate mult mai bune. Acrobat nu este în mod evident gratuit, dar are opțiuni pentru a converti PDF în Word, Excel și în format HTML. De asemenea, are cea mai bună sarcină de a menține structura documentului original și de a transforma textul complicat.