Aveți un document PDF sau o imagine pe care doriți să o convertiți în text? Recent, cineva mi-a trimis un document prin poștă pe care trebuia să-l editez și să-l trimită cu corecții. Persoana nu a putut găsi o copie digitală, așa că am fost însărcinată să obțin toate textele în format digital.
Nu aveam de gând să petrec ore întregi, introducând totul înapoi, așa că am ajuns să fac o imagine frumoasă de înaltă calitate a documentului și apoi mi-am ars drumul printr-o grămadă de servicii OCR online pentru a vedea care mi-ar da cele mai bune rezultate.
În acest articol, voi trece prin câteva site-uri mele preferate pentru OCR, care sunt gratuite. Merită menționat faptul că majoritatea acestor site-uri furnizează un serviciu gratuit de bază și apoi au opțiuni plătite dacă doriți caracteristici suplimentare, cum ar fi imagini mai mari, documente PDF multiple, pagini de intrare diferite, etc.
De asemenea, este bine de știut în prealabil că majoritatea acestor servicii nu vor putea să se potrivească cu formatarea documentului dvs. original. Acestea sunt în principal pentru extragerea textului și asta este. Dacă aveți nevoie de tot pentru a fi într-un anumit aspect sau format, va trebui să faceți acest lucru manual odată ce veți obține tot textul din OCR.
În plus, cele mai bune rezultate pentru obținerea textului vor proveni din documente cu o rezoluție de la 200 la 400 DPI. Dacă aveți o imagine DPI scăzută, rezultatele nu vor fi la fel de bune.
În cele din urmă, au existat o mulțime de site-uri pe care le-am testat, care nu au funcționat. Dacă aveți Google gratuit OCR online, veți vedea o grămadă de site-uri, dar mai multe dintre site-urile din primele 10 rezultate nu au finalizat chiar conversia. Unii s-ar opri, alții ar da greșeli și unii tocmai s-au blocat pe pagina "conversie", așa că nici măcar n-am deranjat să menționez aceste site-uri.
Pentru fiecare site, am testat două documente pentru a vedea cât de bine ar fi rezultatul. Pentru testele mele, am folosit pur și simplu iPhone-ul meu 5S pentru a face o fotografie a ambelor documente și apoi le-a încărcat direct pe site-uri pentru conversie.
În cazul în care doriți să vedeți cum arată imaginile pe care le-am folosit pentru testul meu, le-am atașat aici: Test1 și Test2. Rețineți că acestea nu sunt versiunile de rezoluție completă a imaginilor preluate de la telefon. Am folosit imaginea de rezoluție completă când încărcați pe site-uri.
OnlineOCR.net este un site curat și simplu care a dat rezultate foarte bune în testul meu. Principalul lucru care îmi place este că nu are tone de anunțuri peste tot, ceea ce se întâmplă de obicei cu aceste tipuri de site-uri de servicii de nișă.
Pentru a începe, selectați fișierul și așteptați până la terminarea încărcării. Dimensiunea maximă de încărcare pentru acest site este de 100 MB. Dacă vă înregistrați pentru un cont gratuit, beneficiați de câteva funcții suplimentare, cum ar fi dimensiunea de încărcare mai mare, fișiere PDF pe mai multe pagini, limbi de intrare diferite, mai multe conversii pe oră etc.
Apoi, alegeți limba de introducere și apoi alegeți formatul de ieșire. Aveți posibilitatea să alegeți dintre Word, Excel sau Text simplu. Apasă pe Convertit și veți vedea textul afișat în partea inferioară a unei casete împreună cu un link de descărcare.
Dacă tot ce doriți este textul, copiați-l și lipiți-l din cutie. Cu toate acestea, vă sugerăm să descărcați documentul Word, deoarece face o lucrare surprinzător de bună de a păstra aspectul documentului original.
De exemplu, când am deschis documentul Word pentru al doilea test, am fost surprins să găsesc că documentul conținea un tabel cu trei coloane, la fel ca în imagine.
Dintre toate locațiile, acesta a fost cel mai bun de departe. Merită să te înregistrezi dacă ai nevoie de multe conversii.
Pentru completitudine, mă voi conecta, de asemenea, la fișierele de ieșire create de fiecare serviciu, astfel încât să puteți vedea rezultatele pentru dvs. Iată rezultatele de la OnlineOCR: Test1 Doc și Test2 Doc.
Rețineți că atunci când deschideți aceste documente Word pe computerul dvs., veți primi un mesaj în Word, care va spune că este din Internet, iar editarea a fost dezactivată. Acest lucru este perfect, deoarece Word nu are încredere în documentele de pe Internet și într-adevăr nu trebuie să activați editarea dacă doriți doar să vizualizați documentul.
Un alt site care a dat rezultate destul de bune a fost i2OCR. Procesul este foarte asemănător: alegeți limba, fișierul, apoi apăsați Extrageți textul.
Va trebui să așteptați un minut sau două pentru că acest site durează un pic mai mult. De asemenea, în pasul 2, asigurați-vă că imaginea dvs. este afișată în partea dreaptă în previzualizare, altfel veți obține o grămadă de gabberish ca ieșire. Din anumite motive, imaginile de pe iPhone-ul meu au fost afișate în modul portret pe computerul meu, dar peisaj atunci când am încărcat pe acest site.
A trebuit să deschid manual imaginea într-o aplicație de editare a fotografiilor, să o rotesc cu 90 de grade, apoi să o rotesc înapoi pe portret și să o salvez din nou. După finalizare, derulați în jos și vă va afișa o previzualizare a textului împreună cu un buton de descărcare.
Acest site a reușit destul de bine cu ieșirea pentru primul test, dar nu a făcut așa de bine cu cel de-al doilea test care a avut aspectul coloanei. Iată rezultatele de la i2OCR: Test1 Doc și Test2 Doc.
Free-OCR.com va prelua imaginile și le va converti în text simplu. Nu are opțiunea de a exporta în format Word. Alegeți fișierul, selectați o limbă și apoi faceți clic pe start.
Site-ul este rapid și veți obține ieșirea destul de repede. Doar faceți clic pe link pentru a descărca fișierul text pe computer.
Ca și în cazul NewOCR menționat mai jos, acest site valorifică toate documentele T din document. Nu am nici o idee de ce ar face asta, dar pentru un motiv ciudat acest site și NewOCR au făcut acest lucru. Nu este o afacere mare să o schimbi, dar este un proces obositor pe care nu trebuie să-l faci.
Iată rezultatele de la FreeOCR: Test1 Doc și Test2 Doc.
Pentru a utiliza FineReader Online, trebuie să vă înregistrați pentru un cont, care vă oferă o încercare gratuită de 15 zile pentru OCR de până la 10 pagini gratis. Dacă aveți nevoie doar de o singură dată pentru OCR pentru câteva pagini, puteți utiliza acest serviciu. Asigurați-vă că faceți clic pe linkul de verificare din e-mailul de confirmare după înregistrare.
Click pe Recunoaşte în partea de sus și apoi faceți clic pe Încărcați pentru a selecta fișierul. Alegeți limba, formatul de ieșire și apoi faceți clic pe Recunoaşte în partea de jos. Acest site are o interfață curată și nu și anunțuri.
În testele mele, acest site a reușit să preia textul din primul document de testare, dar a fost absolut enorm atunci când am deschis documentul Word, așa că am ajuns să o fac din nou și să aleg Text simplu ca format de ieșire.
Pentru cel de-al doilea test cu coloanele, documentul Word era gol și nici nu puteam găsi textul. Nu sunteți sigur ce sa întâmplat acolo, dar nu pare să fie capabil să rezolve nimic altceva decât simple paragrafe. Iată rezultatele de la FineReader: Test1 Doc și Test2 Doc.
Următorul site, NewOCR.com, a fost OK, dar nu este la fel de bun ca primul site. În primul rând, au anunțuri, dar din fericire nu o tonă. Selectați mai întâi fișierul dvs. și apoi faceți clic pe previzualizare buton.
Puteți apoi să rotiți imaginea și să reglați zona în care doriți să scanați textul. Este un fel de fel de fel de fel ca procesul de scanare funcționează pe un computer cu un scaner atașat.
Dacă documentul are mai multe coloane, puteți verifica Analiza aspectului paginii buton și va încerca să împartă textul în coloane. Faceți clic pe butonul OCR, așteptați câteva secunde pentru ca aceasta să se finalizeze, apoi derulați în jos până la partea de jos când pagina se actualizează.
În primul test, a primit tot textul corect, dar din anumite motive a capitalizat fiecare T în document! Nici o idee de ce ar face asta, dar a făcut-o. În cel de-al doilea test, cu analiza paginii activată, a primit cea mai mare parte a textului, dar aspectul a fost complet dezactivat.
Iată rezultatele de la NewOCR: Test1 Doc și Test2 Doc.
După cum puteți vedea, liberul nu vă dă, de cele mai multe ori, rezultate foarte bune din nefericire. Primul site menționat este cel mai bun, deoarece nu numai că a făcut o treabă excelentă de a recunoaște întregul text, dar a reușit să păstreze formatul documentului original.
Dacă aveți nevoie doar de text, majoritatea site-urilor de mai sus ar trebui să poată face acest lucru pentru dvs. Dacă aveți întrebări, nu ezitați să comentați. Bucurați-vă!