ASCII, UTF-8, ISO-8859 ... S-ar putea să fi văzut acești ciudați ciudați care plutesc în jurul lor, dar ce înseamnă de fapt? Citește mai departe pe măsură ce explicăm ce este codificarea caracterelor și cum aceste acronime se referă la textul simplu pe care îl vedem pe ecran.
Când vorbim despre limbajul scris, vorbim despre scrisori care constituie blocurile de cuvinte, care apoi construiesc propoziții, paragrafe și așa mai departe. Scrisorile sunt simboluri care reprezintă sunete. Când vorbești despre limbă, vorbești despre grupuri de sunete care se întâlnesc pentru a forma un fel de sens. Fiecare sistem lingvistic are un set complex de reguli și definiții care guvernează aceste semnificații. Dacă aveți un cuvânt, este inutil dacă nu știți în ce limbă sunteți și îl folosiți cu alții care vorbesc limba respectivă.
(Compararea scripturilor Grantha, Tulu și Malayalam, Imagine de la Wikipedia)
În lumea computerelor, folosim termenul "caracter". Un personaj este un fel de concept abstract, definit de parametri specifici, dar este unitatea fundamentală de semnificație. Latinul "A" nu este același cu alfatul grecesc "alif" sau "aliful" arabil, deoarece au contexte diferite - sunt din limbi diferite și au pronunții ușor diferite - astfel încât putem spune că sunt caractere diferite. Reprezentarea vizuală a unui personaj este numită "ghilimă", iar diferite seturi de glife sunt numite fonturi. Grupurile de caractere aparțin unui "set" sau unui "repertoriu".
Când introduceți un paragraf și schimbați fontul, nu modificați valorile fonetice ale literelor, modificați modul în care acestea arată. Este doar cosmetică (dar nu lipsită de importanță!). Unele limbi, cum ar fi vechii egipteni și chinezi, au ideograme; acestea reprezintă idei întregi în loc de sunete, iar pronunțiile lor pot varia în timp și la distanță. Dacă înlocuiți un caracter cu altul, înlocuiți o idee. Este mai mult decât schimbarea literelor, schimba o ideogramă.
(Imagine de la Wikipedia)
Când introduceți ceva pe tastatură sau încărcați un fișier, cum arată computerul ce trebuie afișat? Asta este codificarea caracterului. Textul de pe computer nu este de fapt litere, este o serie de valori alfanumerice pereche. Codificarea caracterelor acționează ca o cheie pentru care valorile corespund acelor caractere, la fel cum ortografia dictează ce sunete corespund literelor. Codul Morse este un fel de codificare a caracterelor. Aceasta explică modul în care grupurile de unități lungi și scurte, cum ar fi semnale sonore, reprezintă caractere. În codul Morse, personajele sunt doar litere, numere și opriri în engleză. Există multe codificări ale caracterelor de calculator care se traduc în litere, numere, semne de accent, semne de punctuație, simboluri internaționale și așa mai departe.
Adesea, pe această temă este folosit și termenul "pagini de cod". Acestea sunt codificări de caractere, în esență, utilizate de anumite companii, adesea cu mici modificări. De exemplu, pagina de cod Windows 1252 (cunoscută anterior ca ANSI 1252) este o formă modificată a standardului ISO-8859-1. Ele sunt utilizate în principal ca sistem intern pentru a face referire la codificări de caractere standard și modificate care sunt specifice acelorași sisteme. La început, codificarea caracterului nu a fost atât de importantă, deoarece computerele nu au comunicat între ele. Odată ce internetul se ridică la proeminență și rețeaua este o întâlnire obișnuită, ea a devenit o importanță din ce în ce mai importantă a vieții noastre de zi cu zi, fără să o realizăm.
(Imagine de la sarah sosiak)
Există numeroase codificări de caractere diferite și există o mulțime de motive pentru asta. Codificarea caracterului pe care alegeți să o utilizați depinde de necesitățile dvs. Dacă comunicați în limba rusă, este logic să folosiți o codificare a caracterelor care suportă bine chirilicul. Dacă comunicați în coreeană, atunci veți dori ceva care să reprezinte bine Hangul și Hanja. Dacă sunteți un matematician, atunci doriți ceva care are toate simbolurile științifice și matematice reprezentate bine, precum și grefele grecești și latine. Dacă sunteți un prankster, poate veți beneficia de textul cu capul în jos. Și dacă doriți ca toate aceste tipuri de documente să fie vizualizate de orice persoană dată, doriți o codificare destul de obișnuită și ușor accesibilă.
Să aruncăm o privire la unele dintre cele mai comune.
(Extras din tabelul ASCII, Imagine de la asciitable.com)
(Extras din scriptul tibetan, Unicode v4, de la unicode.org)
ASCII funcționează pentru cei mai mulți vorbitori de engleză, dar nu pentru altceva. Mai des veți vedea ISO-8859-1, care funcționează pentru majoritatea limbilor occidentale. Celelalte versiuni ale ISO-8859 funcționează pentru script-uri chirilice, arabe, grecești sau altele. Cu toate acestea, dacă doriți să afișați mai multe scripturi în același document sau pe aceeași pagină web, UTF-8 permite o compatibilitate mult mai bună. De asemenea, funcționează foarte bine pentru persoanele care utilizează semne de punctuație, simboluri matematice sau personaje extra-cuff, cum ar fi pătrate și casete de selectare.
(Mai multe limbi într-un singur document, Imagine de pe gujaratsamachar.com)
Există însă dezavantaje pentru fiecare set. ASCII este limitat în semnele de punctuație, deci nu funcționează incredibil de bine pentru editări corecte tipografic. Copie / paste de la vreun tip din Word numai pentru a avea o combinație ciudată de glife? Acesta este dezavantajul ISO-8859, sau mai corect, presupusa inter-operabilitate cu paginile de cod specifice OS-ului (vă uităm la tine, Microsoft!). Principalul dezavantaj al UTF-8 este lipsa suportului adecvat în editarea și publicarea aplicațiilor. O altă problemă este faptul că browserele nu interpretează adesea și doar afișează marca de ordine a octeților unui caracter codificat UTF-8. Acest lucru duce la afișarea de glifuri nedorite. Și bineînțeles, declararea unei codări și folosirea de caractere de la alta fără a le declara / referenți în mod corespunzător pe o pagină web îi face dificil pe browsere să le facă corect și pentru motoarele de căutare să le indexeze în mod corespunzător.
Pentru propriile documente, manuscrise și așa mai departe, puteți folosi tot ce aveți nevoie pentru a vă face treaba. În ceea ce privește internetul, se pare că majoritatea oamenilor sunt de acord cu utilizarea unei versiuni UTF-8 care nu utilizează o marcă de comandă octet, dar aceasta nu este în întregime unanimă. După cum puteți vedea, fiecare codificare a caracterelor are propria sa utilizare, context, puncte forte și puncte slabe. În calitate de utilizator final, probabil că nu va trebui să vă ocupați de acest lucru, dar acum puteți face un pas înainte înainte dacă alegeți acest lucru.