És prou conegut que hi ha moltes formes d'escriptura. Sense moure'ns d'Europa, hi trobem l'alfabet llatí, el grec i el ciríl·lic. A més, la major part de les llengües fa servir signes diacrítics, petits afegitons a les lletres ordinàries. El català, per exemple, fa servir l'accent greu, l'accent agut, la dièresi, la c trencada i el punt volat de la L geminada.
Inicialment els ordinadors treballaven només amb les majúscules de l'alfabet llatí, sense cap modificació ni addició, més uns quants símbols auxiliars. Posteriorment s'hi van afegir les minúscules. El 1967 el conjunt fou normalitzat amb el nom d'American Standard Code for Information Interchange (ASCII), i fou modificat diverses vegades fins a la darrera, el 1986.
La codificació ISO-8859-15 (o Latin-9 i, extraoficialment, Latin-0) és un conjunt de 256 codis, format pels 128 codis ASCII i per 128 codis més que cobreixen els diacrítics propis de moltes llengües que fan servir l'alfabet llatí, els signes de puntuació i una sèrie de símbols especials d'ús internacional, entre els quals el símbol de l'euro.
Els caràcter són especificats directament o bé mitjançant una seqüència de caràcters:
com es veurà en l'exemple.
Quan es fa servir aquesta codificació, cal especificar-ho en la primera línia del document:
i en un element META:
La codificació Unicode pretén abastar tots les llengües del món. Hi ha un consorci sense finalitat de lucre, on hi ha representats els principals productors de maquinari i de programari, que s'ocupa de la nova codificació i difusió d'aquesta. Els primers 256 caràcters d'aquest codi són els de la norma anterior. Estrictament parlant, la codificació Unicode i la norma ISO 10646 no són equivalents, però les diferències són molt menors.
Els caràcters també queden definits en format decimal o hexadecimal, com es veurà en l'exemple.
Si un document conté caràcters més enllà dels 256 primers de la norma ISO-8859-15; cal especificar:
i anàlogament en l'element META.
Un document amb aquesta especificació pot contenir lletres bàsiques sense modificar, codis Unicode o codis ISO-8879 - que veurem a continuació -; però no hauria de contenir caràcters llatins modificats.
A Internet hi ha repertoris d'Unicode; per exemple, a http://www.unicode.org/charts/.
Aquesta codificació representa els caràcters com un conjunt format pel signe &, un conjunt de lletres llatines ordinàries i el signe ;.
Alguns editors de documents HTML fan sistemàticament la conversió de tots els caràcters especials obtinguts directament del teclat a aquesta mena de codi, i així transformen el caràcter À en el seu codi Á; d'altres, mantenen la forma original. En un i altre cas el navegadors els interpreten correctament.
Els principals codis són els següents:
| < | < | |
| > | > | |
| & | & | |
| " | " | |
| | non-breaking space | |
| á | á | i anàlogament per a totes les vocals - inclosa la y, majúscules i minúscules, amb accent agut. |
| à | à | i anàlogament per a totes les vocals, majúscules i minúscules, amb accent greu. |
| ä | ä | i anàlogament per a totes les vocals - inclosa la y, majúscules i minúscules, amb dièresi. |
| ç | ç | i anàlogament per a la majúscula |
| ñ | ñ | i anàlogament per a les vocals portugueses amb titlla |
| ¿ | ¿ | |
| â | â | i anàlogament per a totes les vocals, majúscules i minúscules, amb accent circumflex. |
| · | · | punt volat. |
| € | € | |
| å | å | i anàlogament per a la majúscula. |
| æ | æ | i anàlogament per a la majúscula. |
| ð | ð | i anàlogament per a la majúscula. |
| þ | þ | i anàlogament per a la majúscula. |
| ß | ß | i anàlogament per a la majúscula. |
| ø | ø | i anàlogament per a la majúscula. |
Els símbols especials que formen part de les etiquetes HTML (>, <, & i ") s'escriuen preferentment mitjançant el codi quan formin part d'un text i no d'una etiqueta. El símbol & s'ha d'escriure sempre com &, fins i tot quan forma part dels paràmetres annexats a una URL.
És obligatori representar per l'espai en blanc quan volem acumular-ne més d'un. L'espai representat així té, a més, la propietat d'evitar el trencament de la línia pel punt on es troba (nbsp significa justament non-breaking space).
Els codis iso-8879 no constitueixen una codificació en el mateix sentit que l'iso-8859-15 o que l'Unicode. Si el conjunt dels caràcters del document queda inclòs en el grup dels 256 caràcters iso-8859-15, es pot referir el document a aquesta especificació; en cas contrari, cal referir-se a la utf-8.
Les lletres gregues es fan servir molt sovint en matemàtiques i en física. No formen part del conjunt ISO-8859-15, i per tant cal referir el document obligatòriament a utf-8. Podem obtenir-les aplicant la codificació anterior als noms de les lletres gregues segons la transcripció estàndard en alfabet llatí. Si la inicial és majúscula, obtindrem la majúscula; si la inicial és minúscula, obtindram la minúscula.
Així obtenim la Ξ mitjançant la seqüència Ξ, i l'α amb la seqüència α.
Un altre procediment és l'ús dels codis Symbol, que respon a una codificació pròpia. L'ús d'aquest codi presenta, però, dificultats amb alguns navegadors, tot i ésser recomanat per la W3C.
Amb els recursos anteriorment esmentats es poden cobrir les necessitats de moltes llengües. A Internet hi ha repertoris per a gran quantitat d'idiomes; vegeu, per exemple, el de Lars Törnqvist