UTF-8 é o encoding mais utilizado no mundo na web, segundo o Google
Por: Thursday 8 May 2008 às 08:8
O Google anunciou dias atrás que já suporta as últimas atualizações feitas no Unicode, mais especificamente para o Unicode 5.1. Esta última atualização feita no Unicode trás mais de 100.000 caracteres incluindo atualizações de várias línguas árabes e asiáticas. Mas não precisa se preocupar em sair trocando o encoding do seu site que ele vai nos atender perfeitamente por muitos anos. Os novos encodings criados para a família Unicode serão utilizados inicialmente principalmente nos países que tiveram suas línguas incluídas, e os computadores que vão processar estes novos caracteres precisam ser atualizados para isso. Por isso o Google anunciou que já oferece suporte a esta nova atualização.

Segundo o Google, dezembro de 2007 foi um marco na web ao ser o primeiro mês em que o UTF-8 foi identificado como sendo o encoding mais utilizado na web no mundo (Veja gráfico), ultrapassando o US-ASCII e Latin-1/Windows-1252 (o famoso ISO8859-1) como sendo os mais populares até então. O mais curioso foi o pequeno engano cometido pelo Google ao chamar o gráfico de “crescimento do unicode na web” quando o título deveria ser “crescimento do UTF-8 na web”. O Unicode não é um encoding como o UTF-8. Unicode é uma família de encodings, como eu já escrevi anteriormente. O que o gráfico mostrado pelo Mark Davis no Oficial Google Blog mostra é o crescimento do encoding UTF-8, da família Unicode, que ainda tem o UTF-16 e o UTF-32 como membros. De qualquer maneira a notícia é boa e reflete vários benefícios, principalmente páginas mais leves por não precisar utilizar entities para representar caracteres acentuados de línguas latinas por exemplo. Se você não entende muito bem o que são charsets, encodings, UTF-8, etc, recomendo a leitura da minha clássica série de 5 artigos chamada Charsets e Encodings, publicada alguns anos atrás mas que ainda são muito atuais.
Este texto não pode ser copiado ou reproduzido em nenhum outro site na íntegra sem autorização do autor!. Mais detalhes sobre licença de uso aqui!



































# 1° Gustavo Ribeiro Thursday 8 May 2008 às 12:8 PM GMT
UTF-8 deveria ser obrigatório.
Já passei por vários problemas de fazer a estrutura em UTF-8 e BDs antigos em ISO-8859-1. resultado: caracteres inválidos :)
abs