Web standards, arquitetura da informação, usabilidade, acessibilidade, tecnologia, filosofia de buteco (sic), e qualquer coisa em uma casca de noz!

Ir direto para o conteúdo

UTF-8 é o encoding mais utilizado no mundo na web, segundo o Google

Por: Henrique Costa Pereira

Quinta-feira 08 Maio 2008 às 08:26

Categoria: HTML / CSS / JavaScript

O Google anunciou dias atrás que já suporta as últimas atualizações feitas no Unicode, mais especificamente para o Unicode 5.1. Esta última atualização feita no Unicode trás mais de 100.000 caracteres incluindo atualizações de várias línguas árabes e asiáticas. Mas não precisa se preocupar em sair trocando o encoding do seu site que ele vai nos atender perfeitamente por muitos anos. Os novos encodings criados para a família Unicode serão utilizados inicialmente principalmente nos países que tiveram suas línguas incluídas, e os computadores que vão processar estes novos caracteres precisam ser atualizados para isso. Por isso o Google anunciou que já oferece suporte a esta nova atualização.

Gráfico que mostra o declínio dos charsets ASCII, ISO8859-1, Chinese, Japonese e mostra o crescimento do UTF-8

Segundo o Google, dezembro de 2007 foi um marco na web ao ser o primeiro mês em que o UTF-8 foi identificado como sendo o encoding mais utilizado na web no mundo (Veja gráfico), ultrapassando o US-ASCII e Latin-1/Windows-1252 (o famoso ISO8859-1) como sendo os mais populares até então. O mais curioso foi o pequeno engano cometido pelo Google ao chamar o gráfico de “crescimento do unicode na web” quando o título deveria ser “crescimento do UTF-8 na web”. O Unicode não é um encoding como o UTF-8. Unicode é uma família de encodings, como eu já escrevi anteriormente. O que o gráfico mostrado pelo Mark Davis no Oficial Google Blog mostra é o crescimento do encoding UTF-8, da família Unicode, que ainda tem o UTF-16 e o UTF-32 como membros. De qualquer maneira a notícia é boa e reflete vários benefícios, principalmente páginas mais leves por não precisar utilizar entities para representar caracteres acentuados de línguas latinas por exemplo. Se você não entende muito bem o que são charsets, encodings, UTF-8, etc, recomendo a leitura da minha clássica série de 5 artigos chamada Charsets e Encodings, publicada alguns anos atrás mas que ainda são muito atuais.

Artigos relacionados:

Este texto não pode ser copiado ou reproduzido em nenhum outro site na íntegra sem autorização do autor!. Mais detalhes sobre licença de uso aqui!



Existem 19 comentários para “UTF-8 é o encoding mais utilizado no mundo na web, segundo o Google”

# 1° Gustavo Ribeiro Quinta-feira 08 Maio 2008 às 12:08GMT

UTF-8 deveria ser obrigatório.
Já passei por vários problemas de fazer a estrutura em UTF-8 e BDs antigos em ISO-8859-1. resultado: caracteres inválidos :)

abs

# 2° Alexander Quinta-feira 08 Maio 2008 às 12:43GMT

Use UTF-8 em quase todos os meus projetos.
Não tem coisa melhor…

# 3° Vitor Quinta-feira 08 Maio 2008 às 18:05GMT

Boa noite Henrique.

Poderia explicar melhor como as páginas ficariam mais leves?
Em arquivos idênticos, um codificado em UTF-8 e o outro em ISO-8859-1, o que foi codificado em UNICODE fica maior sempre.

# 4° João Rodrigo Moreira Sexta-feira 09 Maio 2008 às 08:55GMT

Realmente ficar declarando entities é exercício de paciência. Sugiro um artigo de como fazer para migrar para UTF-8, incluindo setar as configurações no banco, servidor, interpretador(php) etc.

# 5° Alexsander Sexta-feira 09 Maio 2008 às 16:58GMT

Vitor

Ficam mais leves porque “ação” em Unicode, apesar de ser maior que “ação” em LATIN1, ainda é menor que “ação”.

# 6° Alexsander Sexta-feira 09 Maio 2008 às 17:00GMT

A palavra “ação” com entities fica “a-&-c-c-e-d-i-l-;-&-a-t-i-l-d-e-;-o” sem os hífens. No post anterior isso não ficou claro.

# 7° Marcos Sexta-feira 09 Maio 2008 às 17:03GMT

Vitor,
A idéia é que fica mais leve do que o ASCII puro, que era o mais utilizado, e não que o 8859-1. Neste caso para você fazer as acentuações tinha que usar coisas como ´ ç

Quanto ao 8859-1 não há diferença significativa de tamanho.
Agora o UTF8 é mais abrangente que o 8859-1,e por isso que ele foi recomendado e não o 8859-1.

# 8° Capivara Sábado 10 Maio 2008 às 18:07GMT

Pode ter certeza:
Mais dia menos dia tu ainda te incomodarás com enconding.
Seja pq o padrão que o servidor do aplicativo será diferente do padrão que utilizas, seja pq utilizarás AJAX.

Mas confesso que decepcionei com o aviso de publicação acima: sem a permissão do autor não se pode propagá-lo. Uma lástima não poder usá-lo em meu blog….

# 9° Carla Bergamo Sábado 10 Maio 2008 às 20:46GMT

Desculpe Henrique,

Sou desenvolvedora web e não conheço motivos razoaveis para usar UTF-8 em meus projetos. Faço questão de difundir que ISO-8859-1 é a melhor escolha devido a não requerer o uso de entitly no HTML e outros caracteres especiais codificados. Não conheço limitações de user-agents sobre esse charset desde que enviado corretamente pelo servidor. Para nós que desenvolvemos em bloco de notas usar unicode é um horror pois aí seus acentos inseridos diretamente no HTML ficará “tudo errado”.

Eu escrevo e leio em português, porque inventar moda de trocar “á” para “aacute” ?

# 10° Andre Lima Domingo 11 Maio 2008 às 00:11GMT

Henrique,

Comecei a ler ontem a sua série de post’s falando sobre charsets e enconding e achei bem interessante!

Eu participo de uma lista sobre xhtml e afins e volta e meias as pessoas tem essa dúvida!

Eu ainda não terminei de ler… mas o ideal não é só ler uma vez, mesmo pq o conteúdo é bem abrangente.

Recomendo a todos a leitura! O post tá bem caprichado!

[]´s

Andre Lima

# 11° Marcus Aurelius Domingo 11 Maio 2008 às 01:51GMT

@Carla Bergamo:

Acho que você confundiu UTF-8 com outra coisa. Pra usar UTF-8 é só digitar “á” normalmente e pedir para os programas que você estiver usando salvarem e interpretarem os arquivos como UTF-8. Não é necessário escrever aacute. Se o navegador mostrar o “á” como “á”, é só colocar um “meta http-equiv” indicando que a codificação é UTF-8 e pronto.

# 12° Alexander Blagus Quarta-feira 14 Maio 2008 às 15:36GMT

One encoding to rule then all

# 13° Alexandre Quarta-feira 29 Outubro 2008 às 02:07GMT

Muito boa essa técnica, mas estou tendo problemas com ela. Ao usar todos os acentos que estao no HTML renderizão normalmente, mas os textos que vêm do banco de dados nao estao renderizando e estao mostrando codigos no browser.

Já existe uma tecnica pra isso tb?

me manda um email se tiver, e desde ja grato pela informação que colhi no seu blog.

# 14° Fabrício Oliveira Terça-feira 03 Março 2009 às 01:59GMT

Estou com o mesmo problema do usuário acima, #15 Alexandre.
Já setei o collation e o charset do bd para utf8 tbm, e não consigo fazer com que os dados do bd venham como utf8. Se puder me ajudar fico grato. Obrigado!

# 15° bruno rios Sexta-feira 05 Junho 2009 às 21:40GMT

Estou tentando passar para o utf-8 mas os espaços em branco estao sendo convertidos para codigos estranhos e ta bagunçando o layout… mas surgiu uma duvida… eu uso iso-8859-1 mas digito o codigo fonte com os caracteres especiais e acentuados normalmente, sem aqueles códigos tipo ação… isso é certo ou nao? interfere em alguma coisa? valew!

# 16° bruno rios Sexta-feira 05 Junho 2009 às 21:42GMT

corrigindo: sem aqueles codigos tipo a-&-c-c-e-d-i-l-;-&-a-t-i-l-d-e-;-o (sem os hifens)

Deixe um comentário

Observação: Todos os campos obrigatórios estão marcados com um asterisco (*).

Informações de Contato

Sobre o Revolução Etc

Henrique Costa Pereira O Revolução Etc é o site pessoal do Henrique C. Pereira que trabalha com design de interfaces, planejamento, arquitetura da informação e desenvolvimento para web. Ele escreve aqui sobre várias coisas relacionadas com acessibilidade, web standards, tecnologia, desenvolvimento e o que mais der na telha, além de eventualmente escrever alguma coisa ou outra para o Webinsider. Leia mais.

Publicidade

  • Banner
  • Banner

Livros

Livros que vão colocar minhocas na sua cabeça.

Música na vitrola

Basicamente são minhas bandas preferidas.

Henrique Costa Pereira - Revolução Etc - (CC) Alguns Direitos Reservados - Powered by WordPress

O conteúdo deste site de autoria de Henrique Costa Pereira está sob a licença de Creative Commons Atribuição-Uso Não-Comercial-Compartilhamento pela mesma Licença 2.5 Brasil. Permissões e/ou restrições além do escopo desta licença podem ser vistas e/ou requeridas na minha página de licença.

Nenhum conteúdo deste site pode ser copiado e reproduzido em outro site sem autorização do autor! Mais detalhes aqui!

Powered by WordPress