UTF-8 é o encoding mais utilizado no mundo na web, segundo o Google

Por: Henrique Costa PereiraThursday 8 May 2008 às 08:8

O Google anunciou dias atrás que já suporta as últimas atualizações feitas no Unicode, mais especificamente para o Unicode 5.1. Esta última atualização feita no Unicode trás mais de 100.000 caracteres incluindo atualizações de várias línguas árabes e asiáticas. Mas não precisa se preocupar em sair trocando o encoding do seu site que ele vai nos atender perfeitamente por muitos anos. Os novos encodings criados para a família Unicode serão utilizados inicialmente principalmente nos países que tiveram suas línguas incluídas, e os computadores que vão processar estes novos caracteres precisam ser atualizados para isso. Por isso o Google anunciou que já oferece suporte a esta nova atualização.

Gráfico que mostra o declínio dos charsets ASCII, ISO8859-1, Chinese, Japonese e mostra o crescimento do UTF-8

Segundo o Google, dezembro de 2007 foi um marco na web ao ser o primeiro mês em que o UTF-8 foi identificado como sendo o encoding mais utilizado na web no mundo (Veja gráfico), ultrapassando o US-ASCII e Latin-1/Windows-1252 (o famoso ISO8859-1) como sendo os mais populares até então. O mais curioso foi o pequeno engano cometido pelo Google ao chamar o gráfico de “crescimento do unicode na web” quando o título deveria ser “crescimento do UTF-8 na web”. O Unicode não é um encoding como o UTF-8. Unicode é uma família de encodings, como eu já escrevi anteriormente. O que o gráfico mostrado pelo Mark Davis no Oficial Google Blog mostra é o crescimento do encoding UTF-8, da família Unicode, que ainda tem o UTF-16 e o UTF-32 como membros. De qualquer maneira a notícia é boa e reflete vários benefícios, principalmente páginas mais leves por não precisar utilizar entities para representar caracteres acentuados de línguas latinas por exemplo. Se você não entende muito bem o que são charsets, encodings, UTF-8, etc, recomendo a leitura da minha clássica série de 5 artigos chamada Charsets e Encodings, publicada alguns anos atrás mas que ainda são muito atuais.

Este texto não pode ser copiado ou reproduzido em nenhum outro site na íntegra sem autorização do autor!. Mais detalhes sobre licença de uso aqui!

Tags: UTF-8 charset charset-e-encoding encoding unicode

19 Comentários para “UTF-8 é o encoding mais utilizado no mundo na web, segundo o Google”

# 1° Gustavo Ribeiro Thursday 8 May 2008 às 12:8 PM GMT

UTF-8 deveria ser obrigatório.
Já passei por vários problemas de fazer a estrutura em UTF-8 e BDs antigos em ISO-8859-1. resultado: caracteres inválidos :)

abs

# 2° Alexander Thursday 8 May 2008 às 12:8 PM GMT

Use UTF-8 em quase todos os meus projetos.
Não tem coisa melhor…

# 3° Vitor Thursday 8 May 2008 às 06:8 PM GMT

Boa noite Henrique.

Poderia explicar melhor como as páginas ficariam mais leves?
Em arquivos idênticos, um codificado em UTF-8 e o outro em ISO-8859-1, o que foi codificado em UNICODE fica maior sempre.

# 4° João Rodrigo Moreira Friday 9 May 2008 às 08:9 AM GMT

Realmente ficar declarando entities é exercício de paciência. Sugiro um artigo de como fazer para migrar para UTF-8, incluindo setar as configurações no banco, servidor, interpretador(php) etc.

# 5° Alexsander Friday 9 May 2008 às 04:9 PM GMT

Vitor

Ficam mais leves porque “ação” em Unicode, apesar de ser maior que “ação” em LATIN1, ainda é menor que “ação”.

# 6° Alexsander Friday 9 May 2008 às 05:9 PM GMT

A palavra “ação” com entities fica “a-&-c-c-e-d-i-l-;-&-a-t-i-l-d-e-;-o” sem os hífens. No post anterior isso não ficou claro.

# 7° Marcos Friday 9 May 2008 às 05:9 PM GMT

Vitor,
A idéia é que fica mais leve do que o ASCII puro, que era o mais utilizado, e não que o 8859-1. Neste caso para você fazer as acentuações tinha que usar coisas como ´ ç

Quanto ao 8859-1 não há diferença significativa de tamanho.
Agora o UTF8 é mais abrangente que o 8859-1,e por isso que ele foi recomendado e não o 8859-1.

# 8° asennadas » UTF-8 domina a web Friday 9 May 2008 às 10:9 PM GMT

[...] atopada en Br-Linux apuntando cara esta fonte que tamén fornece un excelente artigo titulado Charsets e [...]

# 9° Capivara Saturday 10 May 2008 às 06:10 PM GMT

Pode ter certeza:
Mais dia menos dia tu ainda te incomodarás com enconding.
Seja pq o padrão que o servidor do aplicativo será diferente do padrão que utilizas, seja pq utilizarás AJAX.

Mas confesso que decepcionei com o aviso de publicação acima: sem a permissão do autor não se pode propagá-lo. Uma lástima não poder usá-lo em meu blog….

# 10° Carla Bergamo Saturday 10 May 2008 às 08:10 PM GMT

Desculpe Henrique,

Sou desenvolvedora web e não conheço motivos razoaveis para usar UTF-8 em meus projetos. Faço questão de difundir que ISO-8859-1 é a melhor escolha devido a não requerer o uso de entitly no HTML e outros caracteres especiais codificados. Não conheço limitações de user-agents sobre esse charset desde que enviado corretamente pelo servidor. Para nós que desenvolvemos em bloco de notas usar unicode é um horror pois aí seus acentos inseridos diretamente no HTML ficará “tudo errado”.

Eu escrevo e leio em português, porque inventar moda de trocar “á” para “aacute” ?

# 11° Andre Lima Sunday 11 May 2008 às 12:11 AM GMT

Henrique,

Comecei a ler ontem a sua série de post’s falando sobre charsets e enconding e achei bem interessante!

Eu participo de uma lista sobre xhtml e afins e volta e meias as pessoas tem essa dúvida!

Eu ainda não terminei de ler… mas o ideal não é só ler uma vez, mesmo pq o conteúdo é bem abrangente.

Recomendo a todos a leitura! O post tá bem caprichado!

[]´s

Andre Lima

# 12° Marcus Aurelius Sunday 11 May 2008 às 01:11 AM GMT

@Carla Bergamo:

Acho que você confundiu UTF-8 com outra coisa. Pra usar UTF-8 é só digitar “á” normalmente e pedir para os programas que você estiver usando salvarem e interpretarem os arquivos como UTF-8. Não é necessário escrever aacute. Se o navegador mostrar o “á” como “á”, é só colocar um “meta http-equiv” indicando que a codificação é UTF-8 e pronto.

# 13° rascunho » Blog Archive » links for 2008-05-11 Sunday 11 May 2008 às 05:11 PM GMT

[...] UTF-8 é o encoding mais utilizado no mundo na web, segundo o Google » Revolução Etc (tags: revolucao.etc.br 2008 mes4 dia10 at_home Unicode encoding blog_post) [...]

# 14° Alexander Blagus Wednesday 14 May 2008 às 03:14 PM GMT

One encoding to rule then all

# 15° Alexandre Wednesday 29 October 2008 às 02:29 AM GMT

Muito boa essa técnica, mas estou tendo problemas com ela. Ao usar todos os acentos que estao no HTML renderizão normalmente, mas os textos que vêm do banco de dados nao estao renderizando e estao mostrando codigos no browser.

Já existe uma tecnica pra isso tb?

me manda um email se tiver, e desde ja grato pela informação que colhi no seu blog.

# 16° Fabrício Oliveira Tuesday 3 March 2009 às 01:3 AM GMT

Estou com o mesmo problema do usuário acima, #15 Alexandre.
Já setei o collation e o charset do bd para utf8 tbm, e não consigo fazer com que os dados do bd venham como utf8. Se puder me ajudar fico grato. Obrigado!

# 17° Ululos Selvagens // Para voce que tem problemas com os acentos Tuesday 3 March 2009 às 10:3 PM GMT

[...] (ISO8859-1). Recomendo que voces alterem para UTF-8 que o novo padrao ja ha algum tempo(veja mais aqui) e tem um carater muito mais [...]

# 18° bruno rios Friday 5 June 2009 às 09:5 PM GMT

Estou tentando passar para o utf-8 mas os espaços em branco estao sendo convertidos para codigos estranhos e ta bagunçando o layout… mas surgiu uma duvida… eu uso iso-8859-1 mas digito o codigo fonte com os caracteres especiais e acentuados normalmente, sem aqueles códigos tipo ação… isso é certo ou nao? interfere em alguma coisa? valew!

# 19° bruno rios Friday 5 June 2009 às 09:5 PM GMT

corrigindo: sem aqueles codigos tipo a-&-c-c-e-d-i-l-;-&-a-t-i-l-d-e-;-o (sem os hifens)

Avisos
Os itens com asterisco ( * ) são campos de preenchimento obrigatório.
Todos os links inseridos nos comentários possuem o atributo rel="nofollow" para impedir com que user agents (como os mecanismos de busca) sigam os links inseridos para desestimular spammers.
Todos devem se identificar através de e-mail válido.
Os e-mails dos usuários não serão divulgados no site.
Comentários:


Assine por feed

assinantes Assine o feed do Revolução Etc

Sobre o Revolução Etc

Foto do autor Henrique Costa Pereira O Revolução Etc é o site pessoal do Henrique C. Pereira que trabalha com design de interfaces, planejamento, arquitetura da informação e desenvolvimento para web. Ele escreve aqui sobre várias coisas relacionadas com acessibilidade, web standards, tecnologia, desenvolvimento e o que mais der na telha, além de eventualmente escrever alguma coisa ou outra para o Webinsider. Leia mais.

Livros que vão colocar minhocas na sua cabeça:

  • SEO Otimização de Sites - Paulo Teixeira
  • Não me faça pensar! - Steve Krug
  • Google Adwords a Arte da Guerra - Ricardo Vaz Monteiro
  • Design para Internet: Projetando a Experiência Perfeita - Felipe Memoria
  • Sopro no Corpo: Vive-se de Sonhos - Marco Antônio de Queiroz (MAQ)
  • 250 Segredos para Web Designers - MOLLY E. HOLZSCHLAG
  • O design do dia a dia - DONALD A. NORMAN
  • Ser e o Nada - Jean-Paul Sartre
  • Apocalípticos e Integrados - Umberto Eco
  • Ergodesign e Arquitetura de Informação - LUIZ AGNER
  • The Art and Science of Web Design - Jeffrey Veen
  • Ansiedade de Informação 2 - RICHARD SAUL WURMAN
  • Criando Páginas Web com CSS - ANDY BUDD, CAMERON MOLL, SIMON COLLISON
  • Mobile Web Design - Cameron Moll
  • Sigam-me no Twitter

Me encontre

Lugares onde digitalmente eu costumo estar presente.

Anúncios

Blogroll:

Alguns sites interessantes e blogs de amigos que eu leio com frequência. Em ordem alfabética.

Pessoas que trabalham comigo:

Sites dos colegas de trabalho na Webroom.

Já trabalharam comigo:

Som que faz a minha cabeça!

Procurando inspiração? Esta é uma breve lista do que eu ouço!

  • Diana Krall - The Very Best Of
  • U2 - How to dismantle an atomic bom
  • U2 - 18 singles
  • The Essential - Bob Dylan
  • Bob Dylan - Modern Times
  • Miles Davis - Cool & Collected
  • Miles Davis - Prestige Profiles Vol 1
  • Pink Floyd - The Division Bell
  • Pink Floyd - The wall
  • Pink Floyd - Delicate Sound Of Thunder
  • John Coltrane - The Best of John Coltrane
  • The beatles - The Beatles 1