Lázaro José Carneiro de Sousa

Início » SEO » técnicas de SEO » Duplicação de Conteúdos e Suas Causas

Duplicação de Conteúdos e Suas Causas

Autor Original:Yoost de Valk.
Traduzido e com comentários adicionais de Lázaro Sousa

Diversos Mecanismos de Buscas, assim como o Google tem um “problema”. Eles chamam isso de “conteúdo duplicado”:

o conteúdo de seu artigo está sendo mostrado em várias páginas, várias urls diferentes do seu site e também fora dele, e eles não sabem qual a URL correta deve ser exibida. Especialmente quando os visitantes começam a linkar para todas as diferentes versões do conteúdo, o problema se torna maior. Este artigo serve para que você compreenda as diferentes causas de conteúdo duplicado, e para encontrar a solução para cada uma deles. Você pode comparar isso com estar em um cruzamento e os sinais de trânsito estão apontando em duas direções diferentes para o mesmo destino final: que estrada você deve tomar? E agora, para torná-lo “pior” o destino final é muito diferente, mas apenas levemente. Como leitor, você não se importa: você recebe o conteúdo que você veio buscar. Mas para um mecanismo de busca não é simples pois tem que escolher qual deles para mostrar nos resultados da pesquisa, pois não irá mostrar o mesmo conteúdo duas vezes ou mais. Vamos dizer que o seu artigo sobre a palavra-chave x aparece na “exemplo: http://www.example.com/keyword-x/” e exatamente o mesmo conteúdo também aparece na “http://www.example.com/article-category/keyword-x/”, uma situação que não é tão fictícia: isso acontece em muitos dos Sites, inclusive aqui no WordPress. Seu artigo foi apanhada por vários blogueiros, e alguns deles apontam para a primeira URL, outros apontam para a segunda URL. Isto é, quando o problema do mecanismo de busca mostra a sua verdadeira natureza: o problema é na verdade seu ! Este conteúdo duplicado é sim seu problema pois os links estão a promover URLs diferentes. Se fossem todos os links para a mesma URL, sua chance de classificação no top 10 para a palavra-chave x seria muito maior.

1 – Causas para Conteúdos Duplicados
Existem dezenas e dezenas de razões que fazem com que um conteúdo seja duplicado. A maioria deles é técnico: não é muito frequente um ser humano decidir colocar o mesmo conteúdo em dois lugares diferentes, sem distinguir a fonte original: não parece natural para a maioria de nós. As razões técnicas ainda são abundantes. Isso acontece principalmente porque os desenvolvedores não pensam como um navegador ou um usuário, muito menos um spider de um mecanismo de busca, eles pensam como desenvolvedor. Que artigo aparece em http://www.example.com/keyword-x/ e http://www.example.com/article-category/keyword-x/ ? Se você perguntar para o desenvolvedor, ele vai dizer que só existe um.

1.1 – Incompreensão do conceito de uma URL
Será que o desenvolvedor enlouqueceu? Não, ele só fala uma língua diferente. Veja só: todo site normalmente é alimentado por um sistema de banco de dados. Nesse banco de dados, há somente um artigo, o sistema do site apenas permite que o mesmo artigo a ser recuperado por meio de vários URLs. Isso porque, aos olhos do desenvolvedor, o identificador exclusivo para esse artigo, a chave primária, é o id que o artigo tem no banco de dados, e não a URL. Para o mecanismo de busca, porém, a URL é o identificador exclusivo de um pedaço de conteúdo. Se você explicar isso para um desenvolvedor, ele vai começar a entender o problema e, em seguida, se ele é como a maioria dos desenvolvedores que eu conheço e já trabalhei, ele vai aparecer com algumas razões, falando que o mecanismo de busca é estúpido e que ele não pode fazer nada sobre isso. Ele está errado.

1.2 – IDs de Sessões
Você quer manter o controle de seus visitantes, e tornar possível, por exemplo, armazenar itens que deseja comprar um carrinho de compras. Para fazer isso, você precisa dar-lhes uma “sessão”. Uma sessão é basicamente um breve histórico do que o visitante fez no seu site, e pode conter coisas como os itens em seu carrinho de compras, as categorias visitadas, e muito mais. Para manter essa sessão como um visitante clicar de uma página para outra o identificador exclusivo para a sessão, o ID da sessão chamada, precisa ser armazenado em algum lugar. A solução mais comum é fazer isso com cookies, no entanto, os mecanismos de busca não lêem tais cookies O que acontece nesse ponto é que alguns sistemas acabam optando por usar ID da sessão na URL. Nesse ponto, todos os links internos no site que recebe ID da sessão anexada à URL, e porque esse ID da sessão é única para a sessão, ele cria uma nova URL, e, portanto, o conteúdo duplicado.

1.3 – Parâmetros de URL utilizado para o acompanhamento e classificação
Outra causa de conteúdo duplicado é a utilização de parâmetros de URL que não alteram o conteúdo de uma página, por exemplo, no acompanhamento de links. Note que http://www.example.com/keyword-x/ e http://www.example.com/keyword-x/?source=rss não são uma mesma URL para um mecanismo de busca. No segundo link de exemplo, suponhamos que o parâmetro source permite controlar a origem do tráfego. Nesse caso, também pode atrapalhar a rankear tal URL pelos diferentes links gerados para cada uma das URLs ao invés de ter todos os links apontados para uma URL só, o que causa um efeito colateral muito indesejável. Isso não vai apenas para parâmetros de controle, é claro, vai para todos os parâmetros que você pode adicionar uma URL que não muda a peça vital do conteúdo. Se esse parâmetro é para mudar a classificação de um conjunto de produtos, para mostrar uma outra barra lateral, para fazer um trackeamento com o URL Builder do Google Analytics, todos podem ter apenas um efeito: gerar conteúdo duplicado na visão dos buscadores.

1.4 – Cópia de conteúdo
Enquanto a maioria das causas para conteúdo duplicado são seus mesmo, ou pelo menos “culpa” dos seus sites, por vezes outros websites copiam o seu conteúdo, com ou sem o seu consentimento. Eles nem sempre apontam para o artigo original e, portanto, o motor de busca não sabe disso e tem que lidar com outra versão do mesmo artigo. Quanto mais populares seus sites se tornarem, com maior frequência outros poderão vir acopiar seu conteúdo, tornando esse problema cada vez maior.

1.5 – Ordem de parâmetros
Outra causa comum é um CMS não usar URLs limpas, mas sim URLs como /?id=1&cat=2, onde ID se refere à identificação do artigo e do CAT se refere à categoria. A URL /?cat=2&id=1 irá retornar os mesmos resultados na maioria dos sistemas, mas eles são completamente diferentes para um mecanismo de busca.

1.6 – Paginação de Comentários
No nosso amado WordPress e em alguns outros sistemas, não há uma opção para para paginar seus comentários. Isso leva ao conteúdo ser repetido em todas as URLs das páginas dos comentários, no formato URL do artigo + comment-page-1/, /comment-page-2/ , e por ai vai.

1.7 – Páginas para impressão
Se seu sistema de gerenciamento de conteúdo cria páginas para impressão (ou você usa algum plugin para tal) que apontam para as páginas dos artigos (e vice-versa), o Google poderá encontrar aqueles que você não deseja, a menos que você tenha bloqueado as páginas que não deseja que sejam indexadas. Se você não as bloqueou para indexação, qual a versão o Google deve mostrar? Uma com anúncios e conteúdo periférico, ou apenas a versão para impressão? Se você não orientá-lo, ele vai indexar a que achar melhor (segundo as métricas dele).

1.8 – WWW vs sem WWW
Uma das formas mais antigas, mas os mecanismos de busca, por vezes, ainda entendem errado: WWW vs sem WWW acaba por duplicar seu conteúdo quando ambas as versões do seu site estão acessíveis. Uma situação menos comum, mas também pode acontecer com https vs http, onde o mesmo conteúdo é servido ao longo de ambos. Muitas causas, muita coisa a se pensar na hora de colocar seu site no ar.. mas e as soluções para conteúdo duplicado? Este é um assunto de um novo post, aguarde…


1 Comentário

  1. bebê disse:

    Parabéns. É a segunda vez que eu descobro o seu site no Google. Realmente tem Grandes coisas por aqui.

    Curtir

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: