Les urls

L’optimisation des urls est un critère majeur. Le choix de bonnes urls est capital pour un bon référencement.

 

Anatomie d’une url

Une url se compose de plusieurs éléments. Nous ne verrons ici qu’une présentation simplifiée. Pour notre propos, nous nous intéresserons seulement aux éléments qui nous importent :

-le sous-domaine (facultatif),

-le nom de domaine (obligatoire),

-le tld (Top Level Domain) (obligatoire),

-le nom du répertoire (facultatif),

-et le nom du fichier (facultatif).

Dans l’url http://sport.ados.fr/news/guy-roux-de-retour-sur-les-terrains_article5263.html on a, le sous-domaine sport, le nom de domaine ados.fr, le tld (Top Level Domain) fr, le nom du répertoire news, et le nom du fichier guy-roux-de-retour-sur-les-terrains_article5263.html.

 

Décompte et densité dans une url

Comment fonctionnent décompte et densité avec les urls ?

Décompte

Le mot-clé « sport » apparaît :

-0 fois dans l’url suivante : http://www.lequipe.fr/,

-1 fois dans les urls suivantes : http://fr.wikipedia.org/wiki/Sport, http://sport.aol.fr/,

-2 fois dans les urls suivantes : http://www.sports.fr/sport.html, http://sport.aol.fr/sport/index.html.

Densité

Le mot-clé « sport » apparaît :

-0 fois dans l’url suivante : http://www.lequipe.fr/ et l’url contient 3 mots : www, lequipe, fr, la densité est donc de 0/3 = 0%.

-1 fois dans l’url suivante : http://fr.wikipedia.org/wiki/Sport et l’url contient 5 mots : fr, wikipedia, org, wiki, Sport, la densité est donc de 1/5 = 20%.

-2 fois dans l’url suivante : http://sport.aol.fr/sport/index.html et l’url contient 6 mots : sport, aol, fr, sport, index, html, la densité est donc de 2/6 = 33%.

Pour améliorer la densité d’un mot-clé, on peut augmenter le décompte ou réduire le nombre total de mots. Rappelez-vous, de bonnes valeurs en décompte et densité sont nécessaires pour optimiser vos urls.

La densité passe à 3/6 = 50% lorsqu’on transforme http://sport.aol.fr/sport/index.html en http://sport.aol.fr/sport/sport.html.

En transformant http://sport.aol.fr/sport/index.html en http://sport.aol.fr/sport.html la densité passe à 2/5 = 40%.

Problème

Qu’en est-il de l’url http://www.sportweek.fr pour le mot-clé « sport » ?

Le décompte est-il à 0 ou 1 ? Et la densité est-elle à 0/3 ou 1/3 ?

Apparemment Google détecte le mot « sport » (en gras) dans l’url.

Pour pouvoir définitivement trancher, il faudrait faire des tests complémentaires. Comme nous le disions dans la partie sur le décompte et la densité, le référencement n’est pas une science exacte.

Optimisation

Optimiser une url sur un mot-clé, c’est améliorer les décompte et densité de ce mot-clé dans l’url. Modifier les urls n’est pas toujours chose facile. Aussi, il est impératif de faire les bons choix dès le départ.

Pour faire cette optimisation, trois points importants sont à prendre en considération : le nom de domaine, la structure des répertoires et fichiers (arborescence) de votre site web, la réécriture d’urls (url-rewriting).

Nous nous proposons d’aborder ces points en détail dans la suite de ce document.

Le nom de domaine

Pour aller droit au but, nous dirons qu’un nom de domaine à soi est chose quasi- incontournable pour un référencement digne de ce nom.

Hébergement gratuit ou payant ?

Il existe foule d’hébergeurs gratuits avec des niveaux de qualité de service variables. Il est possible d’y recourir au début d’un projet « pour voir ». Néanmoins votre crédibilité est sérieusement entachée. En effet, un hébergement professionnel est un investissement peu coûteux (moins de cinquante euros à l’année). Si vous n’êtes pas prêt à faire cet effort, n’attendez pas de vos visiteurs qu’ils en fassent davantage et achètent vos produits. Vous montrez par là que vous ne croyez pas à ce que vous faîtes.

Enfin, votre référencement s’en trouvera nettement amélioré. Vous aurez un nom de domaine qui colle à votre activité, vous pourrez créer vos propres sous-domaines, organiser vos fichiers et répertoires à votre guise, mettre en place l’url-rewriting. En bref, vous pourrez faire tout ce qui profite à un bon référencement.

Pour vous en convaincre à la date du 8 mai 2009, Google renvoyait pour le mot-clé « sport » en pages francophones les résultats suivants :

1. http://www.sport.fr/ domaine
2. http://www.sport.fr/Football/ domaine
3. http://www.lequipe.fr/ absent
4. http://www.sports.fr/ domaine
5. http://fr.sports.yahoo.com/ sous-domaine
6. http://www.sport24.com/ domaine
7. http://sportplus.canalplus.fr/ sous-domaine
8. http://www.sportweek.fr/ domaine
9. http://www.wat.tv/guide/sport répertoire ou fichier
10. http://www.eurosport.fr/ domaine

9 sur 10 contiennent le mot « sport » dans l’url, 6 sur 10 l’ont dans leur nom de domaine, 2 sur 10 dans un sous-domaine, 1 sur 10 en répertoire ou en fichier. Eloquent, non ?

Apparemment, le nom de domaine à plus de poids que les sous-domaines et les répertoires ou fichiers. Ce n’est pas surprenant, ils sont plus difficiles à manipuler. Le seul site web qui ne comporte pas sport dans son url est un site à très forte notoriété en matière de sport, ce qui compense largement.

Attention, avoir le mot-clé dans l’url ne suffit pas à être bien positionné. Il est nécessaire d’avoir un bon contenu, de bons backlinks, etc. Mais à optimisation égale, l’efficacité est radicale.

Choix du nom de domaine

Il faut lever un maximum d’obstacles dans la promotion de vos produits. Le nom de domaine se doit donc d’être simple et facile à retenir. Dans la mesure où vous disposez de peu de caractères (maximum 20 et c’est déjà beaucoup), vous ne pourrez pas y placer beaucoup de mots-clés, il faut donc bien les choisir. Il est impératif que votre nom de domaine soit centré sur votre activité.

Les sites web sur le sport du classement précédent sont instructifs http://www.sport.fr/, http://www.sport24.com/, http://www.sportweek.fr/, http://www.eurosport.fr/, etc.

Nous avons vu avec http://www.sportweek.fr que Google détecte les mots-clés « collés » dans les urls. Cependant, la prudence reste de rigueur car il n’en est pas forcément de même pour tous les moteurs de recherche.

Enfin, le séparateur le plus approprié est le tiret « – », le séparateur underscore « _ » est à proscrire. Par exemple, http://www.sport-plus.fr/ est préférable à http://www.sport_plus.fr/.

Le TLD

Le TLD (Top Level Domain) sont les extensions du type .com, .org, .net, .fr, etc. Ces extensions ne sont pas sans valeurs. De manière générale, il est préférable de choisir une extension adaptée à vos besoins. Si vous vous adressez à un public français, le .fr est adapté et sera probablement un facteur favorisant votre référencement sur les versions françaises des moteurs de recherche. Le .com est très intéressant pour les sites multilingues ou pour la simple raison que l’internaute a tendance à rajouter spontanément un .com.

On notera, parmi les sites web sur le sport du classement précédent, le manque de cohérence de http://www.sportweek.fr/ qui associe l’anglais à un tld en .fr.

Les sous-domaines

Il est peu probable que vous trouviez un hébergement gratuit vous offrant la possibilité de créer des sous-domaines à votre guise. Prenez néanmoins garde à l’hébergement payant que vous choisissez, car tous ne le permettent pas.

Les sous-domaines sont intéressants à plus d’un titre. Ils sont une occasion supplémentaire de placer des mots clés dans vos urls. Apparemment, les mots-clés en sous-domaine sont plus efficaces que ceux dans les répertoires et les fichiers. Certains moteurs de recherche considèrent que chaque sous-domaine est un site différent. De ce fait, les liens entre ces sous-domaines sont considérés comme des backlinks externes (venant d’un autre site web, ce qui est meilleur qu’un backlink interne, venant du même site web).

Pour un site web sur le sport, on pourra définir un sous-domaine spécifique par sport : football.sport-plus.fr, natation.sport-plus.fr, golf.sport-plus.fr, etc.

Les répertoires et les fichiers

Aussi bien pour les moteurs de recherche que pour les internautes, une organisation cohérente et hiérarchique est préférable.

Prenons l’exemple de la page d’un catalogue en ligne vendant des chaussures de sport homme pour le basket. Laquelle des deux urls qui suivent vous semble la plus appropriée ?

http://www.monsite.com/catalogue/produit.php?rubrique=17&reference=247 ou http://www.monsite.com/chaussures-de-sport/homme/basket/

Comment concrètement mettre en place cette organisation ?

Il est en premier lieu nécessaire de classer vos contenus, puis de définir une arborescence logique. Cette arborescence doit aller dans le sens de la spécialisation des contenus.

Une organisation hiérarchique cohérente répond aux exigences suivantes : chaque niveau (répertoire) est l’équivalent d’une catégorie pour ses sous-niveaux (répertoires ou fichiers), chaque niveau (répertoire ou fichier) doit être nommé à l’aide de mots-clés représentatifs des contenus qu’il dispense, chaque sous-niveau (répertoire ou fichier) a une désignation plus précise (spécialisation) que le niveau (répertoire) dont il est issu, le nombre de niveaux est limité (trois semble une bonne limite).

Pourquoi m’embarrasser à organiser mes contenus ?

Les moteurs de recherche, les internautes et même vous y trouveraient un avantage.

Les moteurs de recherche

Côté référencement, vos urls sont optimisées au mieux par la présence des mots-clés, décrivent exactement ce qu’elles contiennent ce qui renforce l’homogénéité de leur contenu, sont contextualisées à l’extrême puisque chaque sous-niveau précise le niveau dont il est issu.

Les internautes

Les sites web sont souvent des dédales dans lesquels il est difficile de se repérer.

La présence des catégories et sous-catégories dans l’url fournit une ébauche de plan aux internautes. Ils sauront apprécier. Cette boussole leur facilitera le parcours de votre site web et sera pour eux une incitation à cheminer plus profondément au sein des différentes catégories de votre site web qui désormais se laissent deviner.

Enfin, la simple lecture de l’url les renseignera sur le contenu que la page web correspondante dispense. Vous leur ferez gagner du temps. N’oubliez pas que vous devez rapidement transformer votre trafic entrant sous peine de ne rien transformer du tout. Faire perdre du temps aux internautes parce que la navigation que vous leur proposez est chaotique peut, par agacement, les pousser hors de votre site web. Ne les faîtes pas fuir alors que vous avez tant peiné pour les attirer chez vous !

Vous-même Vous y verrez incontestablement plus clair !

L’url rewriting

Manipuler les urls n’est pas chose facile. De manière générale, mieux vaut y songer avant de mettre en place un nouveau site web. Car après, le travail se complique sérieusement. Il n’y a néanmoins pas de fatalité. Si vos urls ne sont pas très optimisées coté référencement, il vous est possible de recourir à une technique appelée url-rewriting.

 Pourquoi bricoler mes urls ?

En naviguant sur le web, vous avez probablement déjà remarqué que certaines pages ont une url assez compliquée.

Par exemple, http://www.monsite.com/catalogue/produit.php?rubrique=32&reference=2647

De telles urls ne facilitent pas le travail d’indexation des moteurs de recherche (bien qu’ils s’en sortent quand même dans la plupart des cas), n’aident pas les internautes à la mémorisation, et surtout négligent un aspect souvent décisif en matière de référencement, à savoir l’insertion de mots-clés dans les urls.

Elles sont donc une entrave de taille. La réécriture d’url est un procédé qui apporte une solution à ce problème. Elle organise la mise en place d’urls « propres » pour accéder à vos pages web, ce qui répond aux trois objections soulevées plus haut.

Prenons l’exemple de la page d’un catalogue en ligne vendant un ballon de football dont l’url serait http://www.monsite.com/catalogue/produit.php?rubrique=32&reference=2647

La réécriture d’url permet d’accéder à la même page via une URL telle que http://www.monsite.com/catalogue/ballon-football-32-2647.html

Cette url est plus lisible (pour les moteurs de recherche comme pour les internautes) et elle est optimisée pour un référencement sur les mots-clés ballon et football.

L’url rewriting, comment ça marche ?

Désormais lorsque cela sera nécessaire, les pages de votre site web auront deux urls : une interne (« sale » au sens du référencement), et une externe (« propre » au sens du référencement).

Les moteurs de recherche et les internautes ne connaîtront plus dorénavant que les urls externes.

Votre serveur web ne comprend véritablement que les urls internes. Vous devez donc lui fournir des règles de traduction des urls externes vers les urls internes associées. Il sera alors en mesure d’honorer les requêtes externes faites par les crawlers des moteurs de recherche et les internautes. Lorsqu’ils demanderont à votre serveur web la page renvoyant à l’url externe, il opérera une traduction en url interne et retournera la page correspondante.

Bien entendu, à aucun moment, les moteurs de recherche et les internautes n’en auront connaissance

Comment lire une URL à réécrire ?

Une url à réécrire se présente souvent sous la forme suivante :

http://www.monsite.com/mapage.php?variable1=valeur1&variable2=valeur2

Elle se compose comme suit : la partie située avant le point d’interrogation (?) est l’url de base, la partie située après le point d’interrogation (?) est une liste de couples (variable = valeur) séparés par un & et transmises à la page web comme paramètres en vue d’un traitement spécifique.

L’url http://www.monsite.com/catalogue/produit.php?rubrique=32&reference=2647 se découpe donc en deux parties : l’url de base http://www.monsite.com/catalogue/produit.php, et deux variables rubrique=32 et reference=2647.

Comment mettre en place la réécriture d’une URL ?

Activez d’abord la réécriture d’url sur votre site web.

La mise en place de l’url-rewriting dépend du serveur qui héberge votre site web (Apache, Microsoft IIS) et de votre hébergeur. La plupart proposent cette fonctionnalité. Néanmoins, avant de faire de vains efforts, contactez le vôtre pour savoir si c’est le cas pour votre hébergement.

Identifiez les urls à réécrire Il n’est pas nécessaire de réécrire l’ensemble des urls de vos pages web. Les urls doivent remplir les deux conditions suivantes : être complexes au sens de ce qui précède (toutes ne le sont pas forcément), avoir un intérêt pour votre référencement.

Une boutique en ligne se doit d’avoir des urls optimisées pour les pages qui présentent ses offres promotionnelles, ses fiches produits, etc. Par contre, l’optimisation des conditions générales de vente ne présente pas d’intérêt particulier pour le référencement. L’url http://www.monsite.com/maillot-equipe-france-76-42-63543.html est préférable à l’url http://www.monsite.com/produit.php?rubrique=76&sousrubrique=42&reference=63543.

Comment définir mes règles de réécriture ?

Une règle de réécriture permet d’établir la correspondance entre deux urls. Elle peut être générique, lorsqu’elle s’applique à plusieurs urls de votre site web, ou particulière lorsqu’elle ne concerne qu’une seule url. Cette technique repose sur l’utilisation des expressions régulières (http://fr.wikipedia.org/wiki/Expression_rationnelle). Une seule règle suffit rarement à régler tous les cas d’un site web. Pour votre besoin, vous pouvez donc en écrire autant que nécessaire.

Ce document n’a pas pour but de présenter un cours sur les expressions régulières mais d’illustrer la méthode au moyen d’un exemple. Le langage des expressions régulières est très sophistiqué. Néanmoins, son usage est la plupart du temps élémentaire dans le cadre de l’url-rewriting. Vous trouverez ci-dessous les motifs les plus fréquents utilisés pour l’élaboration de ces expressions régulières.

Motif Désignation
[0-9]
un caractère numérique
[a-z] un caractère minuscule (sans accent)
[A-Z] un caractère majuscule (sans accent)
[a-zA-Z] un caractère minuscule ou majuscule (sans accent)
[0-9]+ une suite d’au moins un caractère numérique
^ signale le début de l’url réécrite
$ signale la fin de l’url réécrite
() les parenthèses capturent la séquence de l’url qu’elles « attrapent »
$N dans l’url à réécrire, indique la valeur capturée par la Nème paire de parenthèses selon l’ordre de lecture

Par exemple, décryptons la règle suivante, ^([0-9a-zA-Z-]+)-([0-9]+)-([0-9]+).html$ /produit.php?rubrique=$2&reference=$3.

Avec cette règle, l’url externe (appelée par les moteurs de recherche et les internautes) http://www.monsite.com/maillot-equipe-france-42-63543.html devient l’url interne (traitée par le serveur web), http://www.monsite.com/produit.php?rubrique=42&reference=63543.

Motif Effet
([0-9a-zA-Z-]+) capture la séquence maillot-equipe-France et la stocke dans $1 ; $1 n’est pas utilisé ensuite
([0-9]+) capture la séquence 42 et la stocke dans $2
([0-9]+) capture la séquence 63543 et la stocke dans $3
. interprète le point littéralement (sinon, il représente un caractère quelconque)

Attention, le choix des caractères séparateurs de mots est très important.

Les séparateurs conseillés sont : le tiret « – », la virgule « , », le slash « / » ou le point « . ».

Les séparateurs déconseillés sont : l’underscore « _ », le dièse « # » et l’espace.

 

Comment mettre en application mes règles de réécriture ?

La mise en application des règles de réécriture varie selon le type de serveur web qui héberge votre site web. Nous ne traitons ici que le cas des serveurs Apache et Microsoft IIS (les plus répandus sur le web).

Apache

Vous devez consigner vos règles de réécriture dans un fichier nommé .htaccess (avec un point en premier caractère), et situé à la racine de votre site web.

Ce fichier permet d’infléchir la configuration du serveur Apache.

Ci-dessous un exemple :

<

p style= »text-align: justify; »>Code Apache :
RewriteEngineon
RewriteRule^([0-9a-zA-Z-]+)-([0-9]+)-([0-9]+).html /produit.php?rubrique=$2&reference=$3
RewriteRule…
RewriteRule…

L’instruction RewriteEngine on ne doit apparaître qu’une seule fois et doit être placée avant toutes les règles de réécriture signale au serveur Apache l’existence de règles de réécriture RewriteRule signale une règle de réécriture il y en a autant que nécessaire (une par ligne) au format : url à réécrire [espace] url réécrite à chaque url, ne s’applique que la première règle qui peut s’appliquer Microsoft IIS.

Si vous utilisez une version d’ASP sans la plate-forme .NET, il vous faudra avoir recours à des composants payants. Leur mode de configuration varie. La définition de vos règles de réécriture reste valable. En revanche, leur mise en application est spécifique au composant que vous utiliserez.

Si vous utilisez .NET, il existe plusieurs solutions pour mettre en application vos règles de réécriture :

-http://www.isapirewrite.com,

-http://urlrewriter.net,

-http://www.codeproject.com/aspnet/URLRewriter.asp, etc.

Une fois encore, la définition de vos règles de réécriture reste valable mais la mise en application est spécifique à la technologie utilisée

Vérifiez les liens hypertextes de votre site web

Une fois les règles de réécriture mises en place, mettez à jour dans vos pages web tous les liens hypertextes concernés. Désormais dans chacune de vos pages web, vous ne désignerez plus vos autres pages web qu’avec des urls externes. Ce travail est capital, sous peine de ruiner tous vos efforts.

En effet, si vos pages web sont accessibles à partir de deux urls, les moteurs de recherche considéreront qu’il existe deux pages web différentes au contenu identique. Il y aura alors cas flagrant de duplicate content (voir plus loin). Or le duplicate content peut être pénalisant pour votre référencement.

Il faut savoir que les pages web dont l’url est réécrite restent accessibles à partir de leur url interne (à condition que cette url soit mentionnée quelque part sur une de vos pages web).

D’où la nécessité de supprimer toute référence aux urls internes.

Par exemple, la page web dont l’url à réécrire est http://www.monsite.com/produit.php?rubrique=42&reference=63543 et l’url réécrite http://www.monsite.com/maillot-equipe-france-42-63543.html est accessible via ces deux urls. Ne présentez que l’url http://www.monsite.com/maillot-equipe-france-42-63543.html dans vos liens hypertextes pour éviter le piège du duplicate content. Votre référencement y gagnera sans aucun doute.