Qu'est-ce que l'overview dans Babbar.tech ?

Qu'est-ce que l'overview dans Babbar.tech ?

Le premier contact avec la data de Babbar.tech se fait via l'overview. Nous vous décrivons dans cette vidéo les informations qui y sont disponibles.

La vidéo explicative de l'overview dans Babbar.tech

 

[Transcription automatique]

Bonjour à tous et bienvenue, je suis Sylvain Peyronnet, je suis l'un des créateurs de
l'outil Babbar, babbar.tech, et dans cette vidéo, aujourd'hui, je vais vous parler de ce qu'on
appelle l'overview.


Alors quand vous arrivez dans Babbar, vous arrivez par ici ce dashboard.


Ce que vous voyez, c'est le nombre de liens que connaît Babbar, le nombre de pages qui
sont dans l'index, presque 430 milliards à l'heure actuelle, le nombre de sites web,
un peu plus de 11 milliards, et le nombre de domaines, quasiment 114 millions.
Alors ces chiffres, par page, par host et par domaine, ils ont une certaine importance
parce qu'on va voir ensuite que l'on va pouvoir voir dans l'overview de l'information
à différents niveaux de granularité, au niveau des pages, au niveau des hosts ou au
niveau des domaines.


Pour le dire très simplement, le niveau de la page, je pense que vous imaginez tous
ce que c'est, on parle de l'URL.
Le niveau du domaine, là aussi, il n'y a aucune ambiguïté.


Le niveau du host est parfois un petit peu plus difficile à appréhender.

Le host, c'est par exemple www.toto.com ou images.toto.com, etc., c'est ce que souvent
dans le SEO on appelle un sous-domaine.
Le host, c'est d'après nous le niveau de vision intermédiaire le plus intéressant
quand on veut regarder à gros grain ce qui se passe dans un site web parce que c'est
ce qui est le plus proche du site web en lui-même.
Le domaine, c'est souvent beaucoup trop large.


Il y a des très gros sites, par exemple de presse, qui ont une foule de sous-domaine
qui n'ont pas forcément, qui ne sont même pas forcément exactement les mêmes sites
web d'ailleurs.
Donc la vision au niveau domaine agrège de l'information qui n'est pas forcément cohérente
en elle-même puisque ça va être plusieurs sites qui vont apparaître sous une même
bannière.


Le niveau de l'URL, c'est un niveau très fin qui permet bien sûr de comprendre ce qui
se passe au niveau de chaque page d'un site web, mais quand on veut une vision un petit
peu plus agrégée, c'est le niveau intermédiaire du sous-domaine qui est assez souvent le
meilleur.


Dans le dashboard, vous avez les recherches récentes et l'exemple que je vais utiliser
aujourd'hui dans cette vidéo, c'est celui du site web www.annonces-legales.fr.
Je vais cliquer et ce site web, on peut aller le voir pour que vous voyez un petit peu ce
que c'est.


Je vais le copier et je vais le mettre dans un nouvel onglet pour ne pas perdre la page
précédente.
C'est un site qui permet de poser des annonces légales pour toutes les formalités d'entreprise.
On a l'occasion de travailler avec ce site web, c'est aussi là où on passe nos annonces
légales d'ailleurs.
C'est le site qui va me servir d'exemple pour cette vidéo.
Qu'est-ce qu'on voit quand on arrive? Ici, je vais cliquer, j'arrive sur ce qu'on appelle
l'overview.


L'overview, c'est la vue synthétique de la totalité des informations qu'on va connaître
par rapport à ce host particulier www.annonces-legales.fr.
Bien sûr, on pourrait regarder au niveau URL pour voir une page seulement, par exemple
la home page seulement, ou au domaine, et le domaine ce serait annonces-legales.fr,
mais je vais faire toute mon explication à partir du niveau host qui est celui agragé.
Je suis dans Babbar, j'ai fait une requête pour le host www.annonces-legales.fr.
Qu'est-ce que je vois? En premier, j'ai un rappel du nom du host, puis je vois une
classification.


Dans Babbar, nous utilisons des algorithmes de machine learning qui viennent du traitement
de la langue naturelle qui existe sur plusieurs langues et qui nous permettent de classifier
la thématique d'un site.
Ici, la classification, on en est certain, c'est à 100% commerce et économie.
Alors, c'est intéressant de comprendre que cette classification est vraiment par rapport
au contenu du site.


Ce n'est pas par rapport aux liens qui sont faits, c'est vraiment par rapport au contenu.
Donc, Babbar va regarder le contenu de chacune des pages du site, va faire une classification
pour chacune des pages qui va être réagrégée au niveau du site en lui-même pour donner
une classification globale.
Ici, ce site est monothématique et sa thématique, c'est commerce et économie, nous en sommes sûrs.


Ensuite, on a d'autres informations et je vais dézoomer un petit peu pour que vous
puissiez voir un petit peu mieux.


Voilà, nous avons la dernière date d'update, la dernière fois où nous avons crawlé au
niveau de Babbar une des pages du site, c'était le 2 février 2021.


Alors, vous ne le savez pas parce que peut-être vous regardez cette vidéo et nous sommes
déjà plus loin dans l'année, cette vidéo a été tournée le 4 février 2021.
Le rythme d'update généralement pour un site web va être aux alentours actuellement
de 1 semaine à 10 jours à peu près.
Ensuite, le nombre d'URL que l'on connaît sur ce site est de 257 217 et on pourrait
donc avoir ensuite de l'information par les menus, mais ce n'est pas du tout le sujet
de cette vidéo aujourd'hui, on pourrait avoir de l'information sur chacune des pages
séparément.
La langue du site, c'est du français à 100 %. Alors là aussi, on a un classifié,
donc des techniques issues du machine learning qui va parcourir chaque contenu que l'on
connaît au moment du crawl et qui va lui attribuer une langue par rapport aux mots
qui sont utilisés.
Sur ce site, c'est que du français, mais il y a des sites qui vont être multilangues
et donc on fera apparaître un pourcentage d'apparition de chaque langue dans ce cas-là
au niveau de cette information.
Le site, il est hébergé par un serveur qui est sur une certaine adresse IP, il n'y
en a qu'une, mais il pourrait y en avoir bien sûr plusieurs et dans ce cas-là l'information
serait disponible en cliquant, mais comme le but d'aujourd'hui c'est de montrer l'overview,
je ne vais pas cliquer.
Ensuite, nous avons un certain nombre d'informations par rapport aux liens.
La première information que je vais vous expliquer, c'est celle sur les backlinks
puisque c'est de la data brute.


La data brute, elle est très simple, babbar, crawl le web et donc ce qu'on fait, c'est
qu'on parcourt tous les sites web, on récupère les contenus, on récupère les liens et on
processe tout ça pour faire des métriques, pour vous restituer de la donnée, pour aller
vers un meilleur SEO, faire une meilleure stratégie SEO, faire des arbitrages disons de manière
plus rapide, peut-être les mêmes que vous feriez sans outils, mais en tout cas les faire
plus vite pour gagner en productivité en fait.
Et donc on a l'information des liens qui sont faits entre les pages web, on l'a au
niveau URL vers URL, au niveau des sites vers les sites et au niveau des domaines exactement.
Pour vous montrer très rapidement, je vais être obligé de cliquer quand même, backlinks
domaines, ici on a tous les domaines qui pointent vers le host www.annonce-légal.fr avec les
textes des encres qui apparaissent, donc s'il y a plusieurs liens depuis un certain site
et bien il peut y avoir plusieurs encres bien sûr.
On a la même chose au niveau des hosts, quels sont les hosts qui pointent vers www.annonce-legales.fr,


Avec leurs métriques qui sont ici et voilà les encres qui sont associées.
Et puis enfin, on a la même chose au niveau des URL, donc là ce sont des plus grandes
quantités de données bien sûr, et là on a vraiment tous les liens en eux-mêmes, par
exemple ce site domaines-légal.com pointe vers www.annonce-légal.fr avec l'encre
journal annonce légal, c'est un lien sur une page qui est en français qui est follow
mais c'est un lien qui est porté par une image.
En dessous on a un lien qui est en no-opener mais qui est un lien standard à href depuis
les échos de la franchise avec l'encre annonce légal, etc etc.
Donc là on a vraiment, ce que vous trouvez un peu partout chez d'autres opérateurs,
la liste des backlinks.


Si je reviens à l'overview, ensuite on a cette notion de santé HTTP, à chaque fois
que notre crawler arrive sur le web pour aller chercher une page web, un site web, et bien
il va demander à un certain serveur qui héberge une URL, l'accès à l'URL en question.
Et cet accès il va lui être donné ou alors il va y avoir un problème.
Il peut y avoir des codes 404 comme quoi la ressource n'existe pas, il peut y avoir des
codes 500 avec des erreurs serveurs, il peut y avoir des codes 300 parce qu'il y a des
redirections ou des codes 200, tout se passe bien.
Ces codes on va tous les regarder et on est capable de les restituer page par page bien
sûr.


Et ce qu'on appelle la santé HTTP, c'est une mesure qui vaut ce qu'elle vaut mais
c'est le nombre de codes 200 en proportion qu'on a réussi à avoir lors du crawl du
host en question, donc du site web.
Plus c'est haut, mieux c'est.


Bien sûr, si vous avez beaucoup de redirection, par exemple, ce score va avoir tendance à
baisser alors que ce n'est pas très important, donc c'est là où il faut regarder un petit
peu en détail ce qu'il se passe, mais en tout cas vous êtes sûr que quand le score
est haut, c'est que vraiment tout se passe très très bien.
Ça ce sont des données plutôt brutes, plutôt techniques.


Et puis ensuite, la force de Babbar, une des premières forces, c'est bien sûr d'avoir
des métriques pour être capable de prendre des décisions plus rapidement qu'en allant
regarder tout ce qui se passe au niveau d'un site web.
Donc ces métriques, elles sont pour certaines très intuitives si vous faites du SEO, pour
d'autres elles sont nouvelles et donc peut-être l'intuition n'est pas tout à fait la même.
Tout d'abord, ces métriques, elles sont toujours sur une échelle entre 0 et 100.
Et je vais insister sur un point, cette échelle, c'est une échelle qui est plutôt, qui n'a
pas d'effet d'échelle logarithmique ou exponentielle selon comment vous voulez dire les choses.


Quand on dit qu'une valeur c'est 49 sur une échelle de 0 à 100, ça veut dire que
littéralement vous avez une valeur de 49% qui vous indique que 51% des sites web sont
meilleurs que vous.
Parce qu'au-dessus de 49, il y a 51 valeurs possibles jusqu'à 100.
Et donc vous êtes meilleurs que 49% du web, grosso modo.
Donc c'est ça que dit chaque valeur.
Donc la host value, c'est la popularité avec ce qu'on appelle le modèle du surfeur
raisonnable.


C'est-à-dire qu'on calcule le page rank mais avec un modèle où les liens n'ont pas
la même valeur selon l'endroit où il se trouve dans la page.
Un lien qui sera en plein contenu transmettra plus de popularité par exemple qu'un lien
qui est dans le footer.


Et donc ça, c'est ce que fait un moteur comme Google, tous les moteurs modernes font
ça et ça va permettre de donner plus de valeur aux liens qui sont le plus mis en évidence
au regard des internautes.
Donc c'est le modèle de popularité qu'aujourd'hui on considère comme standard en terme de l'emplacement
des liens.


Avec ce modèle, le site d'annonces-legales.fr a une valeur de 49, ce qui est plutôt pas
mal.
Mais pas mal, ça ne veut rien dire, ce qu'il faudra c'est comparer cette valeur par rapport
à d'éventuels concurrents, ce qu'on verra un petit peu plus tard.
Une fois qu'on a vu cette valeur de popularité, alors que vous retrouvez chez d'autres opérateurs
– je ne vais pas vous donner les noms chez les autres opérateurs mais vous les imaginez
aisément – et bien il y a d'autres métriques.
Une autre métrique que vous connaissez probablement si vous êtes dans le SEO, c'est ce qu'on
appelle la confiance, le trust.


Donc on calcule le host trust, mais on a la même chose au niveau des pages ou des domaines,
et ici le site d'annonce-légal.fr a un score de 21 sur 100, ce qui est pas mal en fait
dans son secteur puisque 21 sur 100 ça paraît très peu, mais la réalité c'est que comme
le moteur fait des comparatifs dans une thématique des sites les uns par rapport aux autres, si avec 21 je suis meilleur que tous mes compétiteurs, ben en fait je suis tranquille, si avec 21
je suis en dessous de tous mes compétiteurs, là c'est plus risqué, il faut faire quelque
chose.


Donc c'est aussi toujours par rapport à la compétition qu'il faut juger ses scores
et pas dans l'absolu.
21 c'est plutôt bon en fait dans cette thématique, mais si on devait comparer ce site à des sites qui sont dans une autre thématique, et bien peut-être que ce serait tout à fait faible.
Donc ça c'est des métriques que vous connaissez, la popularité, la confiance, voilà, tous
les opérateurs qui analysent les liens en fait ont des scores analogues en vérité.
Là où les choses deviennent beaucoup plus intéressantes, ce sont sur les nouvelles
métriques que l'on a créées, que l'on propose dans Babbar.


La première de ces nouvelles métriques c'est ce qu'on appelle la sémantique value,
la sémantique value, vous la connaissez peut-être sous un autre nom, le pagerank thématique.


Quand on fait des liens entre des sites web, tous les SEO le savent, tous les SEO le prennent
en compte d'ailleurs quand ils font de l'achat de liens, de manière plus ou moins manuelle,
et bien la proximité thématique entre la page source d'un lien et la page cible d'un
lien c'est très important.


Et pourtant il n'existe qu'un opérateur qui fournit réellement un calcul de popularité
basé sur cette primitif de « il faut regarder si thématiquement la source et la cible sont
en adéquation ». Dans Babbar on le fait, c'est à dire qu'on va donner un coefficient de
transmission plus fort à des liens qui sont en proximité thématique et moins fort à
des liens qui ne sont pas en proximité thématique.
Et c'est très intéressant, on s'aperçoit quand on prend en compte ce modèle sémantique
du transfert de popularité, et bien que la popularité du site annonce-legal.fr est de
40, ce qui est moins bien que le transfert de popularité quand on ne module pas par
rapport à la sémantique qui est de 49.


Et donc on a un profil de lien qui n'est pas tout à fait aussi bien thématisé qu'il
pourrait l'être, par exemple dans le cas de ce site web, même s'il a déjà une très
belle valeur.
40 c'est quand même une belle valeur dans ce domaine, même si c'est un peu décoté
par rapport au 49.
40, une belle valeur, 21, la trust lui dit que par rapport au compétiteur c'est aussi
une belle valeur.
49 en termes de popularité, si on regarde par rapport au compétiteur, comme on va voir
tout à l'heure, c'est aussi une assez bonne valeur.


Mais quand on regarde ce site et qu'on n'est pas le SEO du site, on n'est pas le webmaster,
on peut se dire « là ok j'ai trois valeurs qui sont bonnes, mais si j'avais deux de
ces valeurs qui étaient au-dessus des compétiteurs et une qui était en dessous, est-ce que je
peux savoir si ce site est intéressant par exemple pour essayer d'avoir un lien? »
Le problème, quand on se pose cette question, c'est que finalement on a plusieurs métriques,
si on est bon pour toutes les métriques, le choix est vite fait, mais si on est mauvais
pour une métrique et bon pour d'autres, ça peut être beaucoup plus compliqué de se
décider.


Et on est bien conscient de ça chez Baba, on est bien conscient que manipuler trois
métriques simultanément, c'est pas forcément pratique, surtout si on veut prendre des
décisions extrêmement rapides sans faire trop d'analyses.
Et c'est pour ça qu'on a créé un quatrième score, une quatrième métrique, qui elle
va permettre de faire un critère unique de décision.
Cette métrique, c'est ce qu'on appelle le Babbar Authority Score, le BAS, que vous voyez
ici.
Le site annonces-legales.fr, il a un BAS de 36.


Le calcul du BAS, il n'est pas très intuitif, c'est une mesure synthétique qui prend en
compte, grosso modo qui est corrélée avec les autres mesures.


Si vous avez une bonne host value, un bon host trust, une bonne sémantique value, si
votre site n'est pas une ferme de lien avec trop de pages par rapport à la popularité
qu'il devrait avoir, alors son Babbar Authority Score va être plutôt haut.
Mais il ne pourra jamais être plus haut par exemple que la host value, qui est la limite
haute.


Si au contraire, votre site, il a une très mauvaise confiance, un niveau sémantique qui
est très en-deçà de la valeur non sémantique, et qu'en plus il y a beaucoup de pages par
rapport à ce peu de popularité, alors vous aurez un score très faible.
Donc voilà, c'est une mesure qui est un petit peu synthétique, qui regroupe les autres.
Elle marche, comme on le dit souvent par exemple nous dans les fameuses formations des frères Peyronnet, elle marche parce qu'elle marche, cette métrique, mais voilà, c'est celle
qui va fédérer les autres pour donner un seul indicateur synthétique qui regroupe
un petit peu pour la décision des autres.
Donc voilà ce que vous voyez dans l'overview.


Dans l'overview, dernière chose que vous voyez, c'est les principaux hosts similaires qu'on
trouve dans notre index.
Quand on parle de compétiteurs en SEO, le terme compétiteur, il peut prendre plusieurs
significations.
Les compétiteurs, c'est ceux qui se positionnent face à nous en premier, et quand on fait
du SEO, notre premier métier c'est d'être bien positionné dans le moteur de recherche,
et donc effectivement, les compétiteurs au sens de certains autres outils, ça va être
ceux qui se positionnent face à nous sur le même mot-clé.
Nous dans Babbar, on veut donner une information différente, et cette information qu'on donne ce sont les hosts similaires en termes sémantiques.
Il s'agit des sites qui sont concurrents face à nous sur la même thématique, et même
quand il y a une sous-thématique, vraiment quand il y a une niche finalement, ça va
être les concurrents directs en termes de sémantiques.
Annonces-legales.com, annonces-legales-faciles.com, annonces-legales, annonces-legals.com, c'est des
concurrents sémantiques de annonce-legales.fr, et effectivement on voit que Babbar se trompe assez peu sur les premiers, et ce qui est très intéressant bien sûr, c'est qu'on
peut voir leurs valeurs en termes de popularité.


Si je pense que par exemple le premier site, moi si je suis le webmaster de ce site-là,
je pense que ce premier site-là c'est un concurrent vraiment potentiel, je regarde
ses valeurs en termes de métrique, il a 22 en sémantique value, j'ai 40, il a 12
en trust, j'ai 21, il a 39 en popularité, j'ai 49, je suis plutôt tranquille.
Si je clique, je vois aussi qu'il a BAS qui est de 35, ce qui est d'ailleurs plutôt
pas mal par rapport à ses autres métriques, 35, j'ai 36, ça va je suis couvert, je suis
un petit peu meilleur que lui dans toutes les métriques, ça me paraît plutôt pas
mal.

Alors ici dans l'overview on en donne 4, mais bien sûr vous en avez beaucoup plus sur les
onglets supplémentaires, mais l'objectif, je le rappelle de cette vidéo, c'est de
voir tout ce qu'il y a dans l'overview, donc on donne les 4 premiers, et les 4 premiers
ce sont les 4 les plus proches d'un point de vue sémantique, ce ne sont pas forcément
les 4 plus puissants en termes de popularité, de trust ou etc, c'est vraiment les 4 plus
proches sémantiquement.
Alors ça c'est pour les informations chiffrées qu'on voit sur l'overview, après l'overview
donne accès à beaucoup d'autres choses, on peut bien sûr accéder à toutes sortes
de choses, les backlinks dans leur exhaustivité, les ancres, les meilleures pages du site classées par valeur, par trust, par sémantique value, par pagerank interne, quelque chose qui
sera le sujet d'une autre vidéo, par langue, on a tous les hosts similaires et on a d'autres
fonctionnalités supplémentaires que nous vous dévoilerons dans d'autres vidéos.
Par ailleurs ici il y a une petite chose supplémentaire, il y a ce qu'on appelle le spotfinder, qui
est une fonctionnalité qu'on va voir dans une autre vidéo, et il y a le batch overview,
là je vais cliquer puisque le batch overview c'est l'automatisation de ce que vous venez
de voir.


Si vous voulez tester plusieurs urls simultanément, et bien vous pouvez le faire là, ici par
exemple je vais prendre annonce légale, et j'ai vu tout à l'heure qu'il y avait
un certain nombre de concurrents que je peux trouver en tapant dans Google bien sûr annonce légale probablement.


Je vais prendre n'importe lequel, je vais en prendre un autre par exemple, pas cliquer
sur une annonce quand même, on va pas faire ça à des gens, je vais prendre celui-là,
hop, voilà je le mets là, et si je clique ici, et bien je peux voir toutes les informations,
je les mets au niveau url mais je fais toute la présentation niveau host, donc je recommence,
et ça me permet de voir ici toutes les métriques simultanément pour pouvoir vraiment comparer très rapidement des éléments les uns par rapport aux autres, et donc on voit tout de
suite qu'il y a une sacrée différence par exemple en nombre de backlinks, en nombre
de domaines référents, et ce genre de choses entre les deux sites.
Donc voilà un petit peu pour ce que je voulais vous dire sur l'overview, c'en est fini
pour cette vidéo, si vous avez des questions n'hésitez pas, si vous êtes client dans
le support de Babbar, dans les commentaires de la vidéo, on pourra, on regardera de temps
en temps, on répondra, etc, en nous interpellant sur Twitter, il y a un compte Babbar pour sur
Twitter, donc n'hésitez pas, et sur ces bonnes paroles, et bien je vous souhaite des bons
tests sur Babbar, et je vous dis à très bientôt dans une autre vidéo.

 

 


    • Related Articles

    • Qu'est ce que le Babbar Connect ? Comment l'utiliser ?

      C'est un moyen de mise en relation des utilisateurs de Babbar. À l'aide du Babbar Connect les utilisateurs qui "tombent" sur un site intéressant pour eux peuvent contacter le responsable du site, si ce dernier a été enregistré dans l'outil. Qui peut ...
    • Qu'est-ce que la métrique "Trust"

      Pierre va vous expliquer ce qu'est la métrique "Trust" dans l'outil Babbar.tech et quel est son intérêt.
    • Qu'est-ce que la métrique "Value"

      Pierre va vous expliquer ce qu'est la métrique Value dans l'outil Babbar.tech et quel est son intérêt.
    • Qu'est-ce que le "Semantic Explorer"

      Pierre va vous expliquer ce qu'est la métrique Semantic Explorer dans l'outil Babbar.tech et quel est son intérêt.
    • Les métriques de Babbar

      Présentation des principales métriques de l'outil Babbar pour votre pratique SEO. Le "scope" de tout ceci. Le graphe du web représente les "interactions" via les liens entre les pages. Toutes les métriques de linking que calcule un moteur de ...