For små to måneder siden begyndte jeg at kigge mig om efter en metode til at spore søgemaskinernes robotter i Google Analytics. Det kan for det første være meget sjovt at se hvornår de kommer forbi første gang efter en ny side er lanceret, men også efterfølgende at følge lidt med i hvor tit de kigger forbi og leder efter nyt indhold. Jeg fandt frem til en engelsk artikel, som er en oversættelse af en fransk artikel (ikke er tilgængelig mere), hvor de fortalte om et lille PHP script de havde lavet så det var muligt at spore søgerobotterne i Google Analytics.

Nåh, men jeg fandt altså frem til dette script som franskmændene havde lavet og fik det implementeret, og det fungerer faktisk rigtig godt, så derfor vil jeg lige dele det med jer her, samt lidt erfaringer med det. Da den oprindelige franske artikel ikke findes mere er der også begyndt at mangle nogle screenshots ovre i den engelsk artikel, så derfor har jeg lavet nogle nye som jeg vil forklare ud fra.

Opsætning i Google Analytics

Først starter du med at oprette en ny profil til dit websted:

Sæt den øverste indstilling til “Add a profile for a new domain” og giv profilen et passende navn f.eks. “robots.jacobworsoe.dk”, sæt tidszonen korrekt og tryk på “finish”:

Derefter skal du downloade denne pakke med 3 php-filer og pak dem ud i din web-mappe. I den fil som hedder config.php skal der ændres 3 ting. Den første linje som hedder “$var_utmhn” skal indeholde navnet på dit domæne, i dette tilfælde “jacobworsoe.dk”. Den næste linje skal indeholde ID’et for den profil du lige har lavet. Den finder du ved at gå tilbage til oversigten i GA:

I den sidste linje skal du indsætte en værdi som du finder i den cookie som GA laver i din browser når du besøger din egen side. Bemærk er det kun er de tal der er markeret på billedet der skal med, altså kun dem før det første punktum:

Config.php kommer derved til at se således ud:

 

Nu skal du så bare sørge for at inkludere den fil der hedder “analytics.php” på alle dine sider og scriptet vil derefter sørge for at spore ikke mindre end 841 forskellige bots og så kan du holde øje med dem via den nye profil du har oprettet. De bliver altså ikke blandet sammen med dine “rigtige” besøgende som du tracker på almindelig vis. Jeg har lagt alle 3 php-filer i en mappe for sig som jeg kalder “analytics” og jeg inkluderer derfor filen med include(“analytics/analytics.php”);. I kommentarerne på den engelsk blog bliver der spurgt om man også skal indsætte GA tracking scriptet fra den nye profil, men det skal man ikke – det hele foregår via PHP scriptet, så det er ikke nødvendigt.

Hvad kan jeg så se?

Nu har du adgang til en masse informationer om de bots der besøger din side. Jeg implementerede det på mit linkkatalog den 23. november og der er nu ved at være samlet lidt data vi kan kigge på. I Google Analytics går du ind under “Traffic sources – search engines” og får en liste over alle de forskellige bots der har crawlet din side:

Hvis man klikker på de enkelte bots kan man se at der faktisk er meget forskel på hvordan de crawler en side. Yahoo kommer f.eks. næsten hver dag og crawler et lille udsnit af sitet hver gang:

Google kommer derimod kun sjældent, men crawler så til gengæld 811 sider og holder sig så væk. Botten kommer dog forbi engang imellem når der kommer nyt indhold på sitet og crawler de nye sider, men alle de “gamle” sider bliver kun crawlet sjældent. I hvert fald på mit linkkatalog, men det afhænger selvfølgelig meget af sitet:

Man kan derudover også se hvilke sider der er besøgt og her er robots.txt en klar topscorer, men også de vigtigste undersider bliver crawlet ofte:

 

Til sidst et eksempel fra denne blog, hvor man kan se at Google har en bestemt bot som kun crawler rss-feeds. Det var ny viden for mig :)

Alt i alt et ganske smart lille trick som kan give lidt ny viden hvis man interesserer sig lidt for hvordan de forskellige bots egentlig opfører sig i praksis. Jeg glæder mig til at høre om det er noget I andre også finder sjovt?