Teutra/blog » SEO » Capire i web crawler per capire come funziona internet

 

I web crawler sono algoritmi che scansionano continuamente internet alla ricerca d’informazioni.

Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Fonte: WIkipedia.

Il world wide web è ricco d’informazioni.

Se vuoi conoscere e approfondire un argomento, puoi trovare online tutte le informazioni di cui ha bisogno.

Ma come puoi trovare la risposta che desideri quando il web contiene migliaia di miliardi di pagine?

Sai dove guardare?

Fortunatamente abbiamo i motori di ricerca che lo fanno per noi. 

Ma come fanno i motori di ricerca a sapere dove guardare

In che modo i motori di ricerca possono consigliare alcune pagine tra tutte quelle esistenti?

 

 

La risposta si trova nel web crawler

 

I web crawler sono programmi che eseguono la scansione del web, “leggendo” tutto ciò che trovano.

I web crawler sono anche noti come spider, bot o indicizzatori automatici.

Questi software analizzano le pagine web per vedere quali parole contengono e come e dove vengono utilizzate.

Il web crawler trasforma i risultati acquisiti in un enorme indice

L’indice è fondamentalmente una grande lista di pagine web e di parole che le caratterizzano.

Ad esempio, se interroghi Google (query) alla ricerca d’informazioni sugli ippopotami, il motore di ricerca controlla il suo indice e ti fornisce un elenco di pagine che menzionano gli ippopotami.

I web crawler effettuano regolarmente la scansione del web in modo da avere un indice sempre aggiornato.

Googlebot è il robot di Google, l’algoritmo che visita regolarmente le pagine del web. 

Ma ce ne sono molti altri, Bingbot è il web crawler di Bing, il motore di ricerca di Microsoft.

 

 

 

Le implicazioni SEO dei web crawler

 

Ora che sai come funziona un web crawler, puoi immaginare il potenziale impatto che può avere sul modo in cui ottimizzi il tuo sito web.

Essere presente nell’indice del motore di ricerca, non comporta automaticamente la visibilità.

Ad esempio se vendi fiori, è importante che tu realizzi contenuti su piante e fiori per il tuo sito web.

Se non crei però contenuti di qualità sui fiori e piante, i motori di ricerca non suggeriranno mai il tuo sito agli utenti che stanno cercando informazioni su fiori e piante.

Perché qualcuno dovrebbe leggere un articolo sui fiori dai contenuti banali, che non danno al lettore nessun valore aggiunto?

Ben diversa è la situazione se nel tuo articolo approfondisci l’argomento.

Un lettore è più motivato a leggere un articolo che gli dà informazioni utili.

Il lettore apprezza e anche i motori di ricerca lo fanno.

Tuttavia i motori di ricerca sono andati ben oltre questa logica che ha caratterizzato da sempre il web. 

Oggi infatti riescono a suggerire agli utenti, pagine e contenuti che rispecchiano sempre più fedelmente l’intento della ricerca

Che cosa vuol dire intento di ricerca?

Vuol dire che se un utente sta cercando informazioni per acquistare online delle rose ad esempio, riceverà dai motori di ricerca una pagina di risultati differente da chi invece sta cercando solamente delle informazioni generiche sulla coltivazione delle rose.

È anche importante notare che i web crawler non si limitano a prestare attenzione a quali parole trovano, ma registrano anche dove sono state trovate le parole all’interno del testo.

Quindi il web crawler sa che una parola contenuta in titoli, meta dati e primo paragrafo è probabilmente più importante di altre che si trovano nel contesto della pagina.

Inoltre le parole chiave nelle posizioni principali suggeriscono che la pagina è davvero incentrata “su” quello specifico argomento.

Il fatto che i web crawler controllino regolarmente il web per assicurarsi che il loro indice sia costantemente aggiornato suggerisce anche che avere sempre contenuti nuovi e freschi sul tuo sito web è una buona idea.

 

Non tutti i contenuti possono essere trovati dai web crawler

 

I web crawler sono programmi che a prima vista potrebbero sembrare molto semplici.

Iniziano con un elenco di collegamenti (link) da esaminare e quindi seguono i collegamenti che trovano.

Sembra semplice, giusto? Bene, sì lo sono, finché non arrivano a pagine complesse con contenuti dinamici.

Pensa a contenuti Flash, moduli, animazioni e altre risorse dinamiche

Ci sono molti motivi per cui un bot non vede il tuo sito web nello stesso modo in cui lo fanno i tuoi utenti.

Molti webmaster adottano misure per garantire che i web crawler “vedano” tutti i contenuti disponibili.

Questo è il motivo per cui si evita di costruire contenuti graficamente belli da vedere ma che sono penalizzati dai motori di ricerca come ad esempio le animazioni flash che, infatti, sono quasi scomparse da internet.

 

Il ruolo di Robots.txt

 

Puoi dare istruzioni ai web crawler inserendo particolari direttive in un file che sta sul tuo sito internet chiamato robots.txt.

Potresti chiedere al software automatico di scansione delle pagine d’ignorare il tuo sito web del tutto o solo di saltare alcune sezioni.

Potresti anche voler aiutare il robot ad accedere a ogni parte del tuo sito web, in particolare se disponi di un sito web complesso o dinamico.

Certo questa operazione è delicata perché se non si conoscono i giusti comandi, si rischia di dare istruzioni che inibiscono l’accesso a pagine importanti del tuo sito.

Per questo motivo sconsiglio operazioni “fai da te”.

 

Indici del motore di ricerca

 

Le modifiche o le nuove pagine che un robot trova scansionando il web, vengono registrate in un enorme contenitore chiamato indice.

L’indice è essenzialmente una grande lista di tutte le pagine web.

Le pagine vengono catalogate per argomenti, associazione e relazione.

Per approfondire questo argomento, puoi leggere la mia guida su indicizzazione, ottimizzazione e posizionamento.

 

Perché l’indicizzazione è solo l’inizio

 

Per dare risposte pertinenti alle interrogazioni degli utenti, i motori di ricerca devono interpretare i collegamenti nel loro indice.

I motori di ricerca utilizzano algoritmi, che sono essenzialmente equazioni complesse, per “valutare” il valore o la qualità dei collegamenti nel suo indice.

Quindi quando cerchi “ippopotami”, il motore di ricerca prenderà in considerazione centinaia di fattori per mostrare all’utente le migliori pagine esistenti sull’argomento selezionato.

Tra i fattori principali che i motori di ricerca considerano, sono inclusi:

  • Quando la pagina è stata pubblicata.
  • Se la pagina include testo, immagini e video.
  • La qualità del contenuto.
  • La corrispondenza rispetto alla query di ricerca dell’utente.
  • La velocità di caricamento della pagina e del sito web.
  • Quanti link da altri siti web puntano al contenuto.
  • Quante persone hanno condiviso i tuoi contenuti online ad esempio, sui social.

…e molti altri. 

In questo post, la lista dei 200 fattori che Google considera quando costruisce una pagina con i risultati della ricerca.

 

Penalizzazioni e de-indicizzazione da Google

 

Google non desidera raccomandare siti web di scarsa qualità, quindi se ti impegni in una serie di pratiche che cercano d’ingannare il motore di ricerca potresti essere penalizzato nell’indicizzazione del tuo sito web. 

Cosa significa?

Significa che il tuo sito web non sarà più presente nell’indice di Google, pertanto non verrà più visualizzato nei risultati della ricerca.

Come puoi immaginare, questo è uno scenario catastrofico per qualsiasi azienda che abbia una presenza online.

Recuperare una penalizzazione è complesso e richiede del tempo.

Affidarsi dunque a professionisti del settore, può essere la strada migliore per non incappare in spiacevoli quanto dannosi inconvenienti.