Home » SEO » Capire i web crawler per capire come funziona internet

Un crawler (detto anche web crawler, spider o robot), è un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato, in genere per conto di un motore di ricerca. Fonte: WIkipedia

Il world wide web è ricco d’informazioni.

Se vuoi conoscere e approfondire un argomento, quasi certamente puoi trovare tutte le informazioni di cui ha bisogno online.

Ma come puoi trovare la risposta che desideri quando il web contiene migliaia di miliardi di pagine? Sai dove guardare?

Fortunatamente abbiamo i motori di ricerca che lo fanno per noi. 

Ma come fanno i motori di ricerca a sapere dove guardare? 

In che modo i motori di ricerca possono consigliare alcune pagine tra i trilioni esistenti?

 

La risposta si trova nel web crawler

 

I web crawler sono programmi che eseguono la scansione del web, “leggendo” tutto ciò che trovano.

I web crawler sono anche noti come spider, bot o indicizzatori automatici.

Questi software analizzano le pagine web per vedere quali parole contengono e come e dove vengono utilizzate.

Il crawler trasforma i risultati acquisiti in un enorme indice

L’indice è fondamentalmente una grande lista di pagine web e di parole che le caratterizzano.

Quando chiedi (query) a un motore di ricerca ad esempio, pagine sugli ippopotami, il motore di ricerca controlla il suo indice e ti fornisce un elenco di pagine che menzionano gli ippopotami.

I web crawler effettuano regolarmente la scansione del web in modo da avere un indice sempre aggiornato.

 

Le implicazioni SEO dei web crawler

 

Ora che sai come funziona un web crawler, puoi immaginare il potenziale impatto che può avere sul modo in cui ottimizzi il tuo sito web.

Ad esempio se vendi fiori, è importante che tu scriva contenuti su piante e fiori per il tuo sito web.

Se non crei però contenuti di qualità sui fiori e piante, i motori di ricerca non suggeriranno mai il tuo sito agli utenti che stanno cercando informazioni su fiori e piante.

Perché qualcuno dovrebbe leggere un articolo sui fiori dai contenuti banali, che non danno al lettore nessun valore aggiunto?

Ben diversa è la situazione se nel tuo articolo approfondisci l’argomento.

Un lettore è più motivato a leggere un articolo che gli dà informazioni utili.

Il lettore apprezza e anche i motori di ricerca lo fanno.

Tuttavia i motori di ricerca sono andati ben oltre questa logica che ha caratterizzato da sempre il web. 

Oggi infatti riescono a suggerire agli utenti, pagine e contenuti che rispecchiano sempre più fedelmente l’intento della ricerca

Che cosa vuol dire intento di ricerca?

Vuol dire che se un utente sta cercando informazioni per acquistare online delle rose ad esempio, riceverà dai motori di ricerca una pagina di risultati differente da chi invece sta cercando solamente delle informazioni generiche sulla coltivazione delle rose.

È anche importante notare che i web crawler non si limitano a prestare attenzione a quali parole trovano, ma registrano anche dove sono state trovate le parole all’interno del testo.

Quindi il web crawler sa che una parola contenuta in titoli, meta dati e primo paragrafo è probabilmente più importante di altre che si trovano nel contesto della pagina.

Inoltre le parole chiave nelle posizioni principali suggeriscono che la pagina è davvero incentrata “su” quello specifico argomento.

Il fatto che i web crawler controllino regolarmente il web per assicurarsi che il loro indice sia costantemente aggiornato suggerisce anche che avere sempre contenuti nuovi e freschi sul tuo sito web è una buona idea.

 

Non tutti i contenuti possono essere trovati dai web crawler

 

I web crawler sono programmi che a prima vista potrebbero sembrare molto semplici.

Iniziano con un elenco di collegamenti (link) da esaminare e quindi seguono i collegamenti che trovano.

Sembra semplice, giusto? Bene, sì lo sono, finché non arrivano a pagine complesse con contenuti dinamici.

Pensa a contenuti Flash, moduli, animazioni e altre risorse dinamiche

Ci sono molti motivi per cui un web crawler non vede il tuo sito web nello stesso modo in cui lo fanno i tuoi utenti.

In effetti, molte aziende adottano misure per garantire che i web crawler “vedano” tutti i contenuti disponibili evitando di costruire contenuti graficamente belli da vedere ma penalizzati dai motori di ricerca come ad esempio le animazioni flash che infatti, sono quasi scomparse da internet.

 

Il ruolo di Robots.txt

 

Puoi dare istruzioni ai web crawler inserendo particolari direttive in un file che sta sul tuo sito internet chiamato robots.txt.

Potresti chiedere al software automatico di scansione delle pagine d’ignorare il tuo sito web o saltare alcune sezioni.

Potresti anche voler aiutare il robot ad accedere a ogni parte del tuo sito web, in particolare se disponi di un sito web complesso o dinamico.

Certo questa operazione è delicata perché se non si conoscono i giusti comandi, si rischia di dare istruzioni che inibiscono l’accesso a pagine del tuo sito importanti.

Per questo motivo sconsiglio operazioni “fai da te”.

Indici del motore di ricerca

 

Una volta che il crawler ha trovato le informazioni eseguendo la scansione sul web, il programma crea l’indice.

L’indice è essenzialmente una grande lista di tutte le pagine web, gli argomenti le parole trovate dal crawler, oltre alla loro posizione e la loro associazione e relazione.

 

Perché l’indicizzazione è solo l’inizio…

 

Per dare risposte pertinenti alle query di ricerca, i motori di ricerca devono interpretare i collegamenti nel loro indice.

I motori di ricerca utilizzano algoritmi, che sono essenzialmente equazioni complesse, per “valutare” il valore o la qualità dei collegamenti nel suo indice.

Quindi quando cerchi “ippopotami”, il motore di ricerca prenderà in considerazione centinaia di fattori per mostrare all’utente le migliori pagine esistenti sull’argomento selezionato.

Tra i fattori principali che i motori di ricerca considerano, sono inclusi:

  • Quando la pagina è stata pubblicata.
  • Se la pagina include testo, immagini e video.
  • La qualità del contenuto.
  • La corrispondenza alle query di ricerca dell’utente.
  • La velocità di caricamento della pagina e del sito web.
  • Quanti link da altri siti web puntano al contenuto.
  • Quante persone hanno condiviso i tuoi contenuti online ad esempio, sui social.

…e molti altri. 

In un post futuro esamineremo più in dettaglio i 200 fattori che Google considera quando costruisce una pagina con i risultati di ricerca per una determinata query.

 

Penalizzazioni e de-indicizzazione da Google

 

Google non desidera raccomandare siti web di scarsa qualità, quindi se ti impegni in una serie di pratiche di spam potresti essere penalizzato dall’indicizzazione del tuo sito web. Cosa significa?

Significa che il tuo sito web non sarà più presente nell’indice di Google, pertanto non verrà più visualizzato nei risultati della ricerca.

Come puoi immaginare, questo è uno scenario catastrofico per qualsiasi azienda che abbia una presenza online.

Affidarsi dunque a professionisti del settore, può essere la strada migliore per non incappare in spiacevoli quanto dannosi inconvenienti.