Come funziona un web crawler

Il world wide web è ricco di informazioni. Se vuoi conoscere e approfondire un argomento, quasi certamente puoi trovare tutte le informazioni online. Ma come puoi trovare la risposta che desideri, quando il web contiene migliaia di miliardi di pagine? Sai dove guardare?

Fortunatamente abbiamo i motori di ricerca che lo fanno per noi. Ma come fanno i motori di ricerca a sapere dove guardare? In che modo i motori di ricerca possono consigliare alcune pagine dei trilioni esistenti?

La risposta si trova nel web crawler

I web crawler sono programmi che eseguono la scansione del Web, “leggendo” tutto ciò che trovano. I web crawler sono anche noti come spider, bot o indicizzatori automatici.

Questi crawler analizzano le pagine Web per vedere quali parole contengono e dove vengono utilizzate. Il crawler trasforma i risultati acquisiti in un enorme indice. L’indice è fondamentalmente una grande lista di pagine web e di parole che le caratterizzano.

Quando chiedi (query) a un motore di ricerca pagine sugli ippopotami, il motore di ricerca controlla il suo indice e ti fornisce un elenco di pagine che menzionano ippopotami. I web crawler effettuano regolarmente la scansione del web in modo da avere sempre un indice sempre aggiornato.

Le implicazioni SEO dei web crawler

Ora che sai come funziona un web crawler, puoi immaginare il potenziale impatto che può avere sul modo in cui ottimizzi il tuo sito web.

Ad esempio, se vendi fiori, è importante che tu scriva su piante e fiori per il tuo sito web. Se non crei ottimi contenuti sui fiori, i motori di ricerca non suggeriranno mai il tuo sito agli utenti che stanno cercando informazioni su fiori e piante.

Tuttavia i motori di ricerca sono andati ben oltre questa logica che ha caratterizzato da sempre il web. Oggi infatti riescono a suggerire agli utenti, pagine e contenuti che rispecchiano sempre più fedelmente l’intento della ricerca. 

Che cosa vuol dire intento di ricercaVuol dire che se un utente sta cercando informazioni per acquistare online dei fiori riceverà un risultato differente da chi invece sta cercando solamente delle informazioni generiche sulla coltivazione dello stesso fiore.

È anche importante notare che i web crawler non si limitano a prestare attenzione a quali parole trovano, ma registrano anche dove sono state trovate le parole.

Quindi il web crawler sa che una parola contenuta in titoli, metadati e le prime frasi sono probabilmente più importanti che nel contesto della pagina, e che le parole chiave nelle posizioni principali suggeriscono che la pagina è davvero incentrata “su” quelle parole chiave.

Il fatto che i web crawler controllino regolarmente il web per assicurarsi che il loro indice sia aggiornato suggerisce anche che avere sempre contenuti nuovi e freschi sul tuo sito web è una buona cosa.

Non tutti i contenuti possono essere trovati dai web crawler

I web crawler sono programmi che a prima vista potrebbero sembrare molto semplici.
Iniziano con un elenco di collegamenti da esaminare e quindi seguono i collegamenti che trovano. Sembra semplice, giusto? Bene, sì lo sono, finché non arrivano a pagine complesse con contenuti dinamici.

Pensa a contenuti Flash, moduli, animazioni e altre risorse dinamiche. Ci sono molti motivi per cui un web crawler non veda il tuo sito web nello stesso modo in cui lo fanno i tuoi utenti.

In effetti, molte aziende adottano misure per garantire che i web crawler “vedano” tutti i contenuti disponibili. Tuttavia questo potrebbe rappresentare un problema per i siti web con molti contenuti dinamici, visibili solo dopo la ricerca dei contenuti.

Il ruolo di Robots.txt

Puoi dare istruzioni ai web crawler inserendoli in un file chiamato robots.txt.
Potresti chiedere ai web robot di ignorare il tuo sito web o saltare alcune sezioni.
Potresti anche voler aiutare il robot ad accedere a ogni parte del tuo sito Web, in particolare se disponi di un sito web complesso o dinamico.

Indici del motore di ricerca

Una volta che il crawler ha trovato le informazioni , eseguendo la scansione sul Web, il programma crea l’indice. L’indice è essenzialmente una grande lista di tutte le parole trovate dal crawler, oltre alla loro posizione.

Perché l’indicizzazione è solo l’inizio…

Per dare risposte pertinenti alle query di ricerca, i motori di ricerca devono interpretare i collegamenti nel loro indice. I motori di ricerca utilizzano algoritmi, che sono essenzialmente equazioni complesse, per “valutare” il valore o la qualità dei collegamenti nel suo indice.

Quindi quando cerchi “ippopotami”, il motore di ricerca prenderà in considerazione centinaia di fattori quando scegli quali siti web offrire all’utente.

Tra i fattori principali che i motori di ricerca considerano , sono inclusi :

  • Quando la pagina è stata pubblicata.
  • Se la pagina include testo, immagini e video.
  • La qualità del contenuto.
  • La corrispondenza alle query di ricerca dell’utente.
  • La velocità di caricamento della pagina e del sito web.
  • Quanti link da altri siti web puntano al contenuto.
  • Quante persone hanno condiviso i tuoi contenuti online …

…e molti altri. In un post futuro esamineremo più in dettaglio i 200 fattori che Google considera quando forniscono i risultati di ricerca.

Penalizzazioni e deindicizzazione da Google

Google non desidera raccomandare siti web di scarsa qualità, quindi se ti impegni in una serie di pratiche di spam potresti essere penalizzato dall’indicizzazione del tuo sito web. Cosa significa?

Significa che il tuo sito web non sarà più presente nell’indice di Google, pertanto il tuo sito web non verrà più visualizzato nei risultati di ricerca di Google.

Come puoi immaginare, questo è uno scenario catastrofico per qualsiasi azienda che abbia una presenza online. Affidarsi dunque a professionisti del settore , può essere la strada migliore per non incappare in spiacevoli quanto dannosi inconvenienti.

The following two tabs change content below.
Mi chiamo Melchiorre Schifano è sono un SEO e Web Designer o in altre parole, realizzo siti web moderni e compatibili con le moderne tecnologie e li ottimizzo secondo le regole dettate dai motori di ricerca. Se ti è piaciuto questo articolo condividilo sui social; a te non costa niente ma per me sarebbe un segnale di apprezzamento per il mio lavoro :-)

Ultimi post di melchiorre schifano (vedi tutti)