Web Crawlers: come funzionano?

Consigli e suggerimenti 820 Leggi in circa 3 minuti

Vi siete mai chiesti come fanno i motori di ricerca a trovare ed inserire il vostro sito web? E come fanno a tenere il loro indice costantemente aggiornato, anche quando aggiungete nuovi contenuti? Cerchiamo di scoprirlo insieme.

Crawlers, Spiders o Robots?

Scommetto che avete già sentito almeno una di queste tre parole, ma probabilmente non sapete a cosa si riferiscono. Questi tre sinonimi, si riferiscono ai sistemi automatizzati utilizzati dai motori di ricerca, che non fanno altro che analizzare la rete seguendo degli URL. Tutto parte dalla pagina principale del vostro sito internet: il robot trova il vostro URL da qualche parte nella rete e lo segue per sbirciarci dentro, ma non si ferma qui! Nella vostra pagina iniziale avrete sicuramente un menu, con dei link che riportano alle altre pagine del vostro sito web. Seguendo questi link il Crawler riesce a generare una mappa del vostro sito web, così da poterlo inserire fra i risultati.

Anche KodersLab utilizza un crawler, molto più semplice, per analizzare i siti web sui nostri server alla ricerca di possibili malfunzionamenti.

Posso velocizzare il processo di indicizzazione?

L'unica cosa che si può fare per velocizzare il processo è fornire il dominio del vostro sito internet ai motori di ricerca, così da avvisare subito il crawler della sua esistenza. Per quanto riguarda Google, basta registrare il sito web alla Google Search Console. Questa opreazione però è considerata solo una segnalazione: non è detto che fornendo il vostro URL esso venga immediatamente inserito, state solo avvisando il crawler dicendogli "Hey, il mio dominio esempio.com esiste! Quando hai tempo, visitalo!". Non appena sarà il vostro turno, il crawler vi farà visita e deciderà se inserirvi nelle lunghissime pagine dei risultati, chiamate SERP (Search Engine Results Page).

Ma come, può decidere anche di non inserirmi?

Assolutamente si! Siete voi a dovergli dire cosa indicizzare. Gli spider utilizzano numerose variabili e algoritmi molto complessi, che decideranno se inserire le vostre pagine, ma sopratutto in che posizione verranno inserite. Ad esempio, prima di analizzare il vostro dominio, il crawler cercherà un file chiamato "robots.txt" nella root del vostro sito. Questo file viene utilizzato per indicare ai crawler quali file, cartelle o url non può visitare e quindi indicizzare. Un'altro aspetto che può determinare la mancata indicizzazione è l'attributo rel="nofollow" che può essere assegnato ad ogni url della pagina e non da il permesso al crawler di seguire quel determinato link. O peggio, il tag <meta name="robots" content="nofollow" /> che indica di non seguire nessun link sulla pagina.

Cosa determina l'indicizzazione e il posizionamento?

È veramente difficile rispondere ad una domanda che può avere infinite risposte. Vedremo di elencare i problemi più frequenti e conosciuti.

  • Javascript

    I Crawler non eseguono codice Javascript. O meglio, ultimamente Google ha introdotto questa funzionalità nei suoi crawler, ma è bene evitare dal momento che non esiste solo Google nel mondo dei motori di ricerca e comunque non si sa ancora quali effetti ha sul posizionamento.

  • Flash Player

    Flash Player è il male. Se ricorderete, non molto tempo fa era nata una battaglia fra Android e iOS. Il primo eseguiva Flash Player, il secondo preferiva invece lo standard HTML5. Indovinate chi vinse la battaglia? Ormai Flash Player non è più utilizzato nel mondo dello sviluppo web. Il suo codice non viene eseguito dai Crawler: quando essi visitano un sito web sviluppato in Flash Player, l'unica cosa che vedono è una bellissima pagina bianca. Risultato: pessima indicizzazione.

  • Link errati o non presenti

    Come abbiamo visto precedentemente, tutto parte dalla vostra homepage. Se all'interno di essa non ci sono i link che riportino alle altre pagine del vostro sito internet, il crawler non le troverà, ma come lui, nemmeno i vostri utenti! Fate quindi molta attenzione a come collegate le vostre pagine.

Link non presenti, mancata indicizzazione

Per concludere

Questo discorso apre un mondo ancor più vasto, chiamato Search Engine Optimization o come avrete già sentito dire, SEO. Se il vostro sito è presente sui motori ma non è fra le prime pagine dei risultati, è colpa di tutti gli altri aspetti che determinano l'importanza che i motori di ricerca assegnano alle vostre pagine. Cercheremo di analizzarli al meglio nei prossimi articoli, a presto!