Howto

bot crawler : Logica di una query di ricerca. Capitolo 2

Ricercare Informazioni

Nella vasta rete di informazioni che costituisce il World Wide Web, i bot crawler hanno avuto e hanno un compito importante..

E’  fondamentale esplorare e comprendere il ruolo cruciale che questi programmi automatizzati svolgono nel contesto dei motori di ricerca e dell’indicizzazione web.

I bot crawler, noti anche come spider o web crawler, sono essenziali per garantire che i motori di ricerca mantengano un’ampia e aggiornata conoscenza delle pagine web disponibili. Questi agenti digitali partono da “seed URLs” e navigano attraverso la rete in modo sistematico, analizzando il contenuto delle pagine, raccogliendo link e indicizzando le informazioni raccolte per agevolare il successivo recupero durante le ricerche degli utenti.

L’analisi delle pagine da parte dei bot crawler comprende l’estrazione di testo, immagini e metadati, consentendo una comprensione dettagliata del contenuto. Questo processo di scansione e indicizzazione è cruciale per garantire che le risposte alle query degli utenti siano accurate e tempestive. Inoltre, la capacità dei bot di rilevare e seguire nuovi link garantisce una copertura estesa della rete, permettendo ai motori di ricerca di aggiornare costantemente il loro database.

Un aspetto interessante da esaminare è il ciclo continuo di scansione e indicizzazione effettuato dai bot crawler. Questo ciclo consente ai motori di ricerca di adattarsi dinamicamente alle modifiche della rete, mantenendo una rappresentazione fedele e aggiornata del contenuto web. È un processo incessante e fondamentale per la funzionalità ottimale dei motori di ricerca moderni.

Tuttavia, è cruciale notare che i bot crawler possono essere utilizzati non solo a fini di indicizzazione per i motori di ricerca, ma anche per altri scopi come il data mining e il monitoraggio delle modifiche apportate alle pagine web nel tempo. Questa versatilità li rende strumenti potenti, ma suscita anche questioni etiche e di privacy, sollevando interrogativi sulla gestione responsabile dell’informazione online.

bot crawler
bot crawler

I primi bot crawler: Archie, Veronica e Jughead (1990-91)

Le basi della ricerca su Internet sono iniziate con il primo crawler bot, Archie.

Creato alla McGill University nel 1990 da Alan Emtage, Archie scaricava elenchi di file da siti FTP (File Transfer Protocol) pubblici e anonimi e creava un database ricercabile. Tuttavia, Archie non indicizzava l’intero contenuto di questi siti. Gli utenti cercavano semplicemente i nomi dei file e il programma restituiva gli URL in cui era possibile trovarli.

Ispirandosi ad Archie, Bill Heelan creò Veronica nel 1991 per aiutare gli utenti a localizzare i file sui server Gopher.

Jughead, anch’esso rilasciato nel 1991 da Steven Foster, indicizzava le directory dei file e i metadati.

Questi primi crawler, basati sui personaggi dei fumetti, hanno gettato le basi fondamentali per la ricerca come la conosciamo oggi, automatizzando la scoperta e l’indicizzazione dei contenuti per rendere navigabile il mondo online in rapida crescita.

Tuttavia, tutti si basavano esclusivamente sulle parole chiave per individuare i file. Mancavano di un ranking di rilevanza e di una comprensione delle relazioni tra i termini. I risultati erano elencati in ordine alfabetico o cronologico, il che li rendeva noiosi e inefficienti.

I primi motori di ricerca web (primi anni ’90)

Nel 1992 apparve un motore di ricerca nettamente diverso, chiamato W3Catalog. Creato da Oscar Nierstrasz dell’Università di Ginevra, attingeva a elenchi esistenti di siti web di alto livello, risparmiandosi la fatica di setacciare il vasto web.

Ma aveva un piccolo intoppo. Il suo bot visitava ciascuno di questi siti web più volte al giorno, causando problemi di prestazioni.

Ecco Martijn Koster e la sua idea, ALIWEB. Invece di affidarsi a un robot web, AliWeb chiedeva agli amministratori dei siti web di notificare al motore di ricerca la presenza di un file di indice in un formato specifico. Si trattava di un modo per ridurre il crawling eccessivo e conservare la larghezza di banda.

Sebbene ALIWEB sia riuscito a ridurre la pressione sui server, molti amministratori di siti web non avevano idea dell’importanza di inviare i propri dati. Era come se esistesse un club segreto, di cui non tutti erano a conoscenza delle regole di adesione.

Poi, nel 1993, accadde qualcosa di straordinario. Jonathon Fletcher intervenne e creò JumpStation, un motore di ricerca innovativo che combinava i poteri di crawling, indicizzazione e recupero.

Da quel momento in poi non si è più guardato indietro!