Howto

le parole chiave: Logica di una query di ricerca. Capitolo 3

Bastano le parole Chiave ?

Ci ritroviamo nella metà degli anni ’90 ed è giunta l’era della corrispondenza delle parole chiave.

Negli anni ’90, con l’esplosione del World Wide Web, emersero numerosi motori di ricerca in una feroce competizione tra loro.

Excite, lanciato nel 1993, fu uno dei pionieri nel settore, distinguendosi per l’indicizzazione del testo completo delle pagine anziché limitarsi a parole chiave o metadati.

Nel 1994, Brian Pinkerton introdusse WebCrawler, un motore di ricerca che si distingueva per la navigazione tra i link al fine di indicizzare le pagine.

Yahoo, fondata nel 1994 da Jerry Yang e David Filo, adottò un approccio diverso creando una directory di siti web curata manualmente. Tuttavia, presto riconobbero l’efficienza superiore dei bot di crawling automatizzati. Nel 1995, YahooSearch iniziò ad indicizzare il Web utilizzando la tecnologia dei crawler, sancendo l’affermazione degli algoritmi automatizzati come futuro della ricerca.

le parole chiave
le parole chiave

Altri motori

Altri motori di ricerca significativi di quel periodo includono Lycos nel 1994, LookSmart nel 1995 e HotBot nel 1996.

E poi c’era AltaVista, considerato in molti aspetti il primo vero motore di ricerca sul web e compagno costante al Senior Computer Lab.

AltaVista mantenne la sua posizione di rilievo fino all’avvento di Google, distinguendosi per offrire un pacchetto completo che comprendeva larghezza di banda illimitata, ricerche full-text di pagine web con operatori booleani, query in linguaggio naturale e suggerimenti di ricerca, attirando fino a 80 milioni di visite al giorno nel 1995, l’anno del suo apice.

Nonostante le differenze nelle caratteristiche, tutti questi motori di ricerca si basavano sulla corrispondenza delle parole chiave: analizzavano i termini presenti nelle pagine web, associando le query degli utenti a queste parole chiave indicizzate all’interno dei contenuti. Un elemento chiave in questo contesto è rappresentato dai metadati, informazioni descrittive incorporare nelle pagine web che aiutano i motori di ricerca a comprendere il contenuto e la struttura del sito, facilitando il processo di indicizzazione e migliorando la precisione delle ricerche.

Questo è un problema?

La ricerca online, una delle attività più comuni nel nostro utilizzo quotidiano del web, ha subito un’evoluzione notevole nel corso degli anni. Tornando agli anni ’90, ci troviamo in un periodo in cui diversi motori di ricerca erano in competizione per offrire risultati pertinenti e utili agli utenti.

Immaginate di inserire una semplice query come “la migliore sfogliatella riccia al mondo”. Utilizzando i motori di ricerca basati su corrispondenza di parole chiave di quegli anni, i risultati potrebbero esservi presentati in base alla presenza delle parole “migliore”, “sfogliatella”, “riccia” e “mondo” nelle pagine, senza garantire una pertinenza assoluta al vostro intento. Questo approccio aveva limiti evidenti, poiché non era in grado di distinguere tra la ricerca della migliore riccia e la ricerca della migliore sfogliatella o di una riccia in generale 🙂 .

Il problema diventava più evidente quando si desiderava una personalizzazione più approfondita dei risultati. Ad esempio, preferireste ricette vegetariane o vegane? O magari ricette facili da cucinare o che richiedono meno tempo? Gli operatori di ricerca booleani come “AND”, “OR” e “NOT” potevano essere utilizzati, ma il loro campo di applicazione era limitato.

Google

In questo contesto, la ricerca necessitava di una rivoluzione, e questa rivoluzione si chiamava Google. Nel 1996, Sergey Brin e Larry Page, dottorandi di Stanford, introdussero il prototipo di Google. Contrariamente ai motori di ricerca precedenti, il rivoluzionario algoritmo di Google, chiamato PageRank, analizzava la struttura dei collegamenti ipertestuali dei siti web per determinare l’autorevolezza delle pagine per una specifica query. Le pagine collegate a molte altre venivano considerate più credibili e di alta qualità, assegnando loro posizioni privilegiate nelle SERP (Search Engine Results Pages).

Combinate con l’indicizzazione delle parole chiave, l’innovativa metodologia di PageRank ha proiettato Google al centro della scena dei motori di ricerca al momento del suo lancio nel 1998. Il suo successo è stato evidenziato dalla sua capacità di offrire risultati più pertinenti e personalizzati rispetto ai suoi predecessori.

Parallelamente, si sono sviluppati approcci statistici più avanzati al ranking. Motori di ricerca come Google hanno iniziato a utilizzare segnali statistici come la frequenza delle parole chiave, la lunghezza dei documenti e la percentuale di clic per valutare la rilevanza delle pagine web. Questi segnali sono stati integrati in modelli statistici complessi, che calcolano la probabilità che una pagina sia rilevante per una particolare query.

Tra gli approcci più significativi figurano il Term Frequency (TF), il Term Frequency-Inverse Document Frequency (TF-IDF) e l’algoritmo BM25F. Questi metodi hanno introdotto una dimensione più sofisticata nel processo di ranking, considerando non solo la frequenza delle parole chiave, ma anche altri fattori come la lunghezza del documento e la rarità del termine, migliorando ulteriormente la precisione dei risultati.

Mentre l’evoluzione degli algoritmi di ricerca continua grazie all’apprendimento automatico, il viaggio della ricerca ha raggiunto un punto cruciale nel corso degli anni ’90 con l’avvento di Google e la sua metodologia di ranking innovativa.

Lo Smartphone

Negli anni 2000, la ricerca online ha vissuto una trasformazione significativa con l’avvento dello smartphone, segnando una pietra miliare fondamentale nel modo in cui interagiamo con le informazioni digitali. Questa transizione ha trasformato la ricerca da un’attività confinata a uno schermo statico a qualcosa di mobile, ubiquo e estremamente personalizzato.

Lo smartphone non è solo uno strumento di comunicazione; è stato descritto da Danny Sullivan, un influente giornalista del settore della ricerca, come un “telefono di ricerca”. Questo dispositivo ci permette di accedere a informazioni in qualsiasi momento e luogo, rendendo la ricerca consapevole della posizione e del contesto.

L’approccio alla ricerca è diventato più focalizzato e personalizzato, con utenti che cercano risposte specifiche mentre sono in movimento. Non ci limitiamo più a cercare parole chiave generiche, ma cerchiamo informazioni che siano rilevanti per il nostro contesto immediato e le nostre esigenze specifiche.

La semantica avanza..

La semantica e la ricerca in linguaggio naturale hanno guadagnato sempre più importanza in questo contesto. Mentre in passato potevamo cercare “Migliori ristoranti di Napoli”, ora preferiamo formulare domande più specifiche come “Quali sono i ristoranti altamente raccomandati con un’ottima pizza a Napoli?”. Questo approccio richiede che i nostri dispositivi comprendano le query in linguaggio naturale e forniscono risposte immediate e mirate.

La mobilità non solo ha reso la ricerca onnipresente, ma ha anche cambiato radicalmente il paradigma della ricerca. Dalle vaghe combinazioni di parole chiave siamo passati a un linguaggio naturale più libero e contestualmente rilevante. Questo spostamento ha migliorato notevolmente l’esperienza di ricerca, consentendoci di ottenere risposte più pertinenti e tempestive mentre ci muoviamo nel nostro quotidiano sempre più frenetico.

L’ascesa della semantica e della ricerca in linguaggio naturale.

Verso la fine degli anni 2000, si è verificato un significativo cambiamento nel panorama della ricerca online con l’ascesa della semantica e della ricerca in linguaggio naturale. Questa evoluzione ha segnato il passaggio da una semplice corrispondenza di parole chiave alla comprensione più profonda dell’intento e del significato dietro le query di ricerca e i contenuti web.

L’introduzione della ricerca semantica è stata resa possibile grazie a tecnologie avanzate come l’elaborazione del linguaggio naturale (NLP), l’apprendimento automatico (ML) e i grafi di conoscenza. Questi sviluppi hanno consentito ai motori di ricerca di offrire risultati più accurati e contestualmente rilevanti, avvicinandosi alla capacità di comprensione umana e riducendo il divario tra l’intelligenza artificiale e quella naturale.

E’ evoluzione

La ricerca semantica si articola in diverse forme, tra cui la ricerca basata sulle entità, che si concentra sul riconoscimento e sulla comprensione di entità come persone, luoghi e organizzazioni; la ricerca contestuale, che tiene conto del contesto della query, fornendo risultati personalizzati; la ricerca basata sull’intento, che cerca di soddisfare l’obiettivo dell’utente interpretando il significato dietro le parole chiave; la ricerca basata sulle relazioni, che considera le connessioni semantiche tra diverse informazioni; e la risposta semantica alle domande, che mira a fornire risposte dirette a domande in linguaggio naturale.

Questa evoluzione ha radicalmente trasformato l’interazione tra gli utenti e i motori di ricerca, rendendo la ricerca un processo più intuitivo e orientato all’obiettivo. Will Oremus, ex Senior Technology Writer di Slate, ha sintetizzato questo cambiamento affermando che i computer, nel corso degli anni, hanno imparato a comprendere il linguaggio umano, consentendo agli utenti di comunicare con le macchine in modo più naturale e accessibile.