I motori di ricerca 

Francesca Turco*

 

Il sistema di funzionamento dei motori di ricerca è, piuttosto grossolanamente, il seguente: vengono “lanciati” in rete i cosiddetti spider (o crawler), programmi che periodicamente esaminano i siti in cui si imbattono partendo da un indirizzo prefissato e proseguendo con tutti i collegamenti (link) presenti nel sito di partenza e così di seguito. Ogni volta che uno spider esamina un sito lo indicizza, crea cioè un database di parole contenute nel sito, oppure (e qui le pretese dei programmatori paiono un po' eccessive) di concetti. Quando un utente interroga il motore di ricerca questo controlla nel proprio database i siti che soddisfano le richieste immesse e fornisce la risposta. È pacificamente accettato che nessun motore di ricerca esamini tutti i siti presenti nel Web, non si sa neanche quanti siano in totale, diverse fonti forniscono le informazioni più disparate (dal centinaio di milioni alle centinaia di miliardi), ma anche questo esame parziale fornisce un numero di risposte quasi sempre spaventoso. Chiunque abbia mai utilizzato un motore per una ricerca sa perfettamente come sia quasi sempre impensabile esaminare tutte le segnalazioni ottenute, e come la questione da risolvere non sia quindi tanto quella di reperire materiale, quanto di ottenerlo il più possibile vagliato. Vediamo quindi nel dettaglio alcuni motori che permettono di raffinare la ricerca.

Altavista

Altavista (http://www.altavista.com) è considerato il motore che censisce la maggior porzione di rete, ma il motivo per cui qui lo propongo per primo è che ha sicuramente il sistema di ricerca avanzata più versatile e quindi utile. È già possibile porre una serie complessa di vincoli con l'immissione della stringa di parole da cercare: racchiudendo il testo digitato tra virgolette verranno cercati i vocaboli richiesti nella successione esatta con cui sono stati immessi, troncando una parola e completandola con l’asterisco verranno segnalate tutte le variazioni grammaticali di quella particolare radice (ad es. con scienz* sì avranno scienza, scienze, scienziati, ecc.). Come molti altri motori Altavista prevede l’uso degli operatori booleani per cercare particolari combinazioni di termini, ma oltre alle classiche, e piuttosto diffuse, opzioni and, or e and not prevede la possibilità di utilizzare l’operatore near, utilissimo perché segnala un sito solo se i due termini, o i due gruppi di termini, immessi sono “vicini” (da varie prove effettuate suppongo che “vicini” possa voler dire presenti nella stessa pagina e non dispersi in due diverse pagine del sito). Altre restrizioni possono essere poste effettuando una ricerca complessa (selezionare 'Advanced'). In questa pagina è possibile decidere la lingua alla quale si deve limitare la ricerca (opzione piuttosto inutile, la lingua nella quale si immettono i termini da cercare è quasi sempre sufficiente ad effettuare questa selezione), oppure è possibile selezionare il paese o il dominio a cui si vuole che la ricerca sia limitata. Oltre a queste opzioni, un po' ripetitive, è presente un comando ('Date') che pochi motori offrono e che risulta molto utile in realazione alla formazione permanente: la possibilità di discriminare le segnalazioni in base al fattore temporale, limitando la ricerca ai siti creati o aggiornati nell’intervallo di tempo desiderato, permettendo quindi di ottenere le segnalazioni esclusivamente del materiale recente. Questo per quanto riguarda la modalità principale di ricerca, allargata a tutto il Web. Recentemente sono state introdotte nuove possibilità di ricerca, una di queste riguarda il materiale fotografico. È raggiungibile facilmente dalla home page selezionando 'Image', e ha anch'essa alcune opzioni di ricerca avanzata (solo immagini, o grafici o bianco e nero, ecc...). Trascurerei le sezioni 'Audio' e 'Video' e rimando la spiegazione di 'Directory' alla prossima puntata.

Google

Google è senz’altro il motore di ricerca più veloce nel fornire le risposte, ma questo punto è ormai poco rilevante, essendo quasi tutti i motori veloci a sufficienza. Personalmente trovo particolarmente gradevole la home page scarna ed essenziale, dalla quale è già possibile decidere se cercare in tutto il Web o limitare la ricerca ai siti italiani, anche se il comando, come detto sopra, non è particolarmente utile. Anche Google ha un ottimo sistema di 'ricerca avanzata', sono permesse varie combinazioni di termini (tutti, almeno uno, in successione esatta, escluso uno o più termini). Non è presente il comando near, ma l'ordine con cui vengono presentate le risposte privilegia le pagine in cui i termini immessi sono vicini. È anche possibile cercare solo determinati tipi di file oppure solo siti appartenenti ad un certo dominio o, anche se in maniera leggermente meno versatile di quanto conceda altavista, effettuare una selezione temporale. Il punto di forza di google è però senz’altro il comando copia cache, che compare di fianco ad ogni risposta fornita in seguito ad una ricerca. Il comando permette di evidenziare tramite colori, nella pagina segnalata, i termini immessi; in questo modo ci si rende immediatamente conto dell’eventuale utilità/inutilità del sito esaminato senza dover cercare il punto in cui compaiono le parole d’interesse. Da qualche mese Google permette la ricerca, oltre che di siti, anche di immagini (per questo tipo di ricerca è probabilmente la migliore risorsa della rete), di directory e di gruppi di discussione (che verranno trattati in una delle future puntate). Un'altra novità è la pagina 'strumenti per le lingue', nella quale è possibile effettuare la traduzione di un brano o di un intero sito. In realtà quest'ultima è una ripetizione di un comando esistente già da tempo: di fianco a ogni segnalazione di un sito redatto in una qualsiasi lingua che non sia l'italiano è presente il comando 'traduci questa pagina'. Da qualsiasi strada si passi la traduzione è quanto meno comica, ma, nel caso di lingue totalmente sconosciute all'utente, permette per lo meno di capire di cosa si tratta.

Scirus

Per ultimo un motore specialistico e sconosciuto ma particolarmente utile: Scirus, for scientific information only, il motore di ricerca per le scienze della Elsevier. Già nella home page (http://www.scirus.com/) è possibile effettuare una ricerca semplice decidendo se utilizzare scirus cercando in tutto il Web (verranno segnalati siti universitari, societari, di compagnie private, "pagine di scienziati", congressi, brevetti, pre-prints) o limitare la ricerca agli articoli scientifici. Con questa seconda opzione si trova una ricchissima selezione di segnalazioni di articoli (degli ultimi 12 mesi) della casa editrice. È possibile visualizzare gratuitamente tutti gli abstracts, per la maggior parte delle testate è però necessario essere abbonati per ottenere il full text, per altre è sufficiente un'iscrizione gratuita on line. In ogni caso ottenere, in una frazione di secondo, l'indicazione del materiale esistente pare una comodità considerevole. Sempre e a patto di essere abbonati (o di appartenere a un'istituzione scientifica di uno dei 70 Paesi in via di sviluppo per i quali l'accesso completo ai testi è gratuito), il sistema di ricerca avanzata di scirus è la risposta alle preghiere di ogni ricercatore dell’area scientifica. Innanzi tutto è possibile selezionare una o più discipline d’interesse, dopo di che si può decidere che tipo di siti si desidera vengano segnalati fra quelli elencati sopra e in che intervallo di tempo devono ricadere queste fonti (il periodo disponibile parte dal 1973). Anche l'immissione della stringa è versatile, si possono scegliere combinazioni di termini, escluderne altri, cercare frasi esatte, il tutto in un punto generico del documento, nel titolo dell'articolo, come nome dell'autore, istituzione di appartenenza, indirizzo URL o codice ISSN.

Ancora un suggerimento

Naturalmente quelli descritti sono solo una piccolissima frazione dei motori di ricerca esistenti. Ne sono stati tralasciati molti altri perchè non particolarmente adatti a ricerche di tipo scientifico (ad esempio northernlight che sta rapidamente conquistando ampie fette di mercato dell'information business) o perché ripetizioni, ma meno ricche, di quelli visti. Una rassegna più ampia, con varie informazioni interessanti (e, per una volta, in italiano), si trova al sito http://www.motoridiricerca.it, che contiene anche una serie di suggerimenti sul come effettuare una ricerca. Come consiglio personale aggiungo solo che, se entro un intervallo di tempo accettabile non si è trovato quello che si sta cercando conviene cambiare l'ordine o la combinazione di termini immessi, il motore utilizzato o cambiare completamente sistema di ricerca.

Indice della rubrica