A pochi giorni dal lancio di Powerset, il motore di ricerca semantico per Wikipedia (e non solo) abbiamo intervistato Lorenzo Thione, co-fondatore e product architect di Powerset, l’azienda californiana che ha realizzato quest’importante innovazione tecnologica nell’ambito del semantic search engine.

Prima di dare spazio all’ intervista in cui Lorenzo Thione spiega in maniera dettagliata il lavoro alla base di Powerset, il suo funzionamento e come può migliorare l’esperienza di ricerca online degli utenti, mi preme introdurre brevemente la sua carriera di sicuro interesse e per motivi ben precisi.

Innanzitutto Lorenzo Thione, come si può intuire dal nome, è italiano, e quindi merita doppiamente la nostra attenzione, perché dimostra quanto possano fare i nostri connazionali nell’ambiente giusto, sviluppando al massimo le loro potenzialità, e poi perché la sua carriera basata sulla ricerca nell’ambito di un campo così all’avanguardia come quello del natural language processing e della ricerca semantica è davvero notevole.

Lorenzo Thione è partito da Milano, la città in cui è cresciuto, per trasferirsi a San Francisco. Da subito ha rivolto la sua attenzione al campo del natural language processing, la linguistica computazionale, e nel 2002 ha ottenuto un posto presso il laboratorio nato dalla joint venture tra Xerox e Fuji, uno dei più prestigiosi e specializzati nell’analisi automatica dei testi e nella ricerca documentale.
Il suo lavoro al laboratorio lo ha portato a studiare il software capace di riassumere un testo e di analizzarne le parti del discorso, ha alimentato il suo interesse per il Question and Answering e per i motori di ricerca in campo semantico. (fonte: DataManager)

Powerset, l’azienda di cui è co-fondatore, è nata quindi con l’intento di cambiare la tecnologia della ricerca dell’informazione online.

Il lancio di Powerset, il motore di ricerca semantico al momento solo per Wikipedia, dimostra in effetti che l’azienda è sulla buona strada, e che grazie al duro lavoro di ricerca e alla passione verso il campo della ricerca semantica, così all’avanguardia, questo prodotto può cambiare l’equilibrio del web nell’ambito del search engine.

Come si verificherà questo cambiamento? Scopriamolo con Lorenzo Thione in questa intervista interessante.

Può descriverci brevemente le tecnologie che Powerset sviluppa?

Powerset sta sviluppando una tecnologia completamente nuova, basata sull’analisi del linguaggio, per innovare la qualita’ dei risultati per utenti che compiono ricerche su Internet. In pratica, Powerset rompe con la tradizione dei motori di ricerca tradizionali, che si basano soltanto sul concentto di parole chiave ed analisi del grafo di connessione dell pagine web, ed introduce un insieme di elementi nuovi che hanno a che vedere con la connessione semantica fra la ricerca che l’utente inserisce nel motore di ricerca ed il testo dei documenti che Powerset inidiczza. In aggiunta a questa nuova tecnologia, che si basa su anni di ricerca ed innovazione compiuta allo Xerox PARC (il laboratorio che fra le altre cose ha creato il mouse, la interfaccia utente grafica e il protocollo ethernet), Powerset sta creando un’esperienza nuova, piu’ immersiva, per la fruizione di contenuto di alta qualita, come Wikipedia.

Secondo quanto si legge sul sito, Powerset può “capire” il nostro linguaggio e “rispondere” alle nostre domande. Com’è possibile per un motore di ricerca sviluppare le abilità umane come la “comprensione” e il “rispondere”?

E’ importante mettere questi termini in prospettiva. La tecnologia che stiamo sviluppando non “comprende” o “risponde” a domande al livello al quale farebbe una persona. Ci vorranno anni, forse decenni, prima che la tecnologia del software sia davvero in grado di dismostrare la completa padronanza di un qualsiasi linguaggio umano. Detto questo, il livello di “comprensione” dei correnti motori di ricerca e’ pero’ proprio basso. I motori di ricerca che si basano solo su parole chiave possono sfruttare i vantaggi che queste offrono (in termini di robustezza e semplicita’) ma stanno ormai raggiungendo un plateau per quanto riguarda i miglioramenti della qualita’ dei risultati. Gli utenti diventano ogni giorno piu’ sofisticati ed e’ proprio quando l’esigenza degli utenti aumenta che i motori di ricerca tradizionale si trovano in difficolta’. Powerset sta costruendo un nuovo motore di ricerca che unisce le lezioni del passato (come ad esempio le parole chiave, e la connessione del grafo web) con una tecnologia emergente come l’Analisi del Linguaggio Naturale (Natural Language Processing). In pratica, lo spider di Powerset, il pezzo del motore di ricerca che naviga il web in ricerca di testo da indicizzare, quando trova un documento che contiene del testo in inglese (per adesso Powerset e’ disponibile solo in inglese, ma la nostra tecnologia si estende a molte altre lingue, che aggiungeremo col via andare), lo analizza in dettaglio, scomponendolo in frasi, ed analizzando ciascuna frase. In pratica il software fa quello che gli insegnanti di Italiano insegnano ai loro studenti alle medie, a fare l’analisi logica e grammaticale della frase, scomponendola in soggetto, predicati verbali e complementi, e cercando di analizzare il ruolo di ciascun complemento nel’ambito del testo, come per esempio, individuare se un complemento e’ finale, causale o di moto a luogo. Una volta che il software ha fatto questa analisi, delle componenti semantiche (dette features, o caratteristiche) vengono estratte e inserite nell’algoritmo di selezione e ordinamento dei risultati, in armonia con le altre componenti meno linguistiche, come il PageRank o la prossimita’ delle parole chiave. E’ importante fare la distinzione fra la capacita’ che gli umani hanno di comprendere il significato del linguaggio, e il livello di sofisticazione che la tecnologia odierna ha raggiunto. Se approcciamo una tecnologia come Powerset con l’aspettativa che ci comprendera’ con la stessa competenza di una persona, ne saremo certamente delusi, ma se guardiamo a Powerset come un motore di ricerca migliore, che fa uno sforzo ulteriore nell’utilizzare il contenuto delle ricerche e dei documenti per estrarne connessioni di piu’ alta qualita’, allora si’ possiamo essere soddisfatti nel nostro bisogno di “ricercatori internet”. Per questa ragione invitiamo i nostri utenti, o chiunque voglia provare il nostro prodotto, a sperimentare con la nostra search box (la finestra di testo dove normalmente inseriamo parole chiave) provando ad inserire non solo domande vere e proprie, ma anche frasi semplici, come “movies with Dennis Quaid” o “protein content of bananas”, e persino parole chiave, come il nome di un personaggio famoso, un posto o un libro che ci e’ piaciuto molto. La nostra versione “migliorata” di Wikipedia ha dei risultati molto utili e facili da comprendere per molte di queste ricerche.

In che modo Powerset può migliorare l’esperienza di ricerca online dell’utente?

Powerset utilizza la propria tecnologia semantica su tre fronti differenti. Da un lato – quello che ho spiegato finora – Powerset migliora la qualita’ dei risultati per le normali ricerche che utenti farebbero su Internet. Per adesso l’indice di Powerset e’ ristretto a Wikipedia. Nel futuro apriremo l’accesso ad un vero e proprio indice del web ma la nostra tecnologia e’ piu’ costosa computazionalmente e volevamo offrire l’accesso al pubblico alla nostra tecnologia il prima possibile. Mentre continueremo a sviluppare i nostri algoritmi e ad applicarli a insiemi sempre piu’ grandi del contenuto disponibile su Internet, abbiamo deciso di creare un motore di ricerca per informazioni generali che potesse spiazzare la concorrenza, per tutti gli utenti che usano wikipedia regolarmente. Il motivo per cui abbiamo scelto Wikipedia non dipende dalla qualita’ del testo o dalla struttura dei documenti – la nostra tecnologia e’ abbastanza robusta da poter essere utilizzata sul resto del web, ma siccome volevamo confinarci ad un insieme inizialmente ristretto di documenti, abbiamo scelto wikipedia perche’ e’ sorgente di informazione che varia sull’intero spettro di materie, dalla storia alla biologia, dallo spettacolo alla letteratura, e cosi’ via. Inoltre, siccome il contenuto  di Wikipedia puo’ essere ripubblicato, Powerset fornisce una versione di wikipedia che pur essendo continuamente aggiornata e sincronizzata con la sorgente originale, fornisce delle funzionalita’ nuove. Ad esempio, tutte le pagine di Wikipedia, su Powerset, presentano una finestra laterale che scrolla attraverso il testo assieme all’utente mantenendosi sempre visibile e che fornisce un sommario del testo, una barra per la ricerca semantica all’interno del documento, e i cosiddetti Powerset Factz Summary, una specie di riassunto abbreviato fatto di brevi frasi o frammenti di testo che il motore di ricerca ha estratto ed allineato al sommario, per facilitare la navigazione e permetter all’utente di vedere a colpo d’occhio dove, nel documento, si trova l’informazione cercata. In aggiunta, Powerset ha integrato il database di Freebase, un’altra societa’ locata qui a San Francisco, che promette di costruire una sorgente strutturata di dati creati e curati direttamente dagli utenti, come wikipedia. Se si naviga su Powerset e si digita una ricerca ad esempio, come il nome di un personaggio famoso o di un luogo, powerset presenta un sommario estratto da Freebase di informazioni su quel soggetto. Un esempio? Basta provare a digitare Henry VIII (Enrico ottavo, il monarca inglese). La stessa ricchezza di informazioni ci permette di ritornare agli utenti informazioni come ad esempio tutti i film prodotti da Steven Spielberg, o l’altezza della torre Eiffel.

Qual è la principale differenza tra gli esperimenti precedenti dei motori di ricerca semantica e Powerset?

Nel passato altre societa’ hanno provato a creare motori di ricerca che si basano sulla struttura semantica. Ci sono alcune differenze con tutti gli altri esperimenti fatti nel passato, ed anche con quelli che sono tuttora in corso. Per prima cosa, siamo i primi a compiere questa analisi dettagliata del contenuto testuale dei documenti e ad estrarne componenti che vengono indicizzate assieme alle parole chiave per ottenere risultati migliori in maniera omogenea ed organizzata con i risultati, per esempio, provenienti dalle parole chiave. Nel passato, motori come BrainBoost, hanno provato ad espandere la ricerca degli utenti con parole chiave che venivao aggiunte automaticamente dal motore per aumentare il numero di risultati generati (recall) e poi filtrando i risulati con tecnologia simile a quella che Powerset utilizza nell’inidicizzare i documenti. Questo generava risultati non sempre brillanti, ma per di piu’, alquanto lenti nel ritornare pagine agli utenti, perche’ molto del lavoro necessario veniva fatto dopo che un utente aveva premuto il bottone per avviare la ricerca. La tecnologia di powerset puo’ invece essere costruita a pieno regime per funzionare con miliardi di pagine e milioni di utenti, ritornando risultati con la stessa celerita’ alla quale ci siamo tutti abituati usando Google, Yahoo e gli altri motori principali. A differenza, poi, di altri esperimenti nel passato, come il progetto START (MIT) o la versione iniziale di Ask Jeeves, Powerset non si ripromette di rispondere a qualsiasi domanda venga posta, ma invece cerca di ottenere la migliore selezione di risultati e di contenuto, cercando di connettere il contenuto alla domanda nel miglior modo possibile. Qualche volta questo vuol dire che Powerset può individuare (nel testo o da Freebase) una vera e propria risposta, ma non accade sempre – quello che e’ importante e’ che la qualita’ dei risultati e’ in maniera consistenete meglio di quella che puo’ essere ottenuta su altri motori di ricerca che hanno accesso allo stesso contenuto.

Il motore di ricerca semantico è stato sempre considerato adatto per campi di conoscenza specifici, con strutture ben organizzate. I questo senso Poweset ha mosso dei passi avanti e quindi può essere usato sull’intero web?

La tecnologia e’ maturata abbastanza per essere utilizzata sull’intero web, ma in quest momento ci siamo concentrati su WIkipedia. Come ho spiegato prima, non per una questione di qualita’, ma per una considerazione di tipo economico. La tecnologia e’ costosa dal punto di vista computazionale e per applicarla all’intero web ci occorrera’ un maggiore investimento finanziario (per acquistare nuovi computer da usare per indicizzare il web) e qualche mese extra.

Dopo il suo lancio alcuni degli esperti del web hanno predetto che Powerset sarà impiegato soprattutto nel campo dell’impresa. Cosa pensa di ciò?

L’ambito industriale e’ un possibilta’ che teniamo d’occhio e che rimane aperta. Ma quello che riteniamo sia davvero eccitante e’ l’opportunita’ di costruire un migliore motore di ricerca per tutti, per i bisogni di tutti i giorni. L’innovazione in search non e’ finita, e’ appena iniziata e dismettere questa tecnologia come utile soltanto nell’ambito enterprise vuol dire sottovalutarne il potenziale.

Powerset rappresenta una grande innovazione paragonato al motore di ricerca tradizionale come quello di Google e Yahoo!, basati esclusivamente sulle keywords. Secondo lei può questa tecnologia innovativa influenzare e cambiare l’equilibrio del web?


Assolutamente. Sin da quando i motori di ricerca hanno cominciato ad essere utilizzati maggiormente, gli utenti hanno dimostrato sempre maggior dimestichezza con questi strumenti, am anche maggior esigenza. All’inizio quest esigenza era principalmente costituita dal desiderio di avere motori di ricerca che provvedessero accesso ad un numero sempre maggiore di documenti, e che fossero sempre piu’ veloci, ma da qualche anno abbiamo cominciato a raggiungere un plateau per quanto riguarda sia la dimensione degli indici, sia per quanto riguarda la velocita’ di risposta. Quello che gli utenti hanno cercato sempre di piu’ e’ stato un motore che rendesse meno necessario il dover pensare a quale siano le miglior paroli chiave da usare. Inoltre l’aspettativa che “a qualunque cosa uno sia interessato, la si trova sul web” ha creato il fenomeno della Long Tail, ovvero che moltissime ricerche su internet si riefriscono a contenuti e materiale di nicchia, molto oscuro, e quindi meno facile da ottenere con precisione per gli algoritmi odierni. La lunghezza in termini di parole chiave della ricerca media su internet ha continuato a crescere e noi siamo certi che – quando viene data la possibilita’ – gli utenti apprezzano la flessibilita’ con la quale si possa inserire una ricerca fatta da parole chiave cosi’ come una costituita da una frase o da una domanda. Se gli utenti cominciano a capire che questo modo di cercare e’ piu’ potente, piu’ facile da usare e genera risultati migliori, allora il comportamento e le esigenze degli utenti cominceranno a cambiare in maniera irreversibile. Guardando a questo momento, tra cinque anni, ci chiederemo come diavolo facevamo a cercare con le chiave, e ad essere soddisfatti!

Simona Fiore

condividi
blog comments powered by Disqus
follow us
ciaoblog | copyright © 2008 | ciaopeople s.r.l. - all rights reserved