Tag Generator: tag clouds per corpus di dati testuali

Tag Generator

Nel suo intervento “Ontology Is Overrated” tenuto alla O’Reilly ETech conference 2005, Clay Shirky sostiene che le tassonomie e gli schemi, attuali metodi di classificazione della conoscenza, stanno lasciando spazio a un sistema più organico che utilizza dueNel suo intervento “Ontology Is Overrated” tenuto alla O’Reilly ETech conference 2005, Clay Shirky sostiene che le tassonomie e gli schemi, attuali metodi di classificazione della conoscenza, stanno lasciando spazio a un sistema più organico che utilizza due unità di connessi, ossia link e tag. Nei contenuti digitali, infatti, la classificazione presenta dei forti limiti, primo tra tutti l’intreccio testuale pressoché infinito che il sistema dei link genera sulla rete. Il web non è infatti un dominio univoco, ossia un corpo di oggetti da classificare ristretto con categorie formali definite. Gli utenti pertanto sfruttano il sistema dei tags al fine di associare un insieme di parole, per loro significative, ad un determinato oggetto, generando così delle ‘nuvole di senso’. Sempre secondo Shirky, se anche il tag può creare delle classificazioni caotiche, dal caos dei dati testuali è possibile estrarre una grande quantità di informazione. Di quest’ultimo avviso dev’essere Chirag Metha, autore di Tag Generator, ossia di un PHP codebase che consente di generare tag clouds da semplici dati testuali. Il generatore si basa sull’algoritmo di Stemming e compone una lista di tutte le parole di senso proprio utilizzate nel corpus di testi scelti, contandone l’incidenza. Una volta rimosse le parole più comuni, quali articoli e aggettivi indicativi, il generator compone una tag cloud in cui i termini più usati vengono visualizzati con un font di dimensioni maggiori. L’applicazione aggiunge poi un’analisi cronologica, illuminando le parole d’uso recente e sfumando quelle desuete. Applicato ad esempio al corpus ridotto, nonché univoco, dei discorsi presidenziali americani pronunciati dall’Indipendenza a oggi, l’impatto visivo dell’insieme elaborato è immediato e le differenze saltano agli occhi. Mentre per i padri fondatori degli Stati Uniti ‘assemblea’ era la parola chiave, per Bush è di fatto ‘terrorismo’. Se le classificazioni in genere sono ‘storicizzanti’, il lavoro di Metha ha invece il pregio di offrire una descrizione dinamica dell’evoluzione del linguaggio. Tuttavia il problema della generazione di senso permane, nonostante il processo di composizione dell’insieme semantico sia in questo caso derivativo. Come nelle tag clouds di prima generazione infatti è necessario valutare tanto il dato soggettivo di associazione quanto il contesto in cui una relazione è generata, così per il Tag Generator è fondamentale l’identificazione del corpus di testi usato come fonte, siano essi discorsi, email o posts in un blog. Il contesto è dunque ancora elemento chiave per l’interpretazione, ma la quantità, qualità e rilevanza dell’informazione semantica, sia in ambiti virtuali che in quelli reali, sta aumentando e le tag clouds offrono di certo un supporto in questo senso.

Valentina Culatti