Traversing News with Second Order Swarm Intelligence

David MS Rodrigues Reading the News Through its Structure New Hybrid Connectivity Based Approaches

Figure – Two simplicies a and b connected by the 2-dimensional face, the triangle {1;2;3}. In the analysis of the time-line of The Guardian newspaper (link) the system used feature vectors based on frequency of words and them computed similarity between documents based on those feature vectors. This is a purely statistical approach that requires great computational power and that is difficult for problems that have large feature vectors and many documents. Feature vectors with 100,000 or more items are common and computing similarities between these documents becomes cumbersome. Instead of computing distance (or similarity) matrices between documents from feature vectors, the present approach explores the possibility of inferring the distance between documents from the Q-analysis description. Q-analysis is a very natural notion of connectivity between the simplicies of the structure and in the relation studied, documents are connected to each other through shared sets of tags entered by the journalists. Also in this framework, eccentricity is defined as a measure of the relatedness of one simplex in relation to another [7].

David M.S. Rodrigues and Vitorino Ramos, “Traversing News with Ant Colony Optimisation and Negative Pheromones” [PDF], accepted as preprint for oral presentation at the European Conference on Complex SystemsECCS14 in Lucca, Sept. 22-26, 2014, Italy.

Abstract: The past decade has seen the rapid development of the online newsroom. News published online are the main outlet of news surpassing traditional printed newspapers. This poses challenges to the production and to the consumption of those news. With those many sources of information available it is important to find ways to cluster and organise the documents if one wants to understand this new system. Traditional approaches to the problem of clustering documents usually embed the documents in a suitable similarity space. Previous studies have reported on the impact of the similarity measures used for clustering of textual corpora [1]. These similarity measures usually are calculated for bag of words representations of the documents. This makes the final document-word matrix high dimensional. Feature vectors with more than 10,000 dimensions are common and algorithms have severe problems with the high dimensionality of the data. A novel bio inspired approach to the problem of traversing the news is presented. It finds Hamiltonian cycles over documents published by the newspaper The Guardian. A Second Order Swarm Intelligence algorithm based on Ant Colony Optimisation was developed [2, 3] that uses a negative pheromone to mark unrewarding paths with a “no-entry” signal. This approach follows recent findings of negative pheromone usage in real ants [4].

In this case study the corpus of data is represented as a bipartite relation between documents and keywords entered by the journalists to characterise the news. A new similarity measure between documents is presented based on the Q-analysis description [5, 6, 7] of the simplicial complex formed between documents and keywords. The eccentricity between documents (two simplicies) is then used as a novel measure of similarity between documents. The results prove that the Second Order Swarm Intelligence algorithm performs better in benchmark problems of the travelling salesman problem, with faster convergence and optimal results. The addition of the negative pheromone as a non-entry signal improves the quality of the results. The application of the algorithm to the corpus of news of The Guardian creates a coherent navigation system among the news. This allows the users to navigate the news published during a certain period of time in a semantic sequence instead of a time sequence. This work as broader application as it can be applied to many cases where the data is mapped to bipartite relations (e.g. protein expressions in cells, sentiment analysis, brand awareness in social media, routing problems), as it highlights the connectivity of the underlying complex system.

Keywords: Self-Organization, Stigmergy, Co-Evolution, Swarm Intelligence, Dynamic Optimization, Foraging, Cooperative Learning, Hamiltonian cycles, Text Mining, Textual Corpora, Information Retrieval, Knowledge Discovery, Sentiment Analysis, Q-Analysis, Data Mining, Journalism, The Guardian.

References:

[1] Alexander Strehl, Joydeep Ghosh, and Raymond Mooney. Impact of similarity measures on web-page clustering. In Workshop on Artifcial Intelligence for Web Search (AAAI 2000), pages 58-64, 2000.

[2] David M. S. Rodrigues, Jorge Louçã, and Vitorino Ramos. From standard to second-order Swarm Intelligence phase-space maps. In Stefan Thurner, editor, 8th European Conference on Complex Systems, Vienna, Austria, 9 2011.

[3] Vitorino Ramos, David M. S. Rodrigues, and Jorge Louçã. Second order Swarm Intelligence. In Jeng-Shyang Pan, Marios M. Polycarpou, Michael Wozniak, André C.P.L.F. Carvalho, Hector Quintian, and Emilio Corchado, editors, HAIS’13. 8th International Conference on Hybrid Artificial Intelligence Systems, volume 8073 of Lecture Notes in Computer Science, pages 411-420. Springer Berlin Heidelberg, Salamanca, Spain, 9 2013.

[4] Elva J.H. Robinson, Duncan Jackson, Mike Holcombe, and Francis L.W. Ratnieks. No entry signal in ant foraging (hymenoptera: Formicidae): new insights from an agent-based model. Myrmecological News, 10(120), 2007.

[5] Ronald Harry Atkin. Mathematical Structure in Human Affairs. Heinemann Educational Publishers, 48 Charles Street, London, 1 edition, 1974.

[6] J. H. Johnson. A survey of Q-analysis, part 1: The past and present. In Proceedings of the Seminar on Q-analysis and the Social Sciences, Universty of Leeds, 9 1983.

[7] David M. S. Rodrigues. Identifying news clusters using Q-analysis and modularity. In Albert Diaz-Guilera, Alex Arenas, and Alvaro Corral, editors, Proceedings of the European Conference on Complex Systems 2013, Barcelona, 9 2013.

Um cérebro de neurónios acidentais?

neurons.jpg
Os circuitos cerebrais resultam de encontros acidentais entre neurónios: “‘Pensamos que os neurónios crescem da forma mais independente possível uns dos outros e que formam sinapses essencialmente nos locais onde, acidentalmente, colidem entre si'”

No mundo da neurociência o projecto Blue Brain procura reconstruir o cérebro e numa publicação recente mostra que o estabelecimento das ligações entre neurónios durante o seu crescimento é iminentemente aleatória. Este constrangimento do crescimento e conectividade dos neurónios poderá indicar que a modelação destes não poderá ser feita inteiramente ao nível topológico (redes) e terão que ser levados em linha de conta os impedimentos tridimensionais existentes.

Embora o artigo na Frontiers não refira, gostava de ver como é que o modelo de crescimento é comparável aos modelos de crescimentos de redes, e perceber se estamos perante um novo processo ou se antes se trata de uma variação de um dos modelos de formação de redes (aleatória, preferential attachment, etc… ver Evolution of Networks de Dorogovtsev e Mendes ou Scale-Free Networks de Guido Caldarelli ).

Claro que a descoberta de tudo sobre o cérebro humano vai demorar centenas de anos mas estas descobertas recentes sobre o funcionamento, ligação e comunicação entre neurónios pode ajudar no entendimento de muitas outras áreas a começar pela possibilidade de este modelo de formação de ligações neuronais durante o crescimento não ser exclusivo do cérebro e pode ser encontrado noutros sistemas complexos.

Redes, Python e Big Data

Graphs in the database. SQL meets social networks – A teoria de grafos está na moda e naturalmente aplicações que recorram ao poder do grafo social precisam de bases de dados que suportem a estrutura das relações subjacentes. Interessante artigo sobre como fazê-lo…

Python in Big Data with an overview of NumPy & SciPy – Python é lento!… Quantas vezes já ouvi isto… Um vídeo a não perder.

Complex Systems Society new Website.

The Complex Systems Society (CSS) is a great organisation. In the past month it revamped 2 of its websites. The more institutional website and is available at http://cssociety.org/. On the other hand, the traditional Wiki website where researchers can create their lab pages (or conference pages, personal, etc…). This also got a new facelift and is now more modern and easy to use. If you’re not a CSS member and you are a researcher interested in the areas of complex systems, interdisciplinary research or networks, please join the Society! It’s a great community.

update May 2, 2017 – Some dead links were removed. Text was adjusted accordingly.

Ciência em Portugal? Só para tótós…

O público noticia algo que quem está no meio percebe há anos. Os cientistas portugueses são tratados abaixo de cão, como se fossem a escória da sociedade. O governo acha que fazer ciência por cá é uma coisa de carolas com tempo para matar. Paga-se mal, a más horas, e sem direito a mais nada, nem férias, nem subsidio de desemprego, nem nada. O governo (independentemente do partido actual) tem medo da ciência, porque lhe pode fazer frente nas decisões patetas que toma. Ter um país tecnologicamente avançado significa apenas comprar tecnologia para encher os bolsos a alguns amigos. Ciência? Desenvolvimento? O que é isso? Cada vez menos dá vontade de fazer alguma coisa por este país.

6 passos para toda a gente

Six_degrees_of_separation.png Nos anos sessenta Stanley Milgram, fez uma experiência que mudou a forma como vemos as relações socias. A experiência consistiu em enviar cerca e 160 pacotes de correio para pessoas vivendo em Omaha no Nebrasca pedindo que essas pessoas enviassem o embrulho para alguém que elas achassem que poderia estar mais próximo do contacto final, que era um corrector em Boston.

A experiência mostrou que a maioria dos pacotes conseguia chegar ao destino em 5 ou 6 passos ligando dessa forma pessoas que não se conheciam. A experiência deu aso aos famosos seis graus de separação que se diz existir em média entre duas pessoas escolhidas ao calhas.

Numa experiência recente, um investigador da Microsoft analisou 255 biliões de mensagens do Mensenger enviadas ao longo de 30 biliões de conversas entre 240 milhões de pessoas durante o mês de junho de 2006.

Depois de analisadas as ligações, o mapa mostrou que a distância média entre utilizadores aleatórios era de 6,6; Um número muito semelhante o de Milgram e as redes Small World o que segundo o autor Eric Horvitz, permite especular “se haverá uma harmónica para a comunicação social” e se o número 6 é alguma constante básica para medir as interacções sociais.

O fim da malária em modelo

Foto de .ash

O público noticiou que a equipa de epidemiologia teórica de Gabriela Gomes do IGC em Oeiras apresentou um modelo que mostra como é possível acabar com a malária no mundo

Erradicar a doença é sem dúvida um feito enorme, mas será que vai ser possível? A meu ver há um problema político, principalmente porque a aplicação de medidas para controlo e eliminação da malária a uma escala tão grande terá que ter a colaboração dos governos ricos ocidentais e dos governos dos países pobres afectados.

E o problema é mesmo esse: ricos e pobres a discutir algo (a erradicação da malária) que tem um valor intrínseco muito grande. Como tal presumo que venha a ser utilizada como arma para conseguir outras posições de favorecimento em assuntos paralelos… sempre às custas dos 2 milhões de vítimas anuais da doença.

Os cientistas colocaram no modelo o peso das pessoas que possuem a malária escondida, sem apresentar sintomas da doença e onde a taxa de transmissão é 6 vezes superior àqueles que apresentam sintomas e mostram que tratando a população com fármacos em zonas de transmissão moderada é possível erradicar a doença. Resta agora pensar na forma mais rápida e eficiente de poder aplicar estes conhecimentos científicos.