Busca avançada

Extraindo padrões de coleções de documentos textuais utilizando redes heterogêneas

Processo: 11/12823-6
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de outubro de 2011
Vigência (Término): 30 de setembro de 2015
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Solange Oliveira Rezende
Beneficiário:
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos, SP, Brasil
Assunto(s):Mineração de texto   Representação temática   Agrupamento de dados   Extração de conhecimento   Classificação

Resumo

Devido a grande quantidade de coleções de documentos textuais disponibilizadas nos diasatuais, cada vez mais surge a necessidade de desenvolver técnicas automáticas para a organização e extração de conhecimento dessas coleções. Normalmente, os documentos são representados em um modelo espaço vetorial, no qual cada documento é representado por um vetor, e cada posição desse vetor corresponde a uma característica do documento, por exemplo, a frequência de uma palavra. Os métodos para extração de padrões que utilizam esta forma de representação assumem que os documentos de uma coleção bem como suas características são independentes. Entretanto, esse tipo decaracterística por parte dos algoritmos podem levar a resultados errôneos. Ao tentar evitar este tipo de erro, surgiram representações que modelam documentos textuais por meio de redes. Porém, neste tipo de representação, os algoritmos tradicionais consideram que os objetos da rede são de um mesmo tipo, bem como como suas relações, ou seja, as redes são do tipo homogênea. Essa limitação pode ser superada. Para isso, os textos podem ser representados por redes heterogêneas, ou seja, os documentos podem ser representados considerando diferentes tipos de objetos, como o próprio documento, termos ou autores. Diferentes tipos de relações entre estes objetos também podem ser representadas. Entretanto, na literatura é incomum o uso de relações entre objetos de mesmo tipo em uma rede heterogênea de documentos textuais. Nossa hipótese é que esse tipo de relação também pode ajudar a extração de padrões de melhor qualidade. Visando provar tal hipótese, neste projeto de doutorado é proposta uma representação de coleções de documentos textuais utilizando redes heterogêneas, na qual serão estudadas quais são as maneiras de relacionar objetos de mesmo tipo em uma rede heterogênea que podem produzir melhores resultados para as tarefas de classificação e agrupamento de documentos textuais. Também serão adaptados algoritmos existentes ou serão desenvolvidos novos algoritmos para extração de padrões de acordo com a necessidade imposta pela representação. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Algoritmos facilitam classificação automatizada de textos da internet 

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
FALEIROS, THIAGO DE PAULO; ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE. Optimizing the class information divergence for transductive classification of texts using propagation in bipartite graphs. PATTERN RECOGNITION LETTERS, v. 87, n. SI, p. 127-138, FEB 1 2017. Citações Web of Science: 0.
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; REZENDE, SOLANGE OLIVEIRA. Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. INFORMATION PROCESSING & MANAGEMENT, v. 52, n. 2, p. 217-257, MAR 2016. Citações Web of Science: 4.
ROSSI, RAFAEL GERALDELI; LOPES, ALNEU DE ANDRADE; FALEIROS, THIAGO DE PAULO; REZENDE, SOLANGE OLIVEIRA. Inductive Model Generation for Text Classification Using a Bipartite Heterogeneous Network. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, v. 29, n. 3, p. 361-375, MAY 2014. Citações Web of Science: 2.
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
RAFAEL GERALDELI ROSSI. Classificação automática de textos por meio de aprendizado de máquina baseado em redes. 2015. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação São Carlos.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.