Extração semi-automática de dados não estruturados na Web baseada em algoritmos de similaridade para armazenamento em banco de dados objeto-relacional
Data
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
A crescente evolução e transformação da Web de forma desestruturada desencadeia uma série de dificuldades com relação ao tratamento e uso dos dados contidos neste ambiente. Com o objetivo de facilitar a manipulação destas informações e também recuperá-las de forma eficiente, este trabalho fundamenta e demonstra o funcionamento de um extrator de dados, que utiliza o conceito de wrappers para recuperar os dados do ambiente Web e transformá-los em um arquivo XML. Com a necessidade de tratar os dados extraídos e classificá-los de acordo com o que o usuário necessita, o protótipo desenvolvido na linguagem Java utiliza a biblioteca XSTREAM para realizar a leitura do arquivo XML e mapeá-lo para uma classe
Java. Para classificar os dados, é utilizado o algoritmo editDistance para realizar a comparação entre as informações obtidas, e gerar um coeficiente de similaridade. Com o objetivo de armazenar um histórico das informações extraídas, estes dados podem ser armazenados, onde utiliza-se o framework Hibernate para fazer o mapeamento dos objetos para o Banco de dados. O resultado final deste processo é a obtenção de dados relevantes ao usuário operador do sistema e a possibilidade de recuperar estas informações posteriormente
através dos algoritmos de similaridade.
Descrição
Trabalho de Conclusão de Curso apresentado para obtenção do Grau de Bacharel em Ciência da Computação da Universidade do Extremo Sul Catarinense.
