Extração estruturada de dados em fontes heterogêneas com Web Crawlers

Fabro, Gustavo

Extração estruturada de dados em fontes heterogêneas com Web Crawlers

dc.contributor.advisor	Silva, Gilberto Vieira da
dc.contributor.author	Fabro, Gustavo
dc.coverage.spatial	Universidade do Extremo Sul Catarinense	pt_BR
dc.date.accessioned	2021-05-04T22:07:10Z
dc.date.available	2021-05-04T22:07:10Z
dc.date.created	2018-07
dc.description	Trabalho de Conclusão de Curso, apresentado para obtenção do grau de Bacharel no Curso de Ciência da Computação da Universidade do Extremo Sul Catarinense, UNESC.	pt_BR
dc.description.abstract	Com crescimento de dados na web torna-se cada vez maior a necessidade de ferramentas que auxiliam no consumo dessas informações. Dentre as categorias desses dados estão as fontes de notícias, em que há um grande número de portais disponíveis e no qual um determinado assunto pode ser tratado por diferentes sites. Com isso, o objetivo deste trabalho foi determinar formas de extração estruturada desses dados ao mesmo tempo em que as fontes são adquiridas automaticamente de acordo o assunto desejado. Tanto para a extração da notícia como para as suas respectivas fontes, fez-se o uso de web crawlers, um agente que realiza a coleta e o parser de dados na web. A extração estruturada das fontes, previamente desconhecidas, foi possível através da leitura das novas tags semânticas do HTML5 e de metadados que são utilizados para o compartilhamento de artigos em redes sociais. Ambos, quando utilizados da forma correta, se mostraram eficientes na indicação das partes do documento, sendo portanto um meio comum de definir a informação. Já a obtenção das sementes do rastreador foi realizada através de requisições ao motor de busca do Google. Por fim foi possível identificar padrões semânticos de representação dos dados nas tecnologias envolvidas no desenvolvimento web, possibilitando distribuí-los de formas suscetíveis ao processamento automático.	pt_BR
dc.identifier.uri	http://unesc.acessoacademico.com.br/handle/1/8138
dc.language.iso	pt_BR	pt_BR
dc.subject	Web Crawler	pt_BR
dc.subject	Requisições web	pt_BR
dc.subject	Web semântica	pt_BR
dc.title	Extração estruturada de dados em fontes heterogêneas com Web Crawlers	pt_BR
dc.type	Trabalho de Conclusão de Curso - TCC	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: GUSTAVO FABRO.pdf
Tamanho:: 12.45 MB
Formato:: Adobe Portable Document Format
Descrição:: TCC

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Trabalho de Conclusão de Curso (COM)