• contato@labci.online
  • revista.divulgaci@gmail.com
  • Universidade Federal de Rondônia, Porto Velho - RO
v. 1, n. 10, dez. 2023
O desenvolvimento do ScraperCI: uma aplicação online para extração de dados na Web, por Helton Luiz dos Santos Graciano e Rogério Aparecido Sá Ramalho

O desenvolvimento do ScraperCI: uma aplicação online para extração de dados na Web, por Helton Luiz dos Santos Graciano e Rogério Aparecido Sá Ramalho

Abrir versão para impressão

O desenvolvimento do ScraperCI: uma aplicação online para extração de dados na Web

Helton Luiz dos Santos Graciano e Rogério Aparecido Sá Ramalho
helton.graciano@gmail.com | ramalho@ufscar.br

O desenvolvimento tecnológico e a explosão de recursos informacionais na Web têm impulsionado uma transformação sem precedentes, tornando a Internet o maior repositório de informações da atualidade. A crescente quantidade de dados gerados por pessoas, aplicativos e dispositivos é armazenada de maneiras diversas, resultando em ineficiência e dificuldade de acesso às informações nas rotinas das organizações, afetando sua vantagem competitiva e tomada de decisões.

A falta de diretrizes e procedimentos adequados para lidar com essa diversidade de dados e formas de armazenamento resulta em morosidade e perda de informações. É essencial gerenciar e disponibilizar os dados no momento, formato e local necessários, além de explorá-los por meio de ferramentas de recuperação eficientes. Nesse contexto, a utilização de Web scrapers como ferramenta de coleta de dados em ambientes digitais desponta como uma possibilidade promissora para a Ciência da Informação e seus profissionais, permitindo resgatar informações em massa de maneira ágil.

Foi analisado o potencial dessas ferramentas de recuperação e como os profissionais podem aproveitar suas habilidades para análises mais precisas dos dados recuperados, através da criação de um scraper utilizando a linguagem Python, abordando seus fundamentos, conceitos, desafios e principalmente as contribuições que a ferramenta pode trazer para o aprimoramento das habilidades dos profissionais da informação.

O protótipo, denominado ScraperCI, foi desenvolvido com fins didáticos e disponibilizado online através do endereço http://scraperci.info  permitindo buscas relacionadas e conectadas à base de dados BRAPCI como ambiente experimental. A proposta da ferramenta foi analisar de maneira prática as contribuições de um scraper na coleta de dados e sua aplicação pelos profissionais da informação, diante das crescentes demandas informacionais.

Apesar das funcionalidades oferecidas pelos repositórios informacionais, incluindo o BRAPCI, nem sempre são de fácil compreensão e muitas vezes estão limitadas ao acervo do próprio repositório. Nesse sentido, ferramentas como o ScraperCI apresentam uma vantagem significativa, pois podem ser configuradas para extrair dados de diversos portais, além de permitir a personalização da recuperação de campos específicos de acordo com a relevância para o usuário, bem como o cruzamento de informações.

Na imagem, parte da interface do ScraperCI

A ferramenta permite o download dos dados tabulados no formato CSV (Comma Separated Values), possibilitando diversas análises por meio da importação do arquivo para ferramentas como Microsoft Excel, Google Sheets, Libre Office Calc ou R Studio. Com as informações estruturadas, elas podem ser submetidas a análises resultando em conclusões diversas.

Na imagem, parte da interface do ScraperCI, com os resultados de uma consulta.

Foi promovido uma discussão sobre o uso de Web scrapers para coleta de dados, abordando suas características conceituais e práticas. Apesar dos desafios relacionados ao grande volume de conteúdo disponível na Web e à eficiência no processo de recuperação, o uso de Web scrapers pode contribuir para a coleta rápida, sistemática e padronizada de diversos tipos de conteúdo na internet. Nesse sentido, foi observado um cenário desafiador para a Ciência da Informação no contexto contemporâneo, devido à globalização do conhecimento e ao compartilhamento massivo de grandes quantidades de informações. A demanda por informações de qualidade, que gerem valor e tenham potencial inovador, é cada vez maior tanto para tomadas de decisão individuais quanto corporativas.

Foi demonstrado que a combinação de conhecimentos teóricos sobre recuperação da informação e habilidades em linguagens de programação, como o Python, pode resultar na construção de ferramentas que auxiliam os usuários na busca por informações em ambientes digitais e no desempenho das atividades dos profissionais da informação.

O estudo de caso realizado utilizando o ScraperCI demonstrou que essa tecnologia é exitosa na coleta de dados, proporcionando maior produtividade e ampliando as possibilidades de extração de recursos informacionais na Web. Isso sugere que tal ferramenta é uma opção viável a ser explorada pelos profissionais da informação que estão no centro do processo de transformação digital atual.

Apesar das limitações do protótipo, a utilização de Web scrapers favorece a automatização dos processos de coleta de dados, trazendo benefícios como obtenção rápida e eficiente de grandes volumes de informações, flexibilidade na escolha dos dados a serem coletados, customização dos métodos de busca, redução de erros em comparação à coleta manual, potencialização da análise de dados e redução de custos.

Em pesquisas futuras, existe a perspectiva de ampliar o escopo da ferramenta desenvolvida, incorporando funcionalidades que permitam a recuperação de informações em diversos repositórios, além de aprimorar os métodos de busca para melhorar tanto o tempo de resposta quanto a qualidade dos resultados para o usuário.

Além disso, é possível explorar as tendências atuais na recuperação de recursos informacionais em ambientes digitais, bem como a necessidade crescente da Ciência da Informação de se adaptar a essa realidade indo além das análises técnicas e produtivas e considerando os impactos sociais do uso dessa tecnologia.

É importante que os profissionais da Ciência da Informação estejam familiarizados com os sistemas de recuperação de informações e atualizem suas habilidades e ferramentas para coletar informações de forma precisa e eficiente. Isso estimulará a busca por possibilidades inovadoras na atuação desses profissionais, utilizando ferramentas que tornem a recuperação e análise de informações mais eficientes e alinhadas às demandas atuais e futuras da profissão.

Espera-se que essa temática desperte o interesse por novas pesquisas sobre o uso de Web scrapers para coleta de dados, estimulando outros pesquisadores interessados nesse assunto e contribuindo para uma maior disseminação de estudos na área da Ciência da Informação relacionados ao uso de Web scrapers.

Por fim, destaca-se que, diante das crescentes demandas informacionais, são necessárias mais pesquisas para aprofundar e compreender melhor essa temática, podendo favorecer o desenvolvimento de atividades que respondam de forma mais eficiente às demandas atuais em relação à recuperação de dados em grandes volumes.

Conheça o ScraperCI

Scraper CI. 2023. Disponível em: http://scraperci.info . Acesso em 07 dez. 2023.

Acesse a dissertação

GRACIANO, Helton Luiz dos Santos. ScraperCI: um protótipo de Web scraper para coleta de dados. 2022. Dissertação (Mestrado em Ciência da Informação) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17166 . Acesso em 07 dez. 2023.

Sobre os autores

Helton Luiz dos Santos Graciano

Mestre em Ciência da Informação e Especialista em Gestão da Produção pela Universidade Federal de São Carlos. Bacharel em Engenharia de Controle e Automação pela Universidade Paulista. Atualmente é Engenheiro de Manutenção de Aeronaves – LATAM.

Rogério Aparecido Sá Ramalho

É Professor do Departamento de Ciência da Informação, da MBA Informação, Tecnologia e Inovação para Negócios e do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de São Carlos. Atua também junto ao Programa de Pós-Graduação da Universidade Estadual de Londrina. Líder do Núcleo de Informação, Tecnologia e Inovação (ITI UFSCar). É bolsista de Produtividade em Pesquisa do Conselho Nacional de Desenvolvimento Científico e Tecnológico. 

Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista. Pós Doutor em Ciência da Informação pela Universidade Estadual de Londrina. Bacharel em Ciência da Computação pela Faculdades Adamantinenses Integradas.


Redação: Helton Luiz dos Santos Graciano e Rogério Aparecido Sá Ramalho

Foto: Helton Luiz dos Santos Graciano

Diagramação: Marcos Leandro Freitas Hubner

0

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Translate »
Pular para o conteúdo