GPTs Pós*BR: a Inteligência Artificial na Pesquisa em Teses e Dissertações, por João Alberto de Oliveira Lima
GPTs Pós*BR: a Inteligência Artificial na Pesquisa em Teses e Dissertações
João Alberto de Oliveira Lima
joaoli13@gmail.com
Introdução
Desde o dia 6 de novembro de 2023, a OpenAI abriu novas possibilidades com a criação de GPTs (Transformadores Generativos Pré-treinados) especializados. Esta inovação ofereceu uma oportunidade para explorar e utilizar de maneira eficiente a vasta base de dados abertos da CAPES (Coordenação de Aperfeiçoamento de Pessoal de Nível Superior) de teses e dissertações.
Com um acervo de mais de 1,4 milhão de produções acadêmicas, a base de dados da Capes foi a fonte primária para a criação de 100 GPTs, conforme a seguir: 91 GPTs especializados em cada área do conhecimento; 8 GPTs que abrangem as grandes áreas do conhecimento e 1 GPT que considera todas as áreas (ver: https://joaoli13.github.io/GPTs.html ). Paralelamente, um trabalho similar foi realizado para a base de teses do Reino Unido (EThOS), que possui mais de 627 mil teses distribuídas no período entre 1768 e 2023, em 20 áreas do conhecimento. Este projeto resultou na criação de GPTs adicionais disponíveis no endereço: https://joaoli13.github.io/GPTsUK.htm.
Este texto de divulgação, contudo, focará nos GPTs criados a partir da base de teses e dissertações da CAPES.
1. Coleta e Transformação dos Dados
Os GPTs Pós*BR dão acesso a um acervo de 1.401.067 produções acadêmicas brasileiras, que abrangem o período de 1987 a 2021. Estes dados são provenientes do ‘Catálogo de Teses e Dissertações – Brasil’ , um recurso fornecido pela CAPES e disponível sob a licença Creative Commons Attribution (CC BY).
Os primeiros desafios envolveram a preparação dos dados para serem utilizados na criação dos GPTs. O processo de preparação dos dados consistiu, inicialmente, na concatenação das bases, pois a CAPES oferece 4 arquivos com quantidade de campos variável. Por isso, foi necessária a compatibilização dos campos para o conjunto de campos mais recente. Além disso, foi necessária também a normalização das datas, uma tarefa complexa, pois as datas eram registradas em diversos formatos.
Após essa etapa, os dados foram particionados por área e grandes áreas do conhecimento, gerando um arquivo CSV para cada divisão. Esta etapa segmentou os metadados para a alimentação dos GPTs com dados relevantes de cada área de conhecimento. Para finalizar o processo, o GPT Builder foi utilizado para fazer o upload do arquivo CSV, definir as instruções de operação e criar os GPTs propriamente ditos.
O GPT Builder é uma ferramenta avançada de desenvolvimento de IA que simplifica a criação de aplicações de diálogo especializadas, utilizando o modelo de linguagem GPT-4, como os GPTs Pós*BR. Essa ferramenta permite aos usuários definir parâmetros específicos e instruções operacionais para a customização de modelos de GPT de acordo com necessidades particulares. Utilizando uma interface intuitiva, o GPT Builder permite a integração de grandes conjuntos de dados, como os metadados das teses e dissertações, e apoia na criação de modelos que são altamente adaptados aos contextos e campos de conhecimento específicos. Este processo resulta em uma precisão e relevância aprimoradas nas respostas geradas pelos GPTs, tornando-os ferramentas altamente eficientes para a pesquisa acadêmica.
2. Uso do GPTs Pós*BR
Os GPTs Pós*BR são ferramentas poderosas e flexíveis que funcionam de maneira similar ao ChatGPT Plus convencional, mas com uma diferença fundamental: eles são especializados e utilizam os dados alimentados para responder às perguntas do usuário. Esta funcionalidade permite que os usuários encontrem informações específicas, gerem gráficos relevantes e exportem planilhas com os dados de seu interesse. A melhor forma de entender essas funcionalidades é por meio do uso em situações concretas.
Por exemplo, um GPT especializado no Direito pode criar um mapa de calor (heatmap) apresentando a produção acadêmica ao longo do tempo por instituição de ensino por meio de um simples comando (Prompt: “Crie um gráfico do tipo heatmap da quantidade da produção ao longo do tempo por instituição de ensino (use a sigla) das 15 instituições de maior produção.”).
No exemplo a seguir, utilizamos o GPT da grande área Ciências Sociais Aplicadas para comparar a média de páginas das teses de Direito e Economia ao longo do tempo. Note como um simples prompt consegue gerar a informação.
Uma das funcionalidades mais interessantes é a possibilidade de exportar os metadados para uma planilha no formato Excel. Após filtrar e apresentar alguns dados de um tópico específico, o usuário pode, no comando seguinte, solicitar a geração da planilha com todos os dados.
Em meados de dezembro de 2023, o projeto deu um passo significativo com o desenvolvimento de uma maneira mais rápida de pesquisar a base de dados completa, considerando o campo Resumo. Antes dessa inovação, a técnica anterior levava mais de um minuto para ler os dados do CSV e a base mais geral não possuía o campo Resumo. Esta limitação foi superada com a criação de um servidor externo com um serviço de busca textual que indexa os campos das produções científicas e que se comunica com um GPT específico.
A tabela a seguir resume um comparativo das características do GPT PósBDTBR (mais lento e com respostas completas) e GPT PósResumoTextoBR (mais rápido e com as respostas mais relevantes).
Característica | GPT PósBTDBR | GPT PósResumoTítuloBR |
Pesquisa em resumos e palavras-chave | Não | Sim |
Necessidade de busca em servidor externo | Não | Sim |
Velocidade de resposta | Lenta, de acordo com o tamanho da base | Rápida |
Relevância vs Completude | Retorna resultados completos | Retorna os resultados mais relevantes |
Exportação de metadados para planilhas | Exporta os dados completos | Exporta apenas dados mais relevantes |
Em resumo: é possível pesquisar a base completa de duas maneiras: com a pesquisa no CSV, por meio do GPT PósBTDBR, ou com a pesquisa no banco textual, por intermédio do GPT PósResumoTextoBR. Esse último é perfeito para explorar e descobrir de forma veloz e, para detalhamentos e exportações extensas, o GPT PósBTDBR e os GPTs Pós*BR são a escolha ideal.
Há também a possibilidade de consultar os dados da avaliação dos programas de Pós Graduação realizada pela Capes, em cada área do conhecimento. Veja abaixo um exemplo de resultado das avaliações dos doutorados em Ciência Política.
Conclusão
A criação dos GPTs Pós*BR representa um marco importante na disseminação e acessibilidade do conhecimento acadêmico da produção acadêmica brasileira. Ao permitir uma pesquisa rápida e precisa com o auxílio da IA, essas ferramentas têm o potencial de acelerar a disseminação do conhecimento acadêmico, estimular novas linhas de pesquisa e facilitar o acesso a informações valiosas para estudantes, pesquisadores e instituições. Ainda estamos no início da exploração do potencial dessa tecnologia inovadora e mais desenvolvimentos e melhorias estão previstos para o futuro próximo, a serem divulgadas no meu perfil do Twitter (https://twitter.com/joaoli13).
Conheça o GPTs Pós*BR
GPTs Pós*BR. 2023. Disponível em: https://joaoli13.github.io/GPTs.html . Acesso em 02 jan. 2024.
Sobre o autor
É Analista de Informática Legislativa na Secretaria De Tecnologia Da Informação do Senado Federal, onde lidera a implementação do Projeto LexML e do Portal Normas.leg.br.
Doutor em Ciência da Informação e Mestre em Ciência da Computação pela Universidade de Brasília. Doutor em Direito pela Universidade de Brasília. Bacharel em Ciência da Computação pela Universidade Federal da Paraíba.
Redação: João Alberto de Oliveira Lima
Foto: João Alberto de Oliveira Lima
Diagramação: Pedro Ivo Silveira Andretta