Revista da CGU (Dec 2022)
Acesso à informação no Brasil e ciência de dados
Abstract
Buscou-se compreender de que forma a ciência de dados e as tecnologias de mineração e classificação de textos podem contribuir para uma melhor compreensão, agregada, dos pedidos de acesso à informação. A pesquisa utilizou dados dos pedidos de acesso à informação feitos à Prefeitura Municipal de São Paulo (PMSP), de 2012 a 2019, disponíveis no Portal de Dados Abertos da municipalidade, propondo a identificação e classificação das principais questões apresentadas. Os 39.369 textos dos pedidos de acesso submetidos à PMSP foram reunidos em um corpus e submetidos a análise por meio de Classificação Hierárquica Descendente (CHD). Nesse mesmo corpus foram inseridas cinco variáveis demográficas para cada pedido, que foram submetidos a uma rotina padrão de pré-processamento de texto, selecionando 31.946 pedidos (81,16%) para análise pela CHD. Ao propor uma classificação de textos como uma metodologia para análise de dados textuais, reforçou-se um paradigma de que dados textuais não pertencem apenas ao campo qualitativo. Além disso, a consideração de apenas nomes, excluídos verbos e advérbios; e os adjetivos mais ocorrentes serem usados como parte de expressões, permitiu uma otimização do contexto dos pedidos, proporcionando classificar os dados textuais de maneira mais objetiva, mitigando o viés dos investigadores. Da análise por meio da Classificação Hierárquica Descendente resultaram sete classes: 1 - Bairros e distritos; 2 - Trâmite e documentos processuais; 3 - Contratações públicas; 4 - Mobilidade urbana; 5 - Família: saúde, educação e assistência social; 6 - Imóveis; e 7 - Concursos e cargos públicos. O artigo apresenta também outros estudos de caso relevantes para a pesquisa, com referências encontradas na análise de pedidos de acesso à informação , contribuindo para a compreensão de pedidos dos cidadãos de modo aglutinado e permitindo aos tomadores de decisões um melhor entendimento das demandas da sociedade, podendo resultar em políticas públicas mais focadas.
Keywords