
Idioma
Python
Tipo de ferramenta
Algoritmo
Licença
The MIT License
Version
1.0.0
Direção Geral de Qualidade Institucional e Governo Aberto, Governo da Cidade de Buenos Aires

A Análise de qualidade do conjunto de dados é uma ferramenta utilizada para validar a estrutura dos dados nos conjuntos de dados adicionados ao portal de dados abertos de Buenos Aires. Esta ferramenta garante a consistência e precisão das informações, facilitando a transferência de dados entre agências e apoiando a educação e transferência de competências necessárias para a sustentabilidade dos portais de dados abertos. Ele fornece um mecanismo crucial para manter a qualidade e a confiabilidade dos dados.
A análise da qualidade do conjunto de dados aborda o desafio de manter a qualidade e a consistência dos dados em portais abertos, garantindo que as informações sejam precisas e confiáveis para uso pelas agências governamentais e pelo público.
Coleta de dados automatizada: Coleta de dados baseada na Web: a ferramenta pode coletar dados automaticamente de várias fontes on-line, reduzindo a necessidade de downloads manuais. Integração de dados FTP: integra -se perfeitamente aos servidores FTP para buscar conjuntos de dados essenciais, simplificando a aquisição de dados de sistemas ou parceiros legados. Garantia da qualidade dos dados: Limpeza de dados personalizável: garante que os dados atendam aos padrões de qualidade aplicando regras de limpeza específicas adaptadas a cada conjunto de dados, mantendo assim a integridade dos dados. Manuseio de dados dinâmicos: adapta -se a diferentes estruturas de dados, tornando -o versátil para lidar com diversos conjuntos de dados sem ajustes constantes de código. Exploração de dados perspicaz: Insights de dados geográficos: analisa e visualiza dados geográficos, fornecendo informações espaciais cruciais para setores como planejamento urbano, logística ou monitoramento ambiental. Análise de dados interativos: Através de notebooks Jupyter, as partes interessadas podem explorar interativamente os dados, auxiliando no teste de hipóteses e na tomada de decisões. Operações configuráveis: Gerenciamento do conjunto de dados: usa uma lista centralizada para gerenciar e priorizar quais conjuntos de dados as alças da ferramenta, garantindo que apenas dados relevantes sejam processados. Operações orientadas pelo usuário: permite que os usuários especifiquem tarefas, como download ou limpeza, usando argumentos simples da linha de comando, oferecendo flexibilidade nas operações. Transparência e monitoramento: Registro de atividades: mantém o controle de todas as operações, garantindo a transparência no processamento de dados e auxiliando em solução de problemas ou auditorias. Escalabilidade e integração: Design modular: a arquitetura modular da ferramenta garante que ela possa ser expandida ou integrada a outros sistemas.
Construído com Python 3.6.3, aproveita bibliotecas como Scrapy para web scraping e pandas para análise de dados. Lida com dados em formatos CSV, JSON e geoespaciais, garantindo interoperabilidade. Utiliza bibliotecas geoespaciais como Fiona e geopandas para dados geográficos. Configura e ajusta através do manifest.json, orientando o download e limpeza de dados. Adota uma abordagem modular para limpeza, com regras definidas em JSON. Facilita a recuperação de dados de servidores FTP, integrando estruturas de banco de dados dinâmicas.

Consulte o equipamento de Código para o Desenvolvimento e descubra como nossas herramientas de código abertas, cuidadosamente curadas, podem se apoiar em sua instituição na América Latina e no Caribe. Escritores para explorar soluções, resolver dúvidas de implementação, compartilhar resultados de reutilização ou apresentar uma nova ferramenta. Escreva para [email protected]

Esta imagem é uma captura de tela da documentação para um repositório de análise de qualidade do conjunto de dados, incluindo instruções de configuração e etapas de ativação do ambiente virtual do Python.

Esta imagem mostra uma captura de tela de um documento de qualidade de dados em espanhol, detalhando as dimensões da precisão, duplicação e integridade dos dados, juntamente com uma tabela de dados de amostra.

Esta imagem mostra um trecho de texto sobre problemas de qualidade de dados e um diagrama (Figura 1) ilustrando a integração de diferentes áreas de negócios, como fabricação, marketing e contabilidade.
Publicação oficial e diretrizes de qualidade.
Caso de sucesso graças à implementação de melhorias.
