AGREGACION DE DATOS DESDE EL DATASET DEL PROGRAMA DE INDICADORES DE GESTIÓN DE ORGANISMOS OPERADORES (PIGOO)

En este documento se describen las consideraciones que se tomaron para la agregación de datos desde este dataset para su uso en la PCCS.


In [2]:
# Librerias utilizadas
import pandas as pd
import sys
module_path = r'D:\PCCS\01_Dmine\Scripts'
if module_path not in sys.path:
    sys.path.append(module_path)
from SUN.asignar_sun import asignar_sun
from SUN_integridad.SUN_integridad import SUN_integridad
from SUN.CargaSunPrincipal import getsun

In [5]:
# Configuracion del sistema
import sys; print('Python {} on {}'.format(sys.version, sys.platform))
print('Pandas version: {}'.format(pd.__version__))
import platform; print('Running on {} {}'.format(platform.system(), platform.release()))


Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)] on win32
Pandas version: 0.20.1
Running on Windows 8.1

1. Revisión y estandarización inicial al DataSet Pigoo

El 2 de octubre de 2017 se realizó por medio de correo electrónico, una solicitud de aclaracion al PIGOO del nivel de desagregación de los datos disponibles en su página (Ver archivo Aclaracion_desagregacion.pdf).

En respuesta a esta solicitud, el PIGOO proporcionó un archivo de excel (CiudadesPIGOO_ClaveInegi.xlsx) que incluye una clasificación de las ciudades del dataset PIGOO por clave geoestadística


In [5]:
# Carga del dataset "CiudadesPIGOO_ClaveInegi.xlsx" al sistema
pigoo_inegi = r'D:\PCCS\01_Dmine\Datasets\Pigoo\CiudadesPIGOO_ClaveInegi.xlsx'
pigoo_inegi_df = pd.read_excel(pigoo_inegi, sheetname='OOAPAS-PIGOO', index_col=0,
                      dtype={'Clave-Estado-Inegi': str,
                             'Clave-Municipio-Inegi': str,
                             'Clave-Localidad-Inegi': str})
pigoo_inegi_df.head()


Out[5]:
Nombre- PIGOO Organismo Operador Siglas Estado Municipio-Inegi Loc-Inegi Clave-Estado-Inegi Clave-Municipio-Inegi Clave-Localidad-Inegi
1 Aguascalientes Comisión Ciudadana de Agua Potable y Alcantari... CCAPAMA Aguascalientes Aguascalientes NaN 01 001 nan
2 Jesús María Comisión de Agua Potable Alcantarillado y Sane... CAPAS Aguascalientes Jesús María NaN 01 005 nan
3 Calvillo Organismo Operador de Servicios de Agua de Cal... OOSAC Aguascalientes Calvillo NaN 01 003 nan
4 Asientos Sistema de Agua Potable y Alcantarillado de As... SAPA Aguascalientes Asientos NaN 01 002 nan
5 Tecate Comisión Estatal de Servicios Públicos de Teca... CESPTE Baja California Tecate NaN 02 003 nan

Gracias a que este dataset ya contiene etiquetas con claves geoestadísticas, es posible clasificarlas a su vez dentro de acuerdo con el Sistema Urbano Nacional. Para hacer la clasificación, se utiliza un algoritmo elaborado previamente que identifica la clave geoestadística municipal de 5 dígitos ("CVE_MUN") en cada renglón y la clasifica el municipio identificado asignándole la clave del Sistema Urbano Nacional ("CVE_SUN") a la que pertenece. Es importante señalar las limitaciones de este algoritmo:

  1. El algoritmo, además de clasificar los municipios, les asigna el nombre estándar como aparece en el marco geoestadístico del INEGI y el nombre de las ciudades como aparece en el Sistema Urbano Nacional.
  2. Unicamente clasifica municipios que forma parte del Subsistema Principal del SUN. Desecha aquellos que no forman parte del Subsistema Principal.
  3. Unicamente clasifica renglones cuya clave geoestadística municipal es de 5 dígitos ("CVE_MUN"). Esto es relevante pues en el dataset de entrada, la "Ciudad de México" únicamente cuentan con 2 dígitos de clave geoestadística

In [10]:
# Estandarizacion de clave geoestadistica municipal a 5 dígitos
pigoo_inegi_df['CVE_MUN'] = pigoo_inegi_df['Clave-Estado-Inegi'].map(str) + pigoo_inegi_df['Clave-Municipio-Inegi']
# Clasificación de acuerdo al Sistema Urbano Nacional
variables_SUN = ['CVE_MUN', 'NOM_MUN', 'CVE_SUN', 'NOM_SUN', 'TIPO_SUN', 'NOM_ENT']
pigoo_sun = asignar_sun(pigoo_inegi_df, vars=variables_SUN)
Columnas = ['Nombre- PIGOO', 'CVE_MUN', 'NOM_MUN', 'CVE_SUN', 'NOM_SUN', 'TIPO_SUN', 'NOM_ENT', 'Organismo Operador', 'Siglas', 'Loc-Inegi']
pigoo_sun[Columnas].head()


Out[10]:
Nombre- PIGOO CVE_MUN NOM_MUN CVE_SUN NOM_SUN TIPO_SUN NOM_ENT Organismo Operador Siglas Loc-Inegi
0 Aguascalientes 01001 Aguascalientes 001 Aguascalientes 1 Aguascalientes Comisión Ciudadana de Agua Potable y Alcantari... CCAPAMA NaN
1 Jesús María 01005 Jesús María 001 Aguascalientes 1 Aguascalientes Comisión de Agua Potable Alcantarillado y Sane... CAPAS NaN
2 Tecate 02003 Tecate 002 Tijuana 1 Baja California Comisión Estatal de Servicios Públicos de Teca... CESPTE NaN
3 Tijuana 02004 Tijuana 002 Tijuana 1 Baja California Comisión Estatal de Servicios Públicos de Tiju... CESPT NaN
4 Ensenada 02001 Ensenada 060 Ensenada 2 Baja California Comisión Estatal de Servicios Públicos de Ense... CESPE NaN

2. Ciudad de México

La ciudad de México está dividida en 16 delegaciones, cada una identificada por el INEGI con una clave geoestadística.


In [4]:
sun = getsun()
sun.head()


---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-4-9454371fceda> in <module>()
----> 1 sun = getsun()
      2 sun.head()

D:\PCCS\01_Dmine\Scripts\SUN\CargaSunPrincipal.py in getsun()
     11 def getsun():
     12     # Cargar archivo del Subsistema Principal del SUN
---> 13     sun = rcsv(r'D:\PCCS\01_Dmine\00_Generales\sun_main.csv',
     14                       dtype={'CVE_SUN': str,
     15                              'CVE_ENT': str,

NameError: name 'rcsv' is not defined

En el Dataset de PIGOO la Ciudad de México está considerada como una unidad monolítica


In [8]:
pigoo_inegi_df.loc[42]


Out[8]:
Nombre- PIGOO                                            Ciudad De México
Organismo Operador       Sistema de Aguas de La Ciudad de México (SACMEX)
Siglas                                                               SACM
Estado                                                   Distrito Federal
Municipio-Inegi                                          Ciudad de México
Loc-Inegi                                                             NaN
Clave-Estado-Inegi                                                     09
Clave-Municipio-Inegi                                                 nan
Clave-Localidad-Inegi                                                 nan
CVE_MUN                                                             09nan
Name: 42, dtype: object

In [15]:



Out[15]:
161

In [22]:


In [29]:
writer = pd.ExcelWriter(r'D:\PCCS\01_Dmine\Datasets\Pigoo\pigoo_notreviewd.xlsx')
pigoo_inegi_df[~ciudades_revisadas].to_excel(writer, sheet_name ='datos')
writer.close()