2. Data Understanding
2.1 Collect Initial Data
Outputs:
- Initial Data Collection Report
2.3 Explore Data
2.3_Explore_Data.ipynb
Conclusions
A descartar
- La variable utilities, se descartará dado el desbalanceo entre los valores, de
los 1460 registros, sólo 1 cuenta con un valor diferente al valor que indica que se
tienen todos los servicios públicos.
A limpiar
- De la variable LotArea, se consideran extremos los valores por encima de 55000
- LotFrontage
- La variable LotFrontage, presenta un extremo por encima de 300
- 259 Valores nulos, que se deben llenar con valores promedio
- los 1369 valores nulos de la variable Alley, se deben reemplazar con un valor NA ya que corresponde a información real.
- MasVnrArea
- La variable MasVnrArea, presenta extremos por encima de 1200
- Los valores nulos se deben reemplazar por valores promedio
- En BsmtQual, BsmtCond, BsmtExposure BsmtFinType1 BsmtFinType2, se deben reemplazar los valores nulos por NA ya que corresponde a información real
- La variable BsmtFinSF1, presenta extremos por encima de 5000
- La variable BsmtFinSF2, presenta extremos por encima de 1400
- La variable TotalBsmtSF, presenta extremos por encima de 3500
- La variable Electrical presenta valores nulos.
- La variable 1stFlrSF, presenta extremos en 0 y por encima de 4000
- La variable GrLivArea, presenta extremos en 0
- La variable MiscFeature y MiscVal, se reemplazan los valores nulos por NA y 0 respectivamente
- En las variables FireplaceQu y GarageType, e deben reemplazar los nulos por NA, es información real
- Las variables GarageYrBlt, GarageFinish, GarageQual, GarageCond, se deben reemplazar los nulos por NA
- La variable WoodDeckSF tiene extremos por encima de 750
- La variable OpenPorchSF tiene extremos por encima de 400
- La variable EnclosedPorch, presenta extremos por encima de 400
- En la variable PoolQC y Fence se debe reemplazar los nulos por NA
- Se puede construir un nuevo campo fecha_venta a partir de los MoSold y YrSold
2.4 Verify Data Quality
Outputs: