Para el ejercicio vamos a ocupar la base de datos de precipitacion de la RNEAA la cual incluye los siguientes campos:
Esta base de datos se encuentra en la carpeta data
con el nombre de data_course_prec.csv
Nota: Si ejecutas alguna celda de codigo el resultado puede desaparecer
Importar numpy y pandas como np y pd
In [1]:
import numpy as np
import pandas as pd
Leer el archivo csv en un dataframe de nombre data
In [2]:
data = pd.read_csv('../../data/data_course_prec.csv')
Checar los 5 primeros registros
In [3]:
data.head()
Out[3]:
Checar las columnas del dataframe
In [4]:
data.columns
Out[4]:
Numero total de estaciones en la base de datos?
In [5]:
data['name'].nunique()
Out[5]:
Cuales son los 5 anios con mas datos disponibles?
In [6]:
data['year'].value_counts().head(5)
Out[6]:
Precipitacion acumulada en la base de datos?
In [7]:
data['rain'].sum()
Out[7]:
Precipitacion acumulada por anios?
In [8]:
data.groupby('year').sum()['rain']
Out[8]:
Numero de dias con lluvia en la base de datos?
In [9]:
len(data.loc[data['rain']>0])
Out[9]:
Numero de dias sin lluvia en la base de datos?
In [10]:
len(data.loc[data['rain'] == 0])
Out[10]:
Numero de dias con valores nulos en la base de datos? # NaN
In [11]:
len(data.loc[data['rain'].isnull()])
Out[11]:
Numero de registros en la base de datos?
In [12]:
data['name'].count()
Out[12]:
In [39]:
dataTemp = data[['year','month','rain']]
In [40]:
dataTemp = dataTemp.dropna()
In [41]:
group = dataTemp.groupby(['year','month'])
In [38]:
group.sum().sort_values(by='rain')[-5:]
Out[38]: