In [1]:
import h2o

In [2]:
h2o.init()


H2O cluster uptime: 13 minutes 11 seconds 979 milliseconds
H2O cluster version: 3.5.0.99999
H2O cluster name: ece
H2O cluster total nodes: 1
H2O cluster total memory: 10.67 GB
H2O cluster total cores: 8
H2O cluster allowed cores: 8
H2O cluster healthy: True
H2O Connection ip: 127.0.0.1
H2O Connection port: 54321

In [3]:
from h2o.h2o import _locate # private function. used to find files within h2o git project directory.

air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%
Uploaded py32178e91-7166-470d-a879-13761091137d into cluster with 43,978 rows and 31 cols

In [4]:
air.dim


Out[4]:
[43978, 31]

In [5]:
numNAs = air["DepTime"].isna().sum()
print numNAs


1086.0

In [6]:
DepTime_mean = air["DepTime"].mean(na_rm=True)
print DepTime_mean


1345.84666138

In [7]:
air.impute("DepTime", method = "median", combine_method="low")   
numNAs = air["DepTime"].isna().sum()
print numNAs


0.0

In [8]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%
Uploaded pyf0e23d65-3525-4040-8ece-4b9cc6d74f1c into cluster with 43,978 rows and 31 cols

In [9]:
air.impute("DepTime", method = "mean", by = ["Origin", "Distance"]).show()


H2OFrame with 43978 rows and 31 columns: 
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum ... Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay IsArrDelayed IsDepDelayed
0 1987 10 14 3 741 730 912 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
1 1987 10 15 4 729 730 903 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO
2 1987 10 17 6 741 730 918 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
3 1987 10 18 7 729 730 847 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN NO NO
4 1987 10 19 1 749 730 922 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
5 1987 10 21 3 728 730 848 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN NO NO
6 1987 10 22 4 728 730 852 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO
7 1987 10 23 5 731 730 902 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
8 1987 10 24 6 744 730 908 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
9 1987 10 25 7 729 730 851 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO

10 rows × 31 columns


In [10]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%
Uploaded py1eafa8f1-9e79-4e9d-bed7-cce55812d4b3 into cluster with 43,978 rows and 31 cols

In [11]:
air.impute("TailNum", method = "mode").show()


H2OFrame with 43978 rows and 31 columns: 
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum ... Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay IsArrDelayed IsDepDelayed
0 1987 10 14 3 741 730 912 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
1 1987 10 15 4 729 730 903 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO
2 1987 10 17 6 741 730 918 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
3 1987 10 18 7 729 730 847 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN NO NO
4 1987 10 19 1 749 730 922 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
5 1987 10 21 3 728 730 848 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN NO NO
6 1987 10 22 4 728 730 852 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO
7 1987 10 23 5 731 730 902 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
8 1987 10 24 6 744 730 908 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
9 1987 10 25 7 729 730 851 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO

10 rows × 31 columns


In [12]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%
Uploaded py39339839-6be5-4bfb-81a5-47cba893a510 into cluster with 43,978 rows and 31 cols

In [13]:
air.impute("TailNum", method = "mode", by=["Month", "Year"]).show()


H2OFrame with 43978 rows and 31 columns: 
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum ... Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay IsArrDelayed IsDepDelayed
0 1987 10 14 3 741 730 912 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
1 1987 10 15 4 729 730 903 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO
2 1987 10 17 6 741 730 918 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
3 1987 10 18 7 729 730 847 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN NO NO
4 1987 10 19 1 749 730 922 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
5 1987 10 21 3 728 730 848 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN NO NO
6 1987 10 22 4 728 730 852 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO
7 1987 10 23 5 731 730 902 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
8 1987 10 24 6 744 730 908 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES YES
9 1987 10 25 7 729 730 851 849 PS 1451 ... 0 NaN 0 NaN NaN NaN NaN NaN YES NO

10 rows × 31 columns