In [40]:
import h2o

In [41]:
h2o.init()


H2O cluster uptime: 33 seconds 365 milliseconds
H2O cluster version: 3.7.0.99999
H2O cluster name: spIdea
H2O cluster total nodes: 1
H2O cluster total free memory: 12.42 GB
H2O cluster total cores: 8
H2O cluster allowed cores: 8
H2O cluster healthy: True
H2O Connection ip: 127.0.0.1
H2O Connection port: 54321
H2O Connection proxy: None
Python Version: 3.5.0

In [42]:
from h2o.utils.shared_utils import _locate # private function. used to find files within h2o git project directory.

air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%

In [43]:
air.dim


Out[43]:
[43978, 31]

In [44]:
numNAs = air["DepTime"].isna().sum()
print(numNAs)


1086.0

In [45]:
DepTime_mean = air["DepTime"].mean(na_rm=True)
print(DepTime_mean)


[1345.846661382077]

In [46]:
air.impute("DepTime", method = "median", combine_method="low")   
numNAs = air["DepTime"].isna().sum()
print(numNAs)


1086.0

In [47]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%

In [48]:
air.impute("DepTime", method = "mean", by = ["Origin", "Distance"]).show()


Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTimeUniqueCarrier FlightNumTailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelayOrigin Dest Distance TaxiIn TaxiOut CancelledCancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelayIsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849PS 1451NA 91 79 nan 23 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 15 4 729 730 903 849PS 1451NA 94 79 nan 14 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 17 6 741 730 918 849PS 1451NA 97 79 nan 29 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 18 7 729 730 847 849PS 1451NA 78 79 nan -2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 19 1 749 730 922 849PS 1451NA 93 79 nan 33 19SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 21 3 728 730 848 849PS 1451NA 80 79 nan -1 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 22 4 728 730 852 849PS 1451NA 84 79 nan 3 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 23 5 731 730 902 849PS 1451NA 91 79 nan 13 1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 24 6 744 730 908 849PS 1451NA 84 79 nan 19 14SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 25 7 729 730 851 849PS 1451NA 82 79 nan 2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO

In [49]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%

In [50]:
air.impute("TailNum", method = "mode").show()


Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTimeUniqueCarrier FlightNumTailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelayOrigin Dest Distance TaxiIn TaxiOut CancelledCancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelayIsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849PS 1451NA 91 79 nan 23 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 15 4 729 730 903 849PS 1451NA 94 79 nan 14 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 17 6 741 730 918 849PS 1451NA 97 79 nan 29 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 18 7 729 730 847 849PS 1451NA 78 79 nan -2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 19 1 749 730 922 849PS 1451NA 93 79 nan 33 19SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 21 3 728 730 848 849PS 1451NA 80 79 nan -1 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 22 4 728 730 852 849PS 1451NA 84 79 nan 3 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 23 5 731 730 902 849PS 1451NA 91 79 nan 13 1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 24 6 744 730 908 849PS 1451NA 84 79 nan 19 14SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 25 7 729 730 851 849PS 1451NA 82 79 nan 2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO

In [51]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))


Parse Progress: [##################################################] 100%

In [52]:
air.impute("TailNum", method = "mode", by=["Month", "Year"]).show()


Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTimeUniqueCarrier FlightNumTailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelayOrigin Dest Distance TaxiIn TaxiOut CancelledCancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelayIsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849PS 1451NA 91 79 nan 23 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 15 4 729 730 903 849PS 1451NA 94 79 nan 14 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 17 6 741 730 918 849PS 1451NA 97 79 nan 29 11SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 18 7 729 730 847 849PS 1451NA 78 79 nan -2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 19 1 749 730 922 849PS 1451NA 93 79 nan 33 19SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 21 3 728 730 848 849PS 1451NA 80 79 nan -1 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanNO NO
1987 10 22 4 728 730 852 849PS 1451NA 84 79 nan 3 -2SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO
1987 10 23 5 731 730 902 849PS 1451NA 91 79 nan 13 1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 24 6 744 730 908 849PS 1451NA 84 79 nan 19 14SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES YES
1987 10 25 7 729 730 851 849PS 1451NA 82 79 nan 2 -1SAN SFO 447 nan nan 0NA 0 nan nan nan nan nanYES NO