In [40]:
import h2o
In [41]:
h2o.init()
H2O cluster uptime:
33 seconds 365 milliseconds
H2O cluster version:
3.7.0.99999
H2O cluster name:
spIdea
H2O cluster total nodes:
1
H2O cluster total free memory:
12.42 GB
H2O cluster total cores:
8
H2O cluster allowed cores:
8
H2O cluster healthy:
True
H2O Connection ip:
127.0.0.1
H2O Connection port:
54321
H2O Connection proxy:
None
Python Version:
3.5.0
In [42]:
from h2o.utils.shared_utils import _locate # private function. used to find files within h2o git project directory.
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
In [43]:
air.dim
Out[43]:
[43978, 31]
In [44]:
numNAs = air["DepTime"].isna().sum()
print(numNAs)
1086.0
In [45]:
DepTime_mean = air["DepTime"].mean(na_rm=True)
print(DepTime_mean)
[1345.846661382077]
In [46]:
air.impute("DepTime", method = "median", combine_method="low")
numNAs = air["DepTime"].isna().sum()
print(numNAs)
1086.0
In [47]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
In [48]:
air.impute("DepTime", method = "mean", by = ["Origin", "Distance"]).show()
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum TailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelay Origin Dest Distance TaxiIn TaxiOut Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay IsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849 PS 1451 NA 91 79 nan 23 11 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 15 4 729 730 903 849 PS 1451 NA 94 79 nan 14 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
1987 10 17 6 741 730 918 849 PS 1451 NA 97 79 nan 29 11 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 18 7 729 730 847 849 PS 1451 NA 78 79 nan -2 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan NO NO
1987 10 19 1 749 730 922 849 PS 1451 NA 93 79 nan 33 19 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 21 3 728 730 848 849 PS 1451 NA 80 79 nan -1 -2 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan NO NO
1987 10 22 4 728 730 852 849 PS 1451 NA 84 79 nan 3 -2 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
1987 10 23 5 731 730 902 849 PS 1451 NA 91 79 nan 13 1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 24 6 744 730 908 849 PS 1451 NA 84 79 nan 19 14 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 25 7 729 730 851 849 PS 1451 NA 82 79 nan 2 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
In [49]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
In [50]:
air.impute("TailNum", method = "mode").show()
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum TailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelay Origin Dest Distance TaxiIn TaxiOut Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay IsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849 PS 1451 NA 91 79 nan 23 11 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 15 4 729 730 903 849 PS 1451 NA 94 79 nan 14 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
1987 10 17 6 741 730 918 849 PS 1451 NA 97 79 nan 29 11 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 18 7 729 730 847 849 PS 1451 NA 78 79 nan -2 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan NO NO
1987 10 19 1 749 730 922 849 PS 1451 NA 93 79 nan 33 19 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 21 3 728 730 848 849 PS 1451 NA 80 79 nan -1 -2 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan NO NO
1987 10 22 4 728 730 852 849 PS 1451 NA 84 79 nan 3 -2 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
1987 10 23 5 731 730 902 849 PS 1451 NA 91 79 nan 13 1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 24 6 744 730 908 849 PS 1451 NA 84 79 nan 19 14 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 25 7 729 730 851 849 PS 1451 NA 82 79 nan 2 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
In [51]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
In [52]:
air.impute("TailNum", method = "mode", by=["Month", "Year"]).show()
Year Month DayofMonth DayOfWeek DepTime CRSDepTime ArrTime CRSArrTime UniqueCarrier FlightNum TailNum ActualElapsedTime CRSElapsedTime AirTime ArrDelay DepDelay Origin Dest Distance TaxiIn TaxiOut Cancelled CancellationCode Diverted CarrierDelay WeatherDelay NASDelay SecurityDelay LateAircraftDelay IsArrDelayed IsDepDelayed
1987 10 14 3 741 730 912 849 PS 1451 NA 91 79 nan 23 11 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 15 4 729 730 903 849 PS 1451 NA 94 79 nan 14 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
1987 10 17 6 741 730 918 849 PS 1451 NA 97 79 nan 29 11 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 18 7 729 730 847 849 PS 1451 NA 78 79 nan -2 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan NO NO
1987 10 19 1 749 730 922 849 PS 1451 NA 93 79 nan 33 19 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 21 3 728 730 848 849 PS 1451 NA 80 79 nan -1 -2 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan NO NO
1987 10 22 4 728 730 852 849 PS 1451 NA 84 79 nan 3 -2 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
1987 10 23 5 731 730 902 849 PS 1451 NA 91 79 nan 13 1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 24 6 744 730 908 849 PS 1451 NA 84 79 nan 19 14 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES YES
1987 10 25 7 729 730 851 849 PS 1451 NA 82 79 nan 2 -1 SAN SFO 447 nan nan 0 NA 0 nan nan nan nan nan YES NO
Content source: nilbody/h2o-3
Similar notebooks: