In [1]:
import h2o
In [2]:
h2o.init()
H2O cluster uptime:
13 minutes 11 seconds 979 milliseconds
H2O cluster version:
3.5.0.99999
H2O cluster name:
ece
H2O cluster total nodes:
1
H2O cluster total memory:
10.67 GB
H2O cluster total cores:
8
H2O cluster allowed cores:
8
H2O cluster healthy:
True
H2O Connection ip:
127.0.0.1
H2O Connection port:
54321
In [3]:
from h2o.h2o import _locate # private function. used to find files within h2o git project directory.
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
Uploaded py32178e91-7166-470d-a879-13761091137d into cluster with 43,978 rows and 31 cols
In [4]:
air.dim
Out[4]:
[43978, 31]
In [5]:
numNAs = air["DepTime"].isna().sum()
print numNAs
1086.0
In [6]:
DepTime_mean = air["DepTime"].mean(na_rm=True)
print DepTime_mean
1345.84666138
In [7]:
air.impute("DepTime", method = "median", combine_method="low")
numNAs = air["DepTime"].isna().sum()
print numNAs
0.0
In [8]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
Uploaded pyf0e23d65-3525-4040-8ece-4b9cc6d74f1c into cluster with 43,978 rows and 31 cols
In [9]:
air.impute("DepTime", method = "mean", by = ["Origin", "Distance"]).show()
H2OFrame with 43978 rows and 31 columns:
Year
Month
DayofMonth
DayOfWeek
DepTime
CRSDepTime
ArrTime
CRSArrTime
UniqueCarrier
FlightNum
...
Cancelled
CancellationCode
Diverted
CarrierDelay
WeatherDelay
NASDelay
SecurityDelay
LateAircraftDelay
IsArrDelayed
IsDepDelayed
0
1987
10
14
3
741
730
912
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
1
1987
10
15
4
729
730
903
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
2
1987
10
17
6
741
730
918
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
3
1987
10
18
7
729
730
847
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
NO
NO
4
1987
10
19
1
749
730
922
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
5
1987
10
21
3
728
730
848
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
NO
NO
6
1987
10
22
4
728
730
852
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
7
1987
10
23
5
731
730
902
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
8
1987
10
24
6
744
730
908
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
9
1987
10
25
7
729
730
851
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
10 rows × 31 columns
In [10]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
Uploaded py1eafa8f1-9e79-4e9d-bed7-cce55812d4b3 into cluster with 43,978 rows and 31 cols
In [11]:
air.impute("TailNum", method = "mode").show()
H2OFrame with 43978 rows and 31 columns:
Year
Month
DayofMonth
DayOfWeek
DepTime
CRSDepTime
ArrTime
CRSArrTime
UniqueCarrier
FlightNum
...
Cancelled
CancellationCode
Diverted
CarrierDelay
WeatherDelay
NASDelay
SecurityDelay
LateAircraftDelay
IsArrDelayed
IsDepDelayed
0
1987
10
14
3
741
730
912
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
1
1987
10
15
4
729
730
903
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
2
1987
10
17
6
741
730
918
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
3
1987
10
18
7
729
730
847
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
NO
NO
4
1987
10
19
1
749
730
922
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
5
1987
10
21
3
728
730
848
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
NO
NO
6
1987
10
22
4
728
730
852
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
7
1987
10
23
5
731
730
902
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
8
1987
10
24
6
744
730
908
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
9
1987
10
25
7
729
730
851
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
10 rows × 31 columns
In [12]:
air = h2o.upload_file(_locate("smalldata/airlines/allyears2k_headers.zip"))
Parse Progress: [##################################################] 100%
Uploaded py39339839-6be5-4bfb-81a5-47cba893a510 into cluster with 43,978 rows and 31 cols
In [13]:
air.impute("TailNum", method = "mode", by=["Month", "Year"]).show()
H2OFrame with 43978 rows and 31 columns:
Year
Month
DayofMonth
DayOfWeek
DepTime
CRSDepTime
ArrTime
CRSArrTime
UniqueCarrier
FlightNum
...
Cancelled
CancellationCode
Diverted
CarrierDelay
WeatherDelay
NASDelay
SecurityDelay
LateAircraftDelay
IsArrDelayed
IsDepDelayed
0
1987
10
14
3
741
730
912
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
1
1987
10
15
4
729
730
903
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
2
1987
10
17
6
741
730
918
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
3
1987
10
18
7
729
730
847
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
NO
NO
4
1987
10
19
1
749
730
922
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
5
1987
10
21
3
728
730
848
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
NO
NO
6
1987
10
22
4
728
730
852
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
7
1987
10
23
5
731
730
902
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
8
1987
10
24
6
744
730
908
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
YES
9
1987
10
25
7
729
730
851
849
PS
1451
...
0
NaN
0
NaN
NaN
NaN
NaN
NaN
YES
NO
10 rows × 31 columns
Content source: madmax983/h2o-3
Similar notebooks: