Data preprocessing

Data preprocessing using R.



In [1]:

    
# Importing the dataset
dataset=read.csv('Data.csv')
dataset









    





Country Age Salary Purchased

	France 44     72000  No     
	Spain  27     48000  Yes    
	Germany 30     54000  No     
	Spain  38     61000  No     
	Germany 40        NA  Yes    
	France 35     58000  Yes    
	Spain  NA     52000  No     
	France 48     79000  Yes    
	Germany 50     83000  No     
	France 37     67000  Yes



In [2]:

    
# Taking care of missing values
dataset$Age=ifelse(is.na(dataset$Age),
                  ave(dataset$Age,FUN=function(x) mean(x,na.rm=TRUE)),
                      dataset$Age)
dataset$Salary= ifelse(is.na(dataset$Salary),
                  ave(dataset$Salary,FUN=function(x) mean(x,na.rm=TRUE)),
                      dataset$Salary)
dataset









    





Country Age Salary Purchased

	France  44.00000 72000.00 No      
	Spain   27.00000 48000.00 Yes     
	Germany 30.00000 54000.00 No      
	Spain   38.00000 61000.00 No      
	Germany 40.00000 63777.78 Yes     
	France  35.00000 58000.00 Yes     
	Spain   38.77778 52000.00 No      
	France  48.00000 79000.00 Yes     
	Germany 50.00000 83000.00 No      
	France  37.00000 67000.00 Yes



In [3]:

    
# Encoding Categorical variables
dataset$Country=factor(dataset$Country,
                      levels=c('France','Spain','Germany'),
                      labels=c(1,2,3))
dataset









    





Country Age Salary Purchased

	1       44.00000 72000.00 No      
	2       27.00000 48000.00 Yes     
	3       30.00000 54000.00 No      
	2       38.00000 61000.00 No      
	3       40.00000 63777.78 Yes     
	1       35.00000 58000.00 Yes     
	2       38.77778 52000.00 No      
	1       48.00000 79000.00 Yes     
	3       50.00000 83000.00 No      
	1       37.00000 67000.00 Yes



In [5]:

    
dataset$Purchased=factor(dataset$Purchased,levels=c('No','Yes'),labels=c(0,1))
dataset









    





Country Age Salary Purchased

	1       44.00000 72000.00 0       
	2       27.00000 48000.00 1       
	3       30.00000 54000.00 0       
	2       38.00000 61000.00 0       
	3       40.00000 63777.78 1       
	1       35.00000 58000.00 1       
	2       38.77778 52000.00 0       
	1       48.00000 79000.00 1       
	3       50.00000 83000.00 0       
	1       37.00000 67000.00 1



In [12]:

    
# Splitting train set and test set
library(caTools)
set.seed(2001)
split=sample.split(dataset$Purchased,SplitRatio=0.8)
#help(sample.split)
split
training_set=subset(dataset,split==TRUE)
test_set=subset(dataset,split==FALSE)









    





	FALSE
	TRUE
	TRUE
	TRUE
	TRUE
	TRUE
	TRUE
	FALSE
	TRUE
	TRUE








    





Country Age Salary Purchased

	1 1    44   72000 0    
	8 1    48   79000 1



In [15]:

    
# Feature scaling (optional)
## Note : A factor is not a numeric variable
training_set[,2:3]=scale(training_set[,2:3])
test_set[,2:3]=scale(test_set[,2:3])
test_set









    





Country Age Salary Purchased

	1 1         -0.7071068 -0.7071068 0         
	8 1          0.7071068  0.7071068 1



In [ ]:

Country	Age	Salary	Purchased
France	44	72000	No
Spain	27	48000	Yes
Germany	30	54000	No
Spain	38	61000	No
Germany	40	NA	Yes
France	35	58000	Yes
Spain	NA	52000	No
France	48	79000	Yes
Germany	50	83000	No
France	37	67000	Yes

Country	Age	Salary	Purchased
France	44.00000	72000.00	No
Spain	27.00000	48000.00	Yes
Germany	30.00000	54000.00	No
Spain	38.00000	61000.00	No
Germany	40.00000	63777.78	Yes
France	35.00000	58000.00	Yes
Spain	38.77778	52000.00	No
France	48.00000	79000.00	Yes
Germany	50.00000	83000.00	No
France	37.00000	67000.00	Yes