In [1]:
#Start your first DM project with R

In [12]:
#载入数据集(一个简单的分类)

In [4]:
data(iris) #载入Iris数据集

In [5]:
dataset<-iris #重命名

In [9]:
index<-sample(1:nrow(dataset),0.8*nrow(dataset))

In [10]:
test<-dataset[-index,]

In [11]:
train<-dataset[index,]

In [13]:
#对数据集进行汇总

In [14]:
dim(train)#数据集的维度


Out[14]:
  1. 120
  2. 5

In [15]:
sapply(train,class)#属性的类型


Out[15]:
Sepal.Length
'numeric'
Sepal.Width
'numeric'
Petal.Length
'numeric'
Petal.Width
'numeric'
Species
'factor'

In [16]:
str(train)#可代替上面两个


'data.frame':	120 obs. of  5 variables:
 $ Sepal.Length: num  5.1 6.4 6.5 6 7.7 7.6 4.9 5 5.8 5.5 ...
 $ Sepal.Width : num  3.8 2.8 3.2 2.2 3 3 2.4 2.3 4 2.4 ...
 $ Petal.Length: num  1.6 5.6 5.1 4 6.1 6.6 3.3 3.3 1.2 3.7 ...
 $ Petal.Width : num  0.2 2.1 2 1 2.3 2.1 1 1 0.2 1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 3 3 2 3 3 2 2 1 2 ...

In [17]:
head(train)#查看数据集


Out[17]:
Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies
475.13.81.60.2setosa
1296.42.85.62.1virginica
1116.53.25.12virginica
6362.241versicolor
1367.736.12.3virginica
1067.636.62.1virginica

In [19]:
levels(train$Species)#分类的层次


Out[19]:
  1. 'setosa'
  2. 'versicolor'
  3. 'virginica'

In [20]:
summary(train)#统计归纳


Out[20]:
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.575   1st Qu.:0.300  
 Median :5.700   Median :3.000   Median :4.200   Median :1.300  
 Mean   :5.792   Mean   :3.068   Mean   :3.666   Mean   :1.167  
 3rd Qu.:6.300   3rd Qu.:3.400   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.700   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :42  
 versicolor:41  
 virginica :37