欢迎来到机器学习工程师纳米学位的第一个项目!在此文件中,有些示例代码已经提供给你,但你还需要实现更多的功能来让项目成功运行。除非有明确要求,你无须修改任何已给出的代码。以'练习'开始的标题表示接下来的内容中有需要你必须实现的功能。每一部分都会有详细的指导,需要实现的部分也会在注释中以'TODO'标出。请仔细阅读所有的提示!
除了实现代码外,你还必须回答一些与项目和实现有关的问题。每一个需要你回答的问题都会以'问题 X'为标题。请仔细阅读每个问题,并且在问题后的'回答'文字框中写出完整的答案。你的项目将会根据你对问题的回答和撰写代码所实现的功能来进行评分。
提示:Code 和 Markdown 区域可通过 Shift + Enter 快捷键运行。此外,Markdown可以通过双击进入编辑模式。
在这个项目中,你将利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型,并对模型的性能和预测能力进行测试。通过该数据训练后的好的模型可以被用来对房屋做特定预测---尤其是对房屋的价值。对于房地产经纪等人的日常工作来说,这样的预测模型被证明非常有价值。
此项目的数据集来自UCI机器学习知识库。波士顿房屋这些数据于1978年开始统计,共506个数据点,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本项目对原始数据集做了以下处理:
'MEDV'
值为50.0的数据点被移除。 这很可能是由于这些数据点包含遗失或看不到的值。'RM'
值为8.78. 这是一个异常值,已经被移除。'RM'
, 'LSTAT'
,'PTRATIO'
以及'MEDV'
特征是必要的,其余不相关特征已经被移除。'MEDV'
特征的值已经过必要的数学转换,可以反映35年来市场的通货膨胀效应。运行下面区域的代码以载入波士顿房屋数据集,以及一些此项目所需的Python库。如果成功返回数据集的大小,表示数据集已载入成功。
In [1]:
# Import libraries necessary for this project
# 载入此项目所需要的库
import numpy as np
import pandas as pd
import visuals as vs # Supplementary code
from sklearn.model_selection import ShuffleSplit
from IPython.display import display
# Pretty display for notebooks
# 让结果在notebook中显示
%matplotlib inline
# Load the Boston housing dataset
# 载入波士顿房屋的数据集
data = pd.read_csv('housing.csv')
prices = data['MEDV']
features = data.drop('MEDV', axis = 1)
print "波士顿房价原始数据:"
display(data.head())
# Success
# 完成
print "Boston housing dataset has {} data points with {} variables each.".format(*data.shape)
In [44]:
# TODO: Minimum price of the data
#目标:计算价值的最小值
minimum_price = prices.as_matrix().min()
# TODO: Maximum price of the data
#目标:计算价值的最大值
maximum_price = prices.values.max()
# TODO: Mean price of the data
#目标:计算价值的平均值
mean_price = np.array(prices).mean()
# TODO: Median price of the data
#目标:计算价值的中值
median_price = np.median(np.array(prices))
# TODO: Standard deviation of prices of the data
#目标:计算价值的标准差
std_price = np.std(prices)
# Show the calculated statistics
#目标:输出计算的结果
print "Statistics for Boston housing dataset:\n"
print "Minimum price:\t ${:,.2f}".format(minimum_price)
print "Maximum price:\t ${:,.2f}".format(maximum_price)
print "Mean price:\t ${:,.2f}".format(mean_price)
print "Median price:\t ${:,.2f}".format(median_price)
print "Standard deviation of prices:\t ${:,.2f}\n".format(std_price)
print "Note:"
print "Panda.std:\t\t ${:,.2f}".format(prices.std())
print "Panda.std(ddof=0):\t ${:,.2f}".format(prices.std(ddof=0))
print "Numpy.std:\t\t ${:,.2f}".format(np.std(prices))
print "Summary: prices.std(ddof=0) equals np.std(prices)"
In [94]:
print data.loc[1]
print data.loc[1]['RM']
# for index, row in data.iterrows():
# print index
# print row
In [100]:
import matplotlib.pyplot as plt
plt.figure(figsize=(20, 5))
for i, col in enumerate(features.columns):
plt.subplot(1, 3, (i+1))
plt.plot(data[col], prices, 'o')
plt.title(col)
plt.xlabel(col)
plt.ylabel('prices')
plt.figure(figsize=(10,10))
ax = plt.subplot(111, projection='3d')
# ax.scatter(data['RM'], data['LSTAT'], data['PTRATIO'], marker='o')
for index, row in data.iterrows():
ax.scatter(row['RM'], row['LSTAT'], row['PTRATIO'], c=('#000080'), marker='o')
ax.set_xlabel('RM: Room number')
ax.set_ylabel('LSTAT: Low imcome')
ax.set_zlabel('PTRATIO: Student/Teather')
plt.show()
回答: 我理解的本题的前提条件是,三个变量中,增大其中一个变量,而另外两个变量不变的情况下,房屋价值是增大还是**减小。
如果不能对模型的训练和测试的表现进行量化地评估,我们就很难衡量模型的好坏。通常我们会定义一些衡量标准,这些标准可以通过对某些误差或者拟合程度的计算来得到。在这个项目中,你将通过运算决定系数 R2 来量化模型的表现。模型的决定系数是回归分析中十分常用的统计信息,经常被当作衡量模型预测能力好坏的标准。
R2的数值范围从0至1,表示目标变量的预测值和实际值之间的相关程度平方的百分比。一个模型的R2 值为0还不如直接用平均值来预测效果好;而一个R2 值为1的模型则可以对目标变量进行完美的预测。从0至1之间的数值,则表示该模型中目标变量中有百分之多少能够用特征来解释。模型也可能出现负值的R2,这种情况下模型所做预测有时会比直接计算目标变量的平均值差很多。
在下方代码的 performance_metric
函数中,你要实现:
sklearn.metrics
中的 r2_score
来计算 y_true
和 y_predict
的R2值,作为对其表现的评判。score
变量中。
In [28]:
# TODO: Import 'r2_score'
from sklearn.metrics import r2_score
def performance_metric(y_true, y_predict):
""" Calculates and returns the performance score between
true and predicted values based on the metric chosen. """
# TODO: Calculate the performance score between 'y_true' and 'y_predict'
score = r2_score(y_true, y_predict)
# Return the score
return score
In [29]:
# Calculate the performance of this model
score = performance_metric([3, -0.5, 2, 7, 4.2], [2.5, 0.0, 2.1, 7.8, 5.3])
print "Model has a coefficient of determination, R^2, of {:.3f}.".format(score)
回答: 成功,因为R^2等于0.923,非常接近1,而且,算是预测得比较好。
接下来,你需要把波士顿房屋数据集分成训练和测试两个子集。通常在这个过程中,数据也会被重新排序,以消除数据集中由于排序而产生的偏差。 在下面的代码中,你需要:
sklearn.model_selection
中的 train_test_split
, 将features
和prices
的数据都分成用于训练的数据子集和用于测试的数据子集。train_test_split
中的 random_state
,这会确保结果的一致性;X_train
,X_test
,y_train
,和y_test
。
In [30]:
# TODO: Import 'train_test_split'
from sklearn.model_selection import train_test_split
print type(prices)
print type(features)
print "prices.shape:\t{0}".format(prices.shape)
print "features.shape:\t{0}".format(features.shape)
# TODO: Shuffle and split the data into training and testing subsets
X_train, X_test, y_train, y_test = train_test_split(prices, features, test_size=0.2, random_state=31)
print "X_train.shape:\t{0}".format(X_train.shape)
print "X_test.shape:\t{0}".format(X_test.shape)
print "y_train.shape:\t{0}".format(y_train.shape)
print "y_test.shape:\t{0}".format(y_test.shape)
# Success
print "Training and testing split was successful."
答案: 前提是,我们希望预测结果尽量准确。那么,
In [31]:
# Produce learning curves for varying training set sizes and maximum depths
vs.ModelLearning(features, prices)
答案: max_depth=6时,随着训练数据量的增加,训练曲线的逐渐下降,并趋于平缓,测试曲线先快速上升,然后快速趋于平缓。 如果有更多的训练数据,将不能提高模型的表现,因为,训练曲线和测试曲线都已经收敛,并趋近于一个特定的值。
In [32]:
vs.ModelComplexity(features, prices)
答案: 当最大深度1训练时,出现很大的偏差,因为Training Score和Validation Score都在0.4左右,很低。 当最大深度10训练时,出现了很大的方差,因为,当Training Score接近1时,Validation Score反而从深度等于4时的0.8下降到了现在的0.7。 如果Validation Score很低,那么说明偏差很大。 如果Training Score与Validating Score曲线离得太远,则说明,方差很大。
答案: 最大深度是4的模型最好。因为此时,Training Score很Validation Score都很高,说明偏差小,而且很接近,说明,方差也小。
回答: 把模型中,多个参数可能出现的值的情况都分别列出,那么,这就是一个多维的参数网格。然后,计算列出的所有的参数的预测结果。 使用中,可以图形化参数网格的输出结果,便于可视化的识别,最优的情况。
'cv_results'
属性能告诉我们什么?提示: 在下面 fit_model函数最后加入 print pd.DataFrame(grid.cv_results_)
可以帮你查看更多。
答案:
在最后一个练习中,你将需要将所学到的内容整合,使用决策树演算法训练一个模型。为了保证你得出的是一个最优模型,你需要使用网格搜索法训练模型,以找到最佳的 'max_depth'
参数。你可以把'max_depth'
参数理解为决策树算法在做出预测前,允许其对数据提出问题的数量。决策树是监督学习算法中的一种。
此外,你会发现你的实现使用的是 ShuffleSplit()
。它也是交叉验证的一种方式(见变量 'cv_sets'
)。虽然这不是问题8中描述的 K-Fold 交叉验证,这个教程验证方法也很有用!这里 ShuffleSplit()
会创造10个('n_splits'
)混洗过的集合,每个集合中20%('test_size'
)的数据会被用作验证集。当你在实现的时候,想一想这跟 K-Fold 交叉验证有哪些相同点,哪些不同点?
在下方 fit_model
函数中,你需要做的是:
sklearn.tree
中的 DecisionTreeRegressor
创建一个决策树的回归函数;'regressor'
变量中;'max_depth'
创造一个字典,它的值是从1至10的数组,并储存到 'params'
变量中;sklearn.metrics
中的 make_scorer
创建一个评分函数;performance_metric
作为参数传至这个函数中;'scoring_fnc'
变量中;sklearn.model_selection
中的 GridSearchCV
创建一个网格搜索对象;'regressor'
, 'params'
, 'scoring_fnc'
, 和 'cv_sets'
作为参数传至这个对象中;GridSearchCV
存到 'grid'
变量中。如果有同学对python函数如何传递多个参数不熟悉,可以参考这个MIT课程的视频。
In [47]:
# TODO: Import 'make_scorer', 'DecisionTreeRegressor', and 'GridSearchCV'
from sklearn.metrics import r2_score, fbeta_score, make_scorer
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV, ShuffleSplit
#%pdb on
def fit_model(X, y):
""" Performs grid search over the 'max_depth' parameter for a
decision tree regressor trained on the input data [X, y]. """
# Create cross-validation sets from the training data
cv_sets = ShuffleSplit(n_splits = 10, test_size = 0.2, train_size=None, random_state = 1)
#cv_sets.get_n_splits(X)
# TODO: Create a decision tree regressor object
regressor = DecisionTreeRegressor(random_state = 0)
# TODO: Create a dictionary for the parameter 'max_depth' with a range from 1 to 10
params = {'max_depth':range(1,11)}
# TODO: Transform 'performance_metric' into a scoring function using 'make_scorer'
scoring_fnc = make_scorer(performance_metric)
# TODO: Create the grid search object
grid = GridSearchCV(regressor, params, scoring_fnc, cv=cv_sets)
# Fit the grid search object to the data to compute the optimal model
grid = grid.fit(X, y)
# Return the optimal model after fitting the data
return grid.best_estimator_
In [34]:
# Fit the training data to the model using grid search
reg = fit_model(features, prices)
# Produce the value for 'max_depth'
print "Parameter 'max_depth' is {} for the optimal model.".format(reg.get_params()['max_depth'])
答案: 最优模型的最大深度(maximum depth)是4,与之前的猜测4,相同。
In [35]:
# Produce a matrix for client data
client_data = [[5, 17, 15], # Client 1
[4, 32, 22], # Client 2
[8, 3, 12]] # Client 3
# Show predictions
for i, price in enumerate(reg.predict(client_data)):
print "Predicted selling price for Client {}'s home: ${:,.2f}".format(i+1, price)
In [64]:
import matplotlib.pyplot as plt
plt.hist(prices, bins = 100)
for price in reg.predict(client_data):
plt.axvline(price, lw = 5, c = 'r')
答案: 建议价格:
特征 | 客戶 1 | 客戶 2 | 客戶 3 |
---|---|---|---|
建议售价 | \$408,800.00 | \$231,253.45 | \$938,053.85 |
价格比较合理。因为,从数据趋势来看,社区越富有,社区贫困指数(%被认为是贫困阶层)越低,房屋内房间总数越多,邻近学校的学生-老师比例越低,销售总价也就越高。该地区,房屋平均价值\$454,342.94,中位数\$438,900.00,最低房价\$105,000.00,最高房价$1,024,800.00。可以看出,客户2是低收入的社区,客户1是中等收入的社区,客户3是高收入的社区。
In [40]:
# 如果你在 fit_model 函数里使用了 print pd.DataFrame(grid.cv_results_) 请注释掉这行之后再运行本代码
vs.PredictTrials(features, prices, fit_model, client_data)
答案:
总结: 基于以上的问题的讨论,可以看出,直接将现在的模型和参数直接生搬硬套,应用到现实世界中的另外的时期,或者其他地区是不合理的。 但是,这种分析数据,建立模型,验证数据的方法,是可用的。在现实世界中,可以使用类似的方法,搜集新的数据,建立新的模型,才会是一种可行的方式。
(本题结果不影响项目是否通过)通过上面的实践,相信你对机器学习的一些常用概念有了很好的领悟和掌握。但利用70年代的波士顿房价数据进行建模的确对我们来说意义不是太大。现在你可以把你上面所学应用到北京房价数据集中bj_housing.csv
。
免责声明:考虑到北京房价受到宏观经济、政策调整等众多因素的直接影响,预测结果仅供参考。
这个数据集的特征有:
目标变量:
你可以参考上面学到的内容,拿这个数据集来练习数据分割与重排、定义衡量标准、训练模型、评价模型表现、使用网格搜索配合交叉验证对参数进行调优并选出最佳参数,比较两者的差别,最终得出最佳模型对验证集的预测分数。
In [41]:
def bj_PredictTrials(X, y, fitter, data):
""" Performs trials of fitting and predicting data. """
# Store the predicted prices
prices = []
for k in range(10):
# Split the data
X_train, X_test, y_train, y_test = train_test_split(X, y, \
test_size = 0.2, random_state = k)
# Fit the data
reg = fitter(X_train, y_train)
# Make a prediction
pred = reg.predict([data[0]])[0]
prices.append(pred)
# Result
print "Trial {}: ¥{:,.2f}万".format(k+1, pred)
# Display price range
print "\nRange in prices: ¥{:,.2f}万".format(max(prices) - min(prices))
In [56]:
bj_data = pd.read_csv('bj_housing.csv')
print "北京房价原始数据:"
bj_prices = bj_data['Value']
bj_features = bj_data.drop('Value', axis = 1)
display(bj_data.head())
print "Beijing housing dataset has {} data points with {} variables each.".format(*bj_data.shape)
bj_reg = fit_model(bj_features, bj_prices)
print "Parameter 'max_depth' is {} for the optimal model.".format(bj_reg.get_params()['max_depth'])
bj_client_data = [
[127, 3, 1, 1, 2004, 22],
[60, 1, 2, 1, 2000, 5],
[118, 3, 2, 0, 2006, 10]
]
# Show predictions
for i, price in enumerate(bj_reg.predict(bj_client_data)):
print "Predicted selling price for Client {}'s home: ¥{:,.2f}万".format(i+1, price)
bj_PredictTrials(bj_features, bj_prices, fit_model, bj_client_data)
In [65]:
import matplotlib.pyplot as plt
plt.hist(bj_prices, bins = 100)
#price in enumerate(bj_reg.predict(bj_client_data))
for price in bj_reg.predict(bj_client_data):
plt.axvline(price, lw = 5, c = 'r')
你成功的用新的数据集构建了模型了吗?他能对测试数据进行验证吗?它的表现是否符合你的预期?交叉验证是否有助于提升你模型的表现?
答案:使用前面波士顿模型的代码,使用北京的数据,重新生成模型。 符合预期主要是,敏感度低。交叉验证,有帮助。
如果你是从零开始构建机器学习的代码会让你一时觉得无从下手。这时不要着急,你要做的只是查看之前写的代码,把每一行都看明白,然后逐步构建你的模型。当中遇到什么问题也可以在我们论坛寻找答案。也许你会发现你所构建的模型的表现并没有达到你的预期,这说明机器学习并非是一项简单的任务,构建一个表现良好的模型需要长时间的研究和测试。这也是我们接下来的课程中会逐渐学到的。