Y.-W. FANG at Kyoto University, April 25th - April 28th, 2018
机器学习,无论单纯从理论,或者应用的角度来看,都可能会只看到冰山一角。现在,我们是从基础开始的,即fundation Oriented Machine Learning. 在学习的过程中,穿插基础在理论和实践中的实际应用,讨论各种应用场景背后的基础。
The goal of this course is make students learn 'future/untaught' techniques or study depper theory easily.
Machine learning: improving some performance measure with experience comptued from data
data -> ML -> improved performance measure
for example:
stock data -> ML -> more investment again
为什么我们需要机器学习?举一个很常见的例子。假设你面前有一幅画,画着树木和天空。那么如何让程序分辨出树是树?传统的硬编程方式是很困难的,这有赖于我们需要数学化地定义树,从而程序才能判断,然而想通过数学来定义一棵树,可想而知这个无比困难。这时候ML就可以发挥作用,它可以像孩子(尽管目前为止,在某些情况下还远远不如孩子聪明)一样,通过不断地学习包含树的图片,最后就可以分辨出‘树是树’了。
机器学习的常见应用场景:
林老师给出了一个很有意思的比喻: Give a computer a fish, you feed it for a day; teach it how to fish, you feed it for a lifetime.
机器学习需要具备一些要素才能进行(具备这些关键,我们往往才可以使用机器学习来解决真实的问题):
Deaily needs: Food, clothing, housing, transportation, education, entertainment
1) Food (Ref: Sadiek et al. 2013)
2) Clothing (Abu-Mostafa(Lin's supervisor at Caltech), 2012)
3) Housing (Tsanas and Xifara, 2012)
4) Transportantion (Stallkamp et al., 2012)
5) Education
6) Entertainment: eg. Recommender system
input: x $\in$ $\mathcal{X}$
output: y $\in$ $\mathcal{Y}$
target function $f$: $x$ $\rightarrow$ $y$
database: $\mathcal{D}$
learning algorithm (学习算法): $\mathcal{A}$
final hypothesis: $g$ $\approx$ $f$
hypothesis set (模型): $\mathcal{H}$
leanring model: including $\mathcal{A}$ and $\mathcal{H}$.
林老师展示了一个流程图,我随意地画了一个,
我们有 $\mathcal{X}$和$\mathcal{Y}$两个集合,但是我们不知道是什么样子的 $f$ 具体联系着两者。现在有一个元素 x $\in$ $\mathcal{X}$, 我们想要知道对应的 y $\in$ $\mathcal{Y}$ 是哪一个?这个时候,我们可以采用机器学习,通过学习数据库 $\mathcal{D}$,算出一个最接近目标函数 $f$ 的函数 $g$ (${g \in \mathcal{H}}$).
台湾称呼Data Mining为‘资料勘探’,在大陆地区,则称之为‘数据挖掘’。
机器学习与数据挖掘的区别:
在实际情况中,很多时候无法严格区分ML和DM。
机器学习与人工智能AI的区别:
机器学习与统计statistics的区别:
Summary of course 01:
In [ ]: