Y.-W. FANG at Kyoto University, April 25th - April 28th, 2018

机器学习,无论单纯从理论,或者应用的角度来看,都可能会只看到冰山一角。现在,我们是从基础开始的,即fundation Oriented Machine Learning. 在学习的过程中,穿插基础在理论和实践中的实际应用,讨论各种应用场景背后的基础。

The goal of this course is make students learn 'future/untaught' techniques or study depper theory easily.

The learning problem

What is Machine Learning

Machine learning: improving some performance measure with experience comptued from data

data -> ML -> improved performance measure

for example:

stock data -> ML -> more investment again

为什么我们需要机器学习?举一个很常见的例子。假设你面前有一幅画,画着树木和天空。那么如何让程序分辨出树是树?传统的硬编程方式是很困难的,这有赖于我们需要数学化地定义树,从而程序才能判断,然而想通过数学来定义一棵树,可想而知这个无比困难。这时候ML就可以发挥作用,它可以像孩子(尽管目前为止,在某些情况下还远远不如孩子聪明)一样,通过不断地学习包含树的图片,最后就可以分辨出‘树是树’了。

机器学习的常见应用场景:

  • 人类无法方便地通过编程来解决某个问题
  • 人类无法明确地定义问题的“解”。
  • 快速决策 rapid decision making,例如high-frequency trading
  • 用户为导向的需求问题。例如cosumer-targetd marketing

林老师给出了一个很有意思的比喻: Give a computer a fish, you feed it for a day; teach it how to fish, you feed it for a lifetime.

机器学习需要具备一些要素才能进行(具备这些关键,我们往往才可以使用机器学习来解决真实的问题):

  • exsits ‘underlying parttern’ that can be learned--so 'performance measure' can be improved
  • but no programmable (easy) definition--so 'ML' is needed
  • somehow there is data about the pattern--so ML has some 'inputs' to learn from

Applications of Machine Learning

Deaily needs: Food, clothing, housing, transportation, education, entertainment

1) Food (Ref: Sadiek et al. 2013)

  • data: Twitter data
  • skill: tell food poisoning likeliness of restaurant properly

2) Clothing (Abu-Mostafa(Lin's supervisor at Caltech), 2012)

  • data: scale figures + clien surveys
  • skill: give good fashion recommendations to clients

3) Housing (Tsanas and Xifara, 2012)

  • data: characteristics of building and there energy load
  • skill: predict energy load of other buildings closely

4) Transportantion (Stallkamp et al., 2012)

  • data: some traffic sign images and meanings
  • skill: recongnize tranffic signs accurately

5) Education

  • data: students' records on quizzes on a math tutoring system
  • skill: predict whether a student can give a correct answer to another quiz question

6) Entertainment: eg. Recommender system

  • data: how many uses hae rated some moveies
  • skill: predict how a user would rate an unrated movie

Components of Machine Learning

input: x $\in$ $\mathcal{X}$

output: y $\in$ $\mathcal{Y}$

target function $f$: $x$ $\rightarrow$ $y$

database: $\mathcal{D}$

learning algorithm (学习算法): $\mathcal{A}$

final hypothesis: $g$ $\approx$ $f$

hypothesis set (模型): $\mathcal{H}$

leanring model: including $\mathcal{A}$ and $\mathcal{H}$.

practical definition of machine learning

林老师展示了一个流程图,我随意地画了一个,

我们有 $\mathcal{X}$和$\mathcal{Y}$两个集合,但是我们不知道是什么样子的 $f$ 具体联系着两者。现在有一个元素 x $\in$ $\mathcal{X}$, 我们想要知道对应的 y $\in$ $\mathcal{Y}$ 是哪一个?这个时候,我们可以采用机器学习,通过学习数据库 $\mathcal{D}$,算出一个最接近目标函数 $f$ 的函数 $g$ (${g \in \mathcal{H}}$).

Machine Learning与其他领域的关系

台湾称呼Data Mining为‘资料勘探’,在大陆地区,则称之为‘数据挖掘’。

机器学习与数据挖掘的区别

  • 机器学习是使用数据去计算得到一个接近目标函数 $f$ 的 hypothesis $g$;数据挖掘是从海量的数据中寻找到有趣的property。
  • 这两者在某些情况下会趋于等价. 假设‘interesting property’正好是‘hypothesis that approximate target’ (实例比如 KDDCup competition).
  • 如果‘interesting property’是与‘hypothesis that approximate target’相关的,那么这两者将可以相互促进(尽管不总是如此)。
  • 传统的数据挖掘也侧重于在海量数据中进行高效地计算

在实际情况中,很多时候无法严格区分ML和DM。

机器学习与人工智能AI的区别

  • 机器学习是使用数据去计算得到一个接近目标函数 $f$ 的 hypothesis $g$;人工智能则是compute something that shows intelligent behavior.
  • 机器学习中,如果我们得到了 ${g \approx f}$,这件事本身就展现出来了人工智能,因此我们可以说,ML 是实现 AI 的方法之一。例如,AlphagaGo 战胜围棋高手。

机器学习与统计statistics的区别

  • 机器学习是使用数据去计算得到一个接近目标函数 $f$ 的 hypothesis $g$;统计,则是对一个未知的事情去推论某一个结果,例如丢硬币猜测正反的问题。
  • $g$ 其实是一个推论的结果(inference outcome),而 $f$在机器学习中是未知的,从这个角度讲,统计可以说是用来实现机器学习的一种方法。
  • 传统的统计学,最初来自于数学,它主要关注于基于某些假设下所预测到的结果,而对计算本身并不关注。现代机器学习,不仅关注预测到的结果,对计算本身也十分关注。传统统计学中有很多工具,可以用于机器学习。

Summary of course 01:

  • When can we use ml?
  • Why can wo use ml?
  • How can we use ml?
  • How can make ml better?

In [ ]: