1

2

3

4

5

6

7

这里的能否采集到,是指

  1. 能否获得正确的数据,比如用户的年龄就是很难获得的数据;
  2. 有些实时的数据并不一定能够获得。
8

9

10

11

12

13

14

15

16

17

18

离散化可以带来非线性。 课上举了汶川地震救人的例子。 老人和小孩更有可能被救,如果只有年龄这一个变量,那在LR中只能是正相关或负相关;但是,如果分成了[0-15, 15-45, 45+]这样的三个区间,就可以分别得到响应的weight,带来了非线性,老人和小孩更有可能被救。

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51


In [ ]: