Kali ini, akan dianalisis ulang distance metric mana yang paling baik. Jadi, sebelumnya sudah dilakukan eksperimen kecil dengan spesifikasi identik dengan eksperimen kecil sebelumnya (saat distance metric yang diuji hanya euclidean
dan cityblock
) namun dengan distance metric correlation
dan cosine
.
Pertama-tama, load tools yang dibutuhkan.
In [1]:
import numpy as np
import pandas as pd
%matplotlib inline
Load hasil eksperimen.
In [2]:
df1 = pd.read_hdf('../reports/small-exp.h5', 'df')
df2 = pd.read_hdf('../reports/small-exp-2.h5', 'df')
Isi df1
sama seperti sebelumnya, yakni hasil eksperimen ketika ingin menentukan metode dan distance metric terbaik.
In [3]:
df1
Out[3]:
num_norm
30
num_oot
3
num_top
3
result
base
perf
k
0
1
2
3
0
1
2
3
method
feature
metric
norm_dir
oot_dir
clust_dist
unigram
euclidean
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.833333
0.166667
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.700000
0.300000
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.900000
0.100000
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.533333
0.433333
0.033333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.133333
0.433333
0.433333
0.000000
phy17301
mov973
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.933333
0.066667
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.833333
0.166667
0.000000
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.433333
0.533333
0.033333
0.000000
rel37898
mov973
0.744135
0.239186
0.016496
0.000183
0.933333
0.066667
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.700000
0.300000
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.500000
0.433333
0.066667
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.333333
0.400000
0.233333
0.033333
mov9811
mov973
0.744135
0.239186
0.016496
0.000183
0.966667
0.033333
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.800000
0.166667
0.033333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.400000
0.500000
0.100000
0.000000
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.833333
0.166667
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.700000
0.266667
0.033333
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.300000
0.600000
0.100000
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.366667
0.333333
0.266667
0.033333
cityblock
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.633333
0.366667
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.600000
0.400000
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.766667
0.233333
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.433333
0.533333
0.000000
0.033333
rel159410
0.744135
0.239186
0.016496
0.000183
0.033333
0.366667
0.466667
0.133333
...
...
...
...
...
...
...
...
...
...
...
...
...
txt_comp_dist
unigram
euclidean
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.133333
0.433333
0.400000
0.033333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.133333
0.433333
0.400000
0.033333
mus10142
0.744135
0.239186
0.016496
0.000183
0.300000
0.633333
0.066667
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.366667
0.266667
0.266667
0.100000
rel159410
0.744135
0.239186
0.016496
0.000183
0.733333
0.233333
0.033333
0.000000
cityblock
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.300000
0.700000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.233333
0.633333
0.133333
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.033333
0.233333
0.733333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.133333
0.600000
0.266667
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.600000
0.366667
0.033333
0.000000
phy17301
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.166667
0.766667
0.066667
bbs57549
0.744135
0.239186
0.016496
0.000183
0.033333
0.400000
0.533333
0.033333
mus10142
0.744135
0.239186
0.016496
0.000183
0.000000
0.200000
0.700000
0.100000
phy40008
0.744135
0.239186
0.016496
0.000183
0.300000
0.466667
0.233333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.600000
0.366667
0.033333
0.000000
rel37898
mov973
0.744135
0.239186
0.016496
0.000183
0.166667
0.700000
0.133333
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.333333
0.666667
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.033333
0.766667
0.200000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.300000
0.666667
0.033333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.900000
0.100000
0.000000
0.000000
mov9811
mov973
0.744135
0.239186
0.016496
0.000183
0.466667
0.466667
0.066667
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.733333
0.266667
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.500000
0.466667
0.033333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.733333
0.266667
0.000000
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.933333
0.066667
0.000000
0.000000
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.166667
0.633333
0.166667
0.033333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.400000
0.333333
0.233333
0.033333
mus10142
0.744135
0.239186
0.016496
0.000183
0.333333
0.400000
0.233333
0.033333
phy40008
0.744135
0.239186
0.016496
0.000183
0.500000
0.300000
0.166667
0.033333
rel159410
0.744135
0.239186
0.016496
0.000183
0.800000
0.166667
0.033333
0.000000
150 rows × 8 columns
Isi df2
adalah hasil eksperimen dengan spesifikasi sama seperti df1
namun distance metric yang digunakan adalah cosine
dan correlation
. Di sini tabelnya agak sedikit berbeda karena ada level index baru yaitu max_features
.
In [4]:
df2
Out[4]:
num_norm
30
num_oot
3
num_top
3
result
base
perf
k
0
1
2
3
0
1
2
3
method
feature
max_features
metric
norm_dir
oot_dir
clust_dist
unigram
all
cosine
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.266667
0.666667
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.800000
0.200000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.000000
0.733333
0.266667
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.633333
0.366667
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.866667
0.133333
0.000000
phy17301
mov973
0.744135
0.239186
0.016496
0.000183
0.100000
0.066667
0.300000
0.533333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.033333
0.733333
0.233333
mus10142
0.744135
0.239186
0.016496
0.000183
0.033333
0.400000
0.266667
0.300000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.700000
0.266667
0.033333
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.833333
0.166667
0.000000
rel37898
mov973
0.744135
0.239186
0.016496
0.000183
0.100000
0.466667
0.433333
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.100000
0.300000
0.600000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.233333
0.533333
0.233333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.533333
0.333333
0.133333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.900000
0.100000
0.000000
0.000000
mov9811
mov973
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.266667
0.600000
0.066667
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.266667
0.666667
0.066667
mus10142
0.744135
0.239186
0.016496
0.000183
0.166667
0.666667
0.166667
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.233333
0.633333
0.133333
rel159410
0.744135
0.239186
0.016496
0.000183
0.066667
0.666667
0.266667
0.000000
correlation
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.200000
0.466667
0.266667
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.400000
0.366667
0.233333
mus10142
0.744135
0.239186
0.016496
0.000183
0.000000
0.900000
0.100000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.200000
0.600000
0.200000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.033333
0.400000
0.566667
...
...
...
...
...
...
...
...
...
...
...
...
...
...
txt_comp_dist
unigram
all
cosine
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.466667
0.433333
0.100000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.333333
0.466667
0.200000
mus10142
0.744135
0.239186
0.016496
0.000183
0.300000
0.566667
0.133333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.066667
0.333333
0.366667
0.233333
rel159410
0.744135
0.239186
0.016496
0.000183
0.333333
0.566667
0.100000
0.000000
correlation
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.133333
0.666667
0.200000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.366667
0.500000
0.133333
mus10142
0.744135
0.239186
0.016496
0.000183
0.033333
0.833333
0.133333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.300000
0.500000
0.200000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.066667
0.466667
0.466667
phy17301
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.033333
0.933333
0.033333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.066667
0.866667
0.066667
mus10142
0.744135
0.239186
0.016496
0.000183
0.000000
0.600000
0.400000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.600000
0.400000
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.200000
0.800000
0.000000
rel37898
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.900000
0.033333
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.033333
0.966667
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.633333
0.366667
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.266667
0.700000
0.033333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.533333
0.466667
0.000000
0.000000
mov9811
mov973
0.744135
0.239186
0.016496
0.000183
0.366667
0.433333
0.200000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.133333
0.600000
0.266667
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.933333
0.066667
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.166667
0.466667
0.366667
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.500000
0.266667
0.233333
0.000000
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.200000
0.466667
0.333333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.133333
0.366667
0.500000
mus10142
0.744135
0.239186
0.016496
0.000183
0.233333
0.733333
0.033333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.300000
0.333333
0.366667
rel159410
0.744135
0.239186
0.016496
0.000183
0.033333
0.100000
0.533333
0.333333
150 rows × 8 columns
Agar seragam, buang level index max_features
.
In [5]:
df2.index = df2.index.droplevel(level='max_features')
In [6]:
df2
Out[6]:
num_norm
30
num_oot
3
num_top
3
result
base
perf
k
0
1
2
3
0
1
2
3
method
feature
metric
norm_dir
oot_dir
clust_dist
unigram
cosine
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.266667
0.666667
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.800000
0.200000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.000000
0.733333
0.266667
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.633333
0.366667
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.866667
0.133333
0.000000
phy17301
mov973
0.744135
0.239186
0.016496
0.000183
0.100000
0.066667
0.300000
0.533333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.033333
0.733333
0.233333
mus10142
0.744135
0.239186
0.016496
0.000183
0.033333
0.400000
0.266667
0.300000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.700000
0.266667
0.033333
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.833333
0.166667
0.000000
rel37898
mov973
0.744135
0.239186
0.016496
0.000183
0.100000
0.466667
0.433333
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.100000
0.300000
0.600000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.233333
0.533333
0.233333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.533333
0.333333
0.133333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.900000
0.100000
0.000000
0.000000
mov9811
mov973
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
1.000000
0.000000
0.000000
0.000000
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.266667
0.600000
0.066667
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.266667
0.666667
0.066667
mus10142
0.744135
0.239186
0.016496
0.000183
0.166667
0.666667
0.166667
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.233333
0.633333
0.133333
rel159410
0.744135
0.239186
0.016496
0.000183
0.066667
0.666667
0.266667
0.000000
correlation
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.200000
0.466667
0.266667
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.400000
0.366667
0.233333
mus10142
0.744135
0.239186
0.016496
0.000183
0.000000
0.900000
0.100000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.200000
0.600000
0.200000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.033333
0.400000
0.566667
...
...
...
...
...
...
...
...
...
...
...
...
...
txt_comp_dist
unigram
cosine
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.466667
0.433333
0.100000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.333333
0.466667
0.200000
mus10142
0.744135
0.239186
0.016496
0.000183
0.300000
0.566667
0.133333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.066667
0.333333
0.366667
0.233333
rel159410
0.744135
0.239186
0.016496
0.000183
0.333333
0.566667
0.100000
0.000000
correlation
bbs152930
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.133333
0.666667
0.200000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.366667
0.500000
0.133333
mus10142
0.744135
0.239186
0.016496
0.000183
0.033333
0.833333
0.133333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.300000
0.500000
0.200000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.066667
0.466667
0.466667
phy17301
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.033333
0.933333
0.033333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.066667
0.866667
0.066667
mus10142
0.744135
0.239186
0.016496
0.000183
0.000000
0.600000
0.400000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.600000
0.400000
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.000000
0.200000
0.800000
0.000000
rel37898
mov973
0.744135
0.239186
0.016496
0.000183
0.066667
0.900000
0.033333
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.033333
0.966667
0.000000
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.633333
0.366667
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.266667
0.700000
0.033333
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.533333
0.466667
0.000000
0.000000
mov9811
mov973
0.744135
0.239186
0.016496
0.000183
0.366667
0.433333
0.200000
0.000000
bbs57549
0.744135
0.239186
0.016496
0.000183
0.133333
0.600000
0.266667
0.000000
mus10142
0.744135
0.239186
0.016496
0.000183
0.933333
0.066667
0.000000
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.166667
0.466667
0.366667
0.000000
rel159410
0.744135
0.239186
0.016496
0.000183
0.500000
0.266667
0.233333
0.000000
mus1139
mov973
0.744135
0.239186
0.016496
0.000183
0.000000
0.200000
0.466667
0.333333
bbs57549
0.744135
0.239186
0.016496
0.000183
0.000000
0.133333
0.366667
0.500000
mus10142
0.744135
0.239186
0.016496
0.000183
0.233333
0.733333
0.033333
0.000000
phy40008
0.744135
0.239186
0.016496
0.000183
0.000000
0.300000
0.333333
0.366667
rel159410
0.744135
0.239186
0.016496
0.000183
0.033333
0.100000
0.533333
0.333333
150 rows × 8 columns
Lalu, gabungkan kedua tabel menjadi satu.
In [7]:
df = pd.concat([df1, df2])
Selanjutnya, lihat hasil untuk masing-masing distance metric dengan merata-ratakan hasil terhadap semua setting eksperimen lainnya.
In [8]:
df.groupby(level='metric').mean()
Out[8]:
num_norm
30
num_oot
3
num_top
3
result
base
perf
k
0
1
2
3
0
1
2
3
metric
cityblock
0.744135
0.239186
0.016496
0.000183
0.593778
0.288889
0.107111
0.010222
correlation
0.744135
0.239186
0.016496
0.000183
0.205778
0.361333
0.319556
0.113333
cosine
0.744135
0.239186
0.016496
0.000183
0.256889
0.392000
0.284000
0.067111
euclidean
0.744135
0.239186
0.016496
0.000183
0.600000
0.268444
0.118222
0.013333
Dari tabel di atas, terlihat bahwa semua distance metric jelas lebih baik daripada baseline. Namun, terlihat juga ternyata distance metric cosine
dan correlation
cukup mengungguli distance metric cityblock
dan euclidean
! Untuk melihat hal ini dengan lebih jelas, akan dilakukan plotting.
In [9]:
df_agg = df.groupby(level='metric').mean()
Buang kolom baseline karena tidak penting.
In [10]:
df_plot = df_agg.drop('base', axis=1, level='result')
df_plot
Out[10]:
num_norm
30
num_oot
3
num_top
3
result
perf
k
0
1
2
3
metric
cityblock
0.593778
0.288889
0.107111
0.010222
correlation
0.205778
0.361333
0.319556
0.113333
cosine
0.256889
0.392000
0.284000
0.067111
euclidean
0.600000
0.268444
0.118222
0.013333
In [11]:
df_plot.T.plot(kind='bar', use_index=False, ylim=(0.,1.))
Out[11]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f549c3ad470>
Dari grafik di atas, terlihat cukup jelas bahwa distance metric cosine
dan correlation
mengungguli distance metric cityblock
dan euclidean
. Selanjutnya, akan dihitung expected value masing-masing distance metric.
In [12]:
df_tmp = df_plot * np.arange(4)
In [13]:
df_tmp
Out[13]:
num_norm
30
num_oot
3
num_top
3
result
perf
k
0
1
2
3
metric
cityblock
0
0.288889
0.214222
0.030667
correlation
0
0.361333
0.639111
0.340000
cosine
0
0.392000
0.568000
0.201333
euclidean
0
0.268444
0.236444
0.040000
In [14]:
df_tmp.sum(axis=1, level='result')
Out[14]:
result
perf
metric
cityblock
0.533778
correlation
1.340444
cosine
1.161333
euclidean
0.544889
Dari tabel ini, terlihat jelaslah bahwa distance metric correlation
adalah yang paling unggul. Salah satu alasannya mungkin adalah karena postingan-postingan tidak OOT dalam suatu thread, akan cenderung memiliki kata-kata yang sama juga sehingga korelasi vektor-vektornya cenderung positif.
Sebagai contoh, misalkan dalam suatu thread ada tiga postingan: John loves Mary, Mary hates John, dan Hates me not. Misalkan daftar vocabulary-nya adalah [john, mary, loves, hates, me, not]
, maka masing-masing postingan akan diubah menjadi vektor-vektor: [1, 1, 1, 0, 0, 0]
, [1, 1, 0, 1, 0, 0]
, dan [0, 0, 0, 1, 1, 1]
. Cukup terlihat bahwa vektor 1 dan 2 akan memiliki korelasi yang lebih positif ketimbang 1 dan 3 maupun 2 dan 3.
Content source: kemskems/otdet
Similar notebooks: