Kali ini, akan dianalisis ulang distance metric mana yang paling baik. Jadi, sebelumnya sudah dilakukan eksperimen kecil dengan spesifikasi identik dengan eksperimen kecil sebelumnya (saat distance metric yang diuji hanya euclidean dan cityblock) namun dengan distance metric correlation dan cosine.

Pertama-tama, load tools yang dibutuhkan.


In [1]:
import numpy as np
import pandas as pd
%matplotlib inline

Load hasil eksperimen.


In [2]:
df1 = pd.read_hdf('../reports/small-exp.h5', 'df')
df2 = pd.read_hdf('../reports/small-exp-2.h5', 'df')

Isi df1 sama seperti sebelumnya, yakni hasil eksperimen ketika ingin menentukan metode dan distance metric terbaik.


In [3]:
df1


Out[3]:
num_norm 30
num_oot 3
num_top 3
result base perf
k 0 1 2 3 0 1 2 3
method feature metric norm_dir oot_dir
clust_dist unigram euclidean bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.833333 0.166667 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.700000 0.300000 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.900000 0.100000 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.533333 0.433333 0.033333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.133333 0.433333 0.433333 0.000000
phy17301 mov973 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.933333 0.066667 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.833333 0.166667 0.000000 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.433333 0.533333 0.033333 0.000000
rel37898 mov973 0.744135 0.239186 0.016496 0.000183 0.933333 0.066667 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.700000 0.300000 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.500000 0.433333 0.066667 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.333333 0.400000 0.233333 0.033333
mov9811 mov973 0.744135 0.239186 0.016496 0.000183 0.966667 0.033333 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.800000 0.166667 0.033333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.400000 0.500000 0.100000 0.000000
mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.833333 0.166667 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.700000 0.266667 0.033333 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.300000 0.600000 0.100000 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.366667 0.333333 0.266667 0.033333
cityblock bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.633333 0.366667 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.600000 0.400000 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.766667 0.233333 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.433333 0.533333 0.000000 0.033333
rel159410 0.744135 0.239186 0.016496 0.000183 0.033333 0.366667 0.466667 0.133333
... ... ... ... ... ... ... ... ... ... ... ... ...
txt_comp_dist unigram euclidean mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.133333 0.433333 0.400000 0.033333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.133333 0.433333 0.400000 0.033333
mus10142 0.744135 0.239186 0.016496 0.000183 0.300000 0.633333 0.066667 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.366667 0.266667 0.266667 0.100000
rel159410 0.744135 0.239186 0.016496 0.000183 0.733333 0.233333 0.033333 0.000000
cityblock bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.300000 0.700000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.233333 0.633333 0.133333 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.033333 0.233333 0.733333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.133333 0.600000 0.266667 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.600000 0.366667 0.033333 0.000000
phy17301 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.166667 0.766667 0.066667
bbs57549 0.744135 0.239186 0.016496 0.000183 0.033333 0.400000 0.533333 0.033333
mus10142 0.744135 0.239186 0.016496 0.000183 0.000000 0.200000 0.700000 0.100000
phy40008 0.744135 0.239186 0.016496 0.000183 0.300000 0.466667 0.233333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.600000 0.366667 0.033333 0.000000
rel37898 mov973 0.744135 0.239186 0.016496 0.000183 0.166667 0.700000 0.133333 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.333333 0.666667 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.033333 0.766667 0.200000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.300000 0.666667 0.033333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.900000 0.100000 0.000000 0.000000
mov9811 mov973 0.744135 0.239186 0.016496 0.000183 0.466667 0.466667 0.066667 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.733333 0.266667 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.500000 0.466667 0.033333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.733333 0.266667 0.000000 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.933333 0.066667 0.000000 0.000000
mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.166667 0.633333 0.166667 0.033333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.400000 0.333333 0.233333 0.033333
mus10142 0.744135 0.239186 0.016496 0.000183 0.333333 0.400000 0.233333 0.033333
phy40008 0.744135 0.239186 0.016496 0.000183 0.500000 0.300000 0.166667 0.033333
rel159410 0.744135 0.239186 0.016496 0.000183 0.800000 0.166667 0.033333 0.000000

150 rows × 8 columns

Isi df2 adalah hasil eksperimen dengan spesifikasi sama seperti df1 namun distance metric yang digunakan adalah cosine dan correlation. Di sini tabelnya agak sedikit berbeda karena ada level index baru yaitu max_features.


In [4]:
df2


Out[4]:
num_norm 30
num_oot 3
num_top 3
result base perf
k 0 1 2 3 0 1 2 3
method feature max_features metric norm_dir oot_dir
clust_dist unigram all cosine bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.266667 0.666667 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.800000 0.200000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.000000 0.733333 0.266667 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.633333 0.366667 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.866667 0.133333 0.000000
phy17301 mov973 0.744135 0.239186 0.016496 0.000183 0.100000 0.066667 0.300000 0.533333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.033333 0.733333 0.233333
mus10142 0.744135 0.239186 0.016496 0.000183 0.033333 0.400000 0.266667 0.300000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.700000 0.266667 0.033333
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.833333 0.166667 0.000000
rel37898 mov973 0.744135 0.239186 0.016496 0.000183 0.100000 0.466667 0.433333 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.100000 0.300000 0.600000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.233333 0.533333 0.233333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.533333 0.333333 0.133333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.900000 0.100000 0.000000 0.000000
mov9811 mov973 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.266667 0.600000 0.066667
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.266667 0.666667 0.066667
mus10142 0.744135 0.239186 0.016496 0.000183 0.166667 0.666667 0.166667 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.233333 0.633333 0.133333
rel159410 0.744135 0.239186 0.016496 0.000183 0.066667 0.666667 0.266667 0.000000
correlation bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.200000 0.466667 0.266667
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.400000 0.366667 0.233333
mus10142 0.744135 0.239186 0.016496 0.000183 0.000000 0.900000 0.100000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.200000 0.600000 0.200000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.033333 0.400000 0.566667
... ... ... ... ... ... ... ... ... ... ... ... ... ...
txt_comp_dist unigram all cosine mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.466667 0.433333 0.100000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.333333 0.466667 0.200000
mus10142 0.744135 0.239186 0.016496 0.000183 0.300000 0.566667 0.133333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.066667 0.333333 0.366667 0.233333
rel159410 0.744135 0.239186 0.016496 0.000183 0.333333 0.566667 0.100000 0.000000
correlation bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.133333 0.666667 0.200000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.366667 0.500000 0.133333
mus10142 0.744135 0.239186 0.016496 0.000183 0.033333 0.833333 0.133333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.300000 0.500000 0.200000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.066667 0.466667 0.466667
phy17301 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.033333 0.933333 0.033333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.066667 0.866667 0.066667
mus10142 0.744135 0.239186 0.016496 0.000183 0.000000 0.600000 0.400000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.600000 0.400000 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.200000 0.800000 0.000000
rel37898 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.900000 0.033333 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.033333 0.966667 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.633333 0.366667 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.266667 0.700000 0.033333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.533333 0.466667 0.000000 0.000000
mov9811 mov973 0.744135 0.239186 0.016496 0.000183 0.366667 0.433333 0.200000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.133333 0.600000 0.266667 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.933333 0.066667 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.166667 0.466667 0.366667 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.500000 0.266667 0.233333 0.000000
mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.200000 0.466667 0.333333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.133333 0.366667 0.500000
mus10142 0.744135 0.239186 0.016496 0.000183 0.233333 0.733333 0.033333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.300000 0.333333 0.366667
rel159410 0.744135 0.239186 0.016496 0.000183 0.033333 0.100000 0.533333 0.333333

150 rows × 8 columns

Agar seragam, buang level index max_features.


In [5]:
df2.index = df2.index.droplevel(level='max_features')

In [6]:
df2


Out[6]:
num_norm 30
num_oot 3
num_top 3
result base perf
k 0 1 2 3 0 1 2 3
method feature metric norm_dir oot_dir
clust_dist unigram cosine bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.266667 0.666667 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.800000 0.200000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.000000 0.733333 0.266667 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.633333 0.366667 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.866667 0.133333 0.000000
phy17301 mov973 0.744135 0.239186 0.016496 0.000183 0.100000 0.066667 0.300000 0.533333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.033333 0.733333 0.233333
mus10142 0.744135 0.239186 0.016496 0.000183 0.033333 0.400000 0.266667 0.300000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.700000 0.266667 0.033333
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.833333 0.166667 0.000000
rel37898 mov973 0.744135 0.239186 0.016496 0.000183 0.100000 0.466667 0.433333 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.100000 0.300000 0.600000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.233333 0.533333 0.233333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.533333 0.333333 0.133333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.900000 0.100000 0.000000 0.000000
mov9811 mov973 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 1.000000 0.000000 0.000000 0.000000
mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.266667 0.600000 0.066667
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.266667 0.666667 0.066667
mus10142 0.744135 0.239186 0.016496 0.000183 0.166667 0.666667 0.166667 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.233333 0.633333 0.133333
rel159410 0.744135 0.239186 0.016496 0.000183 0.066667 0.666667 0.266667 0.000000
correlation bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.200000 0.466667 0.266667
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.400000 0.366667 0.233333
mus10142 0.744135 0.239186 0.016496 0.000183 0.000000 0.900000 0.100000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.200000 0.600000 0.200000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.033333 0.400000 0.566667
... ... ... ... ... ... ... ... ... ... ... ... ...
txt_comp_dist unigram cosine mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.466667 0.433333 0.100000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.333333 0.466667 0.200000
mus10142 0.744135 0.239186 0.016496 0.000183 0.300000 0.566667 0.133333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.066667 0.333333 0.366667 0.233333
rel159410 0.744135 0.239186 0.016496 0.000183 0.333333 0.566667 0.100000 0.000000
correlation bbs152930 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.133333 0.666667 0.200000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.366667 0.500000 0.133333
mus10142 0.744135 0.239186 0.016496 0.000183 0.033333 0.833333 0.133333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.300000 0.500000 0.200000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.066667 0.466667 0.466667
phy17301 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.033333 0.933333 0.033333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.066667 0.866667 0.066667
mus10142 0.744135 0.239186 0.016496 0.000183 0.000000 0.600000 0.400000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.600000 0.400000 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.000000 0.200000 0.800000 0.000000
rel37898 mov973 0.744135 0.239186 0.016496 0.000183 0.066667 0.900000 0.033333 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.033333 0.966667 0.000000 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.633333 0.366667 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.266667 0.700000 0.033333 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.533333 0.466667 0.000000 0.000000
mov9811 mov973 0.744135 0.239186 0.016496 0.000183 0.366667 0.433333 0.200000 0.000000
bbs57549 0.744135 0.239186 0.016496 0.000183 0.133333 0.600000 0.266667 0.000000
mus10142 0.744135 0.239186 0.016496 0.000183 0.933333 0.066667 0.000000 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.166667 0.466667 0.366667 0.000000
rel159410 0.744135 0.239186 0.016496 0.000183 0.500000 0.266667 0.233333 0.000000
mus1139 mov973 0.744135 0.239186 0.016496 0.000183 0.000000 0.200000 0.466667 0.333333
bbs57549 0.744135 0.239186 0.016496 0.000183 0.000000 0.133333 0.366667 0.500000
mus10142 0.744135 0.239186 0.016496 0.000183 0.233333 0.733333 0.033333 0.000000
phy40008 0.744135 0.239186 0.016496 0.000183 0.000000 0.300000 0.333333 0.366667
rel159410 0.744135 0.239186 0.016496 0.000183 0.033333 0.100000 0.533333 0.333333

150 rows × 8 columns

Lalu, gabungkan kedua tabel menjadi satu.


In [7]:
df = pd.concat([df1, df2])

Selanjutnya, lihat hasil untuk masing-masing distance metric dengan merata-ratakan hasil terhadap semua setting eksperimen lainnya.


In [8]:
df.groupby(level='metric').mean()


Out[8]:
num_norm 30
num_oot 3
num_top 3
result base perf
k 0 1 2 3 0 1 2 3
metric
cityblock 0.744135 0.239186 0.016496 0.000183 0.593778 0.288889 0.107111 0.010222
correlation 0.744135 0.239186 0.016496 0.000183 0.205778 0.361333 0.319556 0.113333
cosine 0.744135 0.239186 0.016496 0.000183 0.256889 0.392000 0.284000 0.067111
euclidean 0.744135 0.239186 0.016496 0.000183 0.600000 0.268444 0.118222 0.013333

Dari tabel di atas, terlihat bahwa semua distance metric jelas lebih baik daripada baseline. Namun, terlihat juga ternyata distance metric cosine dan correlation cukup mengungguli distance metric cityblock dan euclidean! Untuk melihat hal ini dengan lebih jelas, akan dilakukan plotting.


In [9]:
df_agg = df.groupby(level='metric').mean()

Buang kolom baseline karena tidak penting.


In [10]:
df_plot = df_agg.drop('base', axis=1, level='result')
df_plot


Out[10]:
num_norm 30
num_oot 3
num_top 3
result perf
k 0 1 2 3
metric
cityblock 0.593778 0.288889 0.107111 0.010222
correlation 0.205778 0.361333 0.319556 0.113333
cosine 0.256889 0.392000 0.284000 0.067111
euclidean 0.600000 0.268444 0.118222 0.013333

In [11]:
df_plot.T.plot(kind='bar', use_index=False, ylim=(0.,1.))


Out[11]:
<matplotlib.axes._subplots.AxesSubplot at 0x7f549c3ad470>

Dari grafik di atas, terlihat cukup jelas bahwa distance metric cosine dan correlation mengungguli distance metric cityblock dan euclidean. Selanjutnya, akan dihitung expected value masing-masing distance metric.


In [12]:
df_tmp = df_plot * np.arange(4)

In [13]:
df_tmp


Out[13]:
num_norm 30
num_oot 3
num_top 3
result perf
k 0 1 2 3
metric
cityblock 0 0.288889 0.214222 0.030667
correlation 0 0.361333 0.639111 0.340000
cosine 0 0.392000 0.568000 0.201333
euclidean 0 0.268444 0.236444 0.040000

In [14]:
df_tmp.sum(axis=1, level='result')


Out[14]:
result perf
metric
cityblock 0.533778
correlation 1.340444
cosine 1.161333
euclidean 0.544889

Dari tabel ini, terlihat jelaslah bahwa distance metric correlation adalah yang paling unggul. Salah satu alasannya mungkin adalah karena postingan-postingan tidak OOT dalam suatu thread, akan cenderung memiliki kata-kata yang sama juga sehingga korelasi vektor-vektornya cenderung positif.

Sebagai contoh, misalkan dalam suatu thread ada tiga postingan: John loves Mary, Mary hates John, dan Hates me not. Misalkan daftar vocabulary-nya adalah [john, mary, loves, hates, me, not], maka masing-masing postingan akan diubah menjadi vektor-vektor: [1, 1, 1, 0, 0, 0], [1, 1, 0, 1, 0, 0], dan [0, 0, 0, 1, 1, 1]. Cukup terlihat bahwa vektor 1 dan 2 akan memiliki korelasi yang lebih positif ketimbang 1 dan 3 maupun 2 dan 3.