Load all params learned from RWC dataset:

In this notebook all model paremeters, i.e: noise variance, lengthscale and variance of activation, all frequencies, variances and lenghscale of component, and variational distributions are learned simultaneously by maximazing the marginal likelihood.



In [1]:

    
%matplotlib inline
import sys 
sys.path.append('../../../../')
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
import gpflow, gpitch
reload(gpitch)
from gpitch.amtgp import logistic
from scipy.fftpack import fft, ifft, ifftshift
from scipy import signal
import time
from gpitch import myplots
import soundfile
import pickle

plt.rcParams['figure.figsize'] = (16, 3)  # set plot size



In [2]:

    
m_60 = pickle.load(open("save_model_rwc_pitch_60.p", "rb"))
m_64 = pickle.load(open("save_model_rwc_pitch_64.p", "rb"))
m_67 = pickle.load(open("save_model_rwc_pitch_67.p", "rb"))
models = [m_60, m_64, m_67]

Import data

Load and plot data.



In [3]:

    
plt.figure(figsize=(16, 9))
plt.title('data')
for i in range(3):
    plt.subplot(3, 1, i+1)
    plt.plot(models[i].x.value, models[i].y.value, lw=2)

Define model

We take advantage of the information available in the Fourier transform of the data to initialize the component hyper-parameters, i.e. the frequency of each harmonic and its variance.



In [4]:

    
fs = 16000.
for i in range(3):
    x = models[i].x.value.copy()
    y = models[i].y.value.copy()
    z = models[i].z.value.copy()
    N = y.size
    mean_f, var_f, mean_g, var_g, x_plot  = models[i].predict_all(x)
    myplots.plot_results(mean_f, var_f, mean_g, var_g, x_plot, y, z, xlim=[0.0, 0.5])



In [5]:

    
xkernel = np.linspace(0, 10, 10.*fs).reshape(-1, 1)
F = np.linspace(0, fs//2, N//2).reshape(-1, 1)
plt.figure(1)    
plt.figure(2)
plt.figure(3, figsize=(16, 6))

for i in range(3):
    plt.figure(1) 
    plt.plot(-np.array(models[i].logf))
    plt.xlabel('iteration')
    plt.ylabel('ELBO')
    
    plt.figure(2)
    k_plot_model = models[i].kern_com.compute_K(xkernel, np.asarray(0.).reshape(-1,1))
    plt.plot(xkernel, k_plot_model, lw=2)
    
    k_plot_model = models[i].kern_com.compute_K(x, np.asarray(0.).reshape(-1,1))
    Yk1 = fft(k_plot_model.reshape(-1,)) #  FFT data
    Sk1 =  2./N * np.abs(Yk1[0:N//2]) #  spectral density data
    S = np.abs(fft(models[i].y.value.reshape(-1,))[:N//2])
    
    plt.figure()
    plt.plot(F, S / np.max(np.abs(S)), lw=2)
    plt.plot(F, Sk1 / np.max(np.abs(Sk1)), lw=2)
    plt.legend([' Spectral density learned component kernel'])
    plt.xlabel('Frequency (Hz)')
    plt.xlim([0, 8000])









    



/home/paad/anaconda2/lib/python2.7/site-packages/ipykernel_launcher.py:1: DeprecationWarning: object of type <type 'float'> cannot be safely interpreted as an integer.
  """Entry point for launching an IPython kernel.






    












    












    





<matplotlib.figure.Figure at 0x7fa304da7050>



In [6]:

    
import tensorflow as tf
kern_com_60 = models[0].kern_com
kern_com_64 = models[1].kern_com
kern_com_67 = models[2].kern_com
kern_act_60 = models[0].kern_act
kern_act_64 = models[1].kern_act
kern_act_67 = models[2].kern_act
kern_com_60.fixed = True
kern_com_64.fixed = True
kern_com_67.fixed = True



In [7]:

    
print ('The ideal natural frequency is ' + str(gpitch.amtgp.midi2frec(60)))









    



The ideal natural frequency is 261.625565301



In [8]:

    
kern_com_60









    Out[8]:




Name values prior constraint
kern_com.frequency_1 [ 246.30993688] None [FIXED]
kern_com.frequency_10 [ 2508.69357652] None [FIXED]
kern_com.frequency_2 [ 493.88617111] None [FIXED]
kern_com.frequency_3 [ 740.95265719] None [FIXED]
kern_com.frequency_4 [ 988.81323085] None [FIXED]
kern_com.frequency_5 [ 1237.86528141] None [FIXED]
kern_com.frequency_6 [ 1489.5185535] None [FIXED]
kern_com.frequency_7 [ 1739.59745655] None [FIXED]
kern_com.frequency_8 [ 1992.921385] None [FIXED]
kern_com.frequency_9 [ 2250.05880171] None [FIXED]
kern_com.lengthscales [ 9.94589287] None [FIXED]
kern_com.variance_1 [ 0.12732413] None [FIXED]
kern_com.variance_10 [ 0.00338107] None [FIXED]
kern_com.variance_2 [ 0.03087981] None [FIXED]
kern_com.variance_3 [ 0.01117795] None [FIXED]
kern_com.variance_4 [ 0.02145284] None [FIXED]
kern_com.variance_5 [ 0.02452587] None [FIXED]
kern_com.variance_6 [ 0.00780034] None [FIXED]
kern_com.variance_7 [ 0.01048271] None [FIXED]
kern_com.variance_8 [ 0.01004723] None [FIXED]
kern_com.variance_9 [ 0.00292806] None [FIXED]



In [9]:

    
print ('The ideal natural frequency is ' + str(gpitch.amtgp.midi2frec(64)))









    



The ideal natural frequency is 329.627556913



In [10]:

    
kern_com_64









    Out[10]:




Name values prior constraint
kern_com.frequency_1 [ 310.93495838] None [FIXED]
kern_com.frequency_10 [ 3178.81412853] None [FIXED]
kern_com.frequency_2 [ 622.14345612] None [FIXED]
kern_com.frequency_3 [ 934.10329397] None [FIXED]
kern_com.frequency_4 [ 1247.49730834] None [FIXED]
kern_com.frequency_5 [ 1568.9282174] None [FIXED]
kern_com.frequency_6 [ 1880.1094437] None [FIXED]
kern_com.frequency_7 [ 2200.89395692] None [FIXED]
kern_com.frequency_8 [ 2525.39203337] None [FIXED]
kern_com.frequency_9 [ 2850.79854655] None [FIXED]
kern_com.lengthscales [ 9.96011141] None [FIXED]
kern_com.variance_1 [ 0.08657119] None [FIXED]
kern_com.variance_10 [ 0.01024573] None [FIXED]
kern_com.variance_2 [ 0.08134157] None [FIXED]
kern_com.variance_3 [ 0.03022612] None [FIXED]
kern_com.variance_4 [ 0.00876757] None [FIXED]
kern_com.variance_5 [ 0.00836818] None [FIXED]
kern_com.variance_6 [ 0.01126881] None [FIXED]
kern_com.variance_7 [ 0.00232611] None [FIXED]
kern_com.variance_8 [ 0.00976666] None [FIXED]
kern_com.variance_9 [ 0.00111806] None [FIXED]



In [11]:

    
print ('The ideal natural frequency is ' + str(gpitch.amtgp.midi2frec(67)))









    



The ideal natural frequency is 391.995435982



In [12]:

    
kern_com_67









    Out[12]:




Name values prior constraint
kern_com.frequency_1 [ 369.46327694] None [FIXED]
kern_com.frequency_10 [ 3805.99158366] None [FIXED]
kern_com.frequency_2 [ 740.27624716] None [FIXED]
kern_com.frequency_3 [ 1111.7933619] None [FIXED]
kern_com.frequency_4 [ 1485.53903759] None [FIXED]
kern_com.frequency_5 [ 1862.38628627] None [FIXED]
kern_com.frequency_6 [ 2243.6342905] None [FIXED]
kern_com.frequency_7 [ 2623.78684383] None [FIXED]
kern_com.frequency_8 [ 3016.75016017] None [FIXED]
kern_com.frequency_9 [ 3404.14591926] None [FIXED]
kern_com.lengthscales [ 6.55509898] None [FIXED]
kern_com.variance_1 [ 0.13132641] None [FIXED]
kern_com.variance_10 [ 0.00328207] None [FIXED]
kern_com.variance_2 [ 0.06792954] None [FIXED]
kern_com.variance_3 [ 0.01614145] None [FIXED]
kern_com.variance_4 [ 0.00667301] None [FIXED]
kern_com.variance_5 [ 0.00905259] None [FIXED]
kern_com.variance_6 [ 0.0079498] None [FIXED]
kern_com.variance_7 [ 0.00322112] None [FIXED]
kern_com.variance_8 [ 0.00272358] None [FIXED]
kern_com.variance_9 [ 0.00170043] None [FIXED]



In [13]:

    
testfile = '../../../../../datasets/rwc/011PFNOM_mixture.wav'
ytest, fs = soundfile.read(testfile, start=0, frames=None)
ytest = ytest.reshape(-1,1)
ytest /= np.max(np.abs(ytest))
Ntest = ytest.size
xtest = np.linspace(0, (Ntest-1.)/fs, Ntest).reshape(-1, 1)

plt.figure()
plt.plot(xtest, ytest)
print Ntest



In [14]:

    
kern_loo = kern_com_60 + kern_com_64
kf = [kern_com_67, kern_loo]
kg = [kern_act_67, kern_act_60]
dec = 1120
maxiter = 1000
minibatch_size = 500
learning_rate = 0.01
ztest = xtest[::dec].copy()
ztest.shape









    Out[14]:





(200, 1)



In [15]:

    
a, b = 0, Ntest
for i in range(3):
    if i == 0:
        kern_loo = kern_com_64 + kern_com_67
        kf = [kern_com_60, kern_loo]
        kg = [kern_act_60, kern_act_64]
        
    if i == 1:
        kern_loo = kern_com_60 + kern_com_67
        kf = [kern_com_64, kern_loo]
        kg = [kern_act_64, kern_act_60]
        
    if i == 2:
        kern_loo = kern_com_60 + kern_com_64
        kf = [kern_com_67, kern_loo]
        kg = [kern_act_67, kern_act_60]
    
    m = gpitch.loogp.LooGP(X=xtest, Y=ytest, kf=kf, kg=kg, Z=ztest, minibatch_size=minibatch_size)
    m.optimize_svi(maxiter=maxiter, learning_rate=learning_rate)
    mean_f, var_f, mean_g, var_g = m.predict_all(xtest[a:b])

    plt.figure()
    plt.plot(-np.array(m.logf))
    plt.xlabel('iteration')
    plt.ylabel('ELBO')

    gpitch.myplots.plot_loo(mean_f=mean_f, var_f=var_f, mean_g=mean_g, var_g=var_g, 
                            x_plot=xtest[a:b], y=ytest[a:b], z=m.Z.value, xlim=None)

    tf.reset_default_graph()

Name	values	prior	constraint
kern_com.frequency_1	[ 246.30993688]	None	[FIXED]
kern_com.frequency_10	[ 2508.69357652]	None	[FIXED]
kern_com.frequency_2	[ 493.88617111]	None	[FIXED]
kern_com.frequency_3	[ 740.95265719]	None	[FIXED]
kern_com.frequency_4	[ 988.81323085]	None	[FIXED]
kern_com.frequency_5	[ 1237.86528141]	None	[FIXED]
kern_com.frequency_6	[ 1489.5185535]	None	[FIXED]
kern_com.frequency_7	[ 1739.59745655]	None	[FIXED]
kern_com.frequency_8	[ 1992.921385]	None	[FIXED]
kern_com.frequency_9	[ 2250.05880171]	None	[FIXED]
kern_com.lengthscales	[ 9.94589287]	None	[FIXED]
kern_com.variance_1	[ 0.12732413]	None	[FIXED]
kern_com.variance_10	[ 0.00338107]	None	[FIXED]
kern_com.variance_2	[ 0.03087981]	None	[FIXED]
kern_com.variance_3	[ 0.01117795]	None	[FIXED]
kern_com.variance_4	[ 0.02145284]	None	[FIXED]
kern_com.variance_5	[ 0.02452587]	None	[FIXED]
kern_com.variance_6	[ 0.00780034]	None	[FIXED]
kern_com.variance_7	[ 0.01048271]	None	[FIXED]
kern_com.variance_8	[ 0.01004723]	None	[FIXED]
kern_com.variance_9	[ 0.00292806]	None	[FIXED]