Auteur: Jérémie Decock
In [ ]:
%matplotlib inline
#import nnfigs
# https://github.com/jeremiedecock/neural-network-figures.git
import nnfigs.core as nnfig
import matplotlib.pyplot as plt
import numpy as np
import ipywidgets
from ipywidgets import interact
# TODO
# Shallow et Deep learning à lire:
# - https://www.miximum.fr/blog/introduction-au-deep-learning-2/
# - https://sciencetonnante.wordpress.com/2016/04/08/le-deep-learning/
# - https://www.technologies-ebusiness.com/enjeux-et-tendances/le-deep-learning-pas-a-pas
# - http://scholar.google.fr/scholar_url?url=https://arxiv.org/pdf/1404.7828&hl=fr&sa=X&scisig=AAGBfm07Y2UDlPpbninerh4gxHUj2SJfDQ&nossl=1&oi=scholarr&sqi=2&ved=0ahUKEwjfxMu7jKnUAhUoCsAKHR_RDlkQgAMIKygAMAA
$ \newcommand{\cur}{i} \newcommand{\prev}{j} \newcommand{\prevcur}{{\cur\prev}} \newcommand{\next}{k} \newcommand{\curnext}{{\next\cur}} \newcommand{\ex}{\eta} \newcommand{\pot}{\rho} \newcommand{\feature}{x} \newcommand{\weight}{w} \newcommand{\wcur}{{\weight_{\cur\prev}}} \newcommand{\activthres}{\theta} \newcommand{\activfunc}{f} \newcommand{\errfunc}{E} \newcommand{\learnrate}{\epsilon} \newcommand{\learnit}{n} \newcommand{\sigout}{y} \newcommand{\sigoutdes}{d} \newcommand{\weights}{\boldsymbol{W}} \newcommand{\errsig}{\Delta} $
In [ ]:
# Notations :
# - $\cur$: couche courante
# - $\prev$: couche immédiatement en amont de la courche courrante (i.e. vers la couche d'entrée du réseau)
# - $\next$: couche immédiatement en aval de la courche courrante (i.e. vers la couche de sortie du réseau)
# - $\ex$: exemple (*sample* ou *feature*) courant (i.e. le vecteur des entrées courantes du réseau)
# - $\pot_\cur$: *Potentiel d'activation* du neurone $i$ pour l'exemple courant
# - $\wcur$: Poids de la connexion entre le neurone $j$ et le neurone $i$
# - $\activthres_\cur$: *Seuil d'activation* du neurone $i$
# - $\activfunc_\cur$: *Fonction d'activation* du neurone $i$
# - $\errfunc$: *Fonction objectif* ou *fonction d'erreur*
# - $\learnrate$: *Pas d'apprentissage* ou *Taux d'apprentissage*
# - $\learnit$: Numéro d'itération (ou cycle ou époque) du processus d'apprentissage
# - $\sigout_\cur$: Signal de sortie du neurone $i$ pour l'exemple courant
# - $\sigoutdes_\cur$: Sortie désirée (*étiquette*) du neurone $i$ pour l'exemple courant
# - $\weights$: Matrice des poids du réseau (en réalité il y a une matrice de taille potentiellement différente par couche)
# - $\errsig_i$: *Signal d'erreur* du neurone $i$ pour l'exemple courant
Une grosse fonction parametrique. Pour peu qu'on donne suffisamment de paramètres à cette fonction, elle est capable d'approximer n'importe quelle fonction continue.
Représentation schématique d'une fonction paramètrique avec 3 paramètres avec une entrée en une sortie à 1 dimension
$$\mathbb{R} \rightarrow \mathbb{R}$$$$x \mapsto g_{\boldsymbol{\omega}}(x)$$TODO: image/schéma intuition : entrés -> fonction avec paramètres = table de mixage -> sortie
TODO : expliquer la régression et la classification
TODO : applications avec références... Exemples d'application concrètes :
In [ ]:
STR_CUR = r"i" # Couche courante
STR_PREV = r"j" # Couche immédiatement en amont de la courche courrante (i.e. vers la couche d'entrée du réseau)
STR_NEXT = r"k" # Couche immédiatement en aval de la courche courrante (i.e. vers la couche de sortie du réseau)
STR_EX = r"\eta" # Exemple (*sample* ou *feature*) courant (i.e. le vecteur des entrées courantes du réseau)
STR_POT = r"x" # *Potentiel d'activation* du neurone $i$ pour l'exemple $\ex$
STR_POT_CUR = r"x_i" # *Potentiel d'activation* du neurone $i$ pour l'exemple $\ex$
STR_WEIGHT = r"w"
STR_WEIGHT_CUR = r"w_{ij}" # Poids de la connexion entre le neurone $j$ et le neurone $i$
STR_ACTIVTHRES = r"\theta" # *Seuil d'activation* du neurone $i$
STR_ACTIVFUNC = r"f" # *Fonction d'activation* du neurone $i$
STR_ERRFUNC = r"E" # *Fonction objectif* ou *fonction d'erreur*
STR_LEARNRATE = r"\epsilon" # *Pas d'apprentissage* ou *Taux d'apprentissage*
STR_LEARNIT = r"n" # Numéro d'itération (ou cycle ou époque) du processus d'apprentissage
STR_SIGIN = r"x" # Signal de sortie du neurone $i$ pour l'exemple $\ex$
STR_SIGOUT = r"y" # Signal de sortie du neurone $i$ pour l'exemple $\ex$
STR_SIGOUT_CUR = r"y_i"
STR_SIGOUT_PREV = r"y_j"
STR_SIGOUT_DES = r"d" # Sortie désirée (*étiquette*) du neurone $i$ pour l'exemple $\ex$
STR_SIGOUT_DES_CUR = r"d_i"
STR_WEIGHTS = r"W" # Matrice des poids du réseau (en réalité il y a une matrice de taille potentiellement différente par couche)
STR_ERRSIG = r"\Delta" # *Signal d'erreur* du neurone $i$ pour l'exemple $\ex$
def tex(tex_str):
return r"$" + tex_str + r"$"
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=4)
nnfig.draw_synapse(ax, (0, -6), (10, 0))
nnfig.draw_synapse(ax, (0, -2), (10, 0))
nnfig.draw_synapse(ax, (0, 2), (10, 0))
nnfig.draw_synapse(ax, (0, 6), (10, 0), label=tex(STR_WEIGHT_CUR), label_position=0.5, fontsize=14)
nnfig.draw_synapse(ax, (10, 0), (12, 0))
nnfig.draw_neuron(ax, (0, -6), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -2), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 2), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 6), 0.5, empty=True)
plt.text(x=0, y=7.5, s=tex(STR_PREV), fontsize=14)
plt.text(x=10, y=1.5, s=tex(STR_CUR), fontsize=14)
plt.text(x=0, y=0, s=r"$\vdots$", fontsize=14)
plt.text(x=-2.5, y=0, s=tex(STR_SIGOUT_PREV), fontsize=14)
plt.text(x=13, y=0, s=tex(STR_SIGOUT_CUR), fontsize=14)
plt.text(x=9.2, y=-1.8, s=tex(STR_POT_CUR), fontsize=14)
nnfig.draw_neuron(ax, (10, 0), 1, ag_func="sum", tr_func="sigmoid")
plt.show()
Avec :
In [ ]:
def sigmoid(x, _lambda=1.):
y = 1. / (1. + np.exp(-_lambda * x))
return y
In [ ]:
%matplotlib inline
x = np.linspace(-5, 5, 300)
y1 = sigmoid(x, 1.)
y2 = sigmoid(x, 5.)
y3 = sigmoid(x, 0.5)
plt.plot(x, y1, label=r"$\lambda=1$")
plt.plot(x, y2, label=r"$\lambda=5$")
plt.plot(x, y3, label=r"$\lambda=0.5$")
plt.hlines(y=0, xmin=-5, xmax=5, color='gray', linestyles='dotted')
plt.vlines(x=0, ymin=-2, ymax=2, color='gray', linestyles='dotted')
plt.legend()
plt.title("Fonction sigmoïde")
plt.axis([-5, 5, -0.5, 2]);
In [ ]:
def tanh(x):
y = np.tanh(x)
return y
In [ ]:
x = np.linspace(-5, 5, 300)
y = tanh(x)
plt.plot(x, y)
plt.hlines(y=0, xmin=-5, xmax=5, color='gray', linestyles='dotted')
plt.vlines(x=0, ymin=-2, ymax=2, color='gray', linestyles='dotted')
plt.title("Fonction tangente hyperbolique")
plt.axis([-5, 5, -2, 2]);
Fonctions ayant pour expression
$$ f(t) = K \frac{1}{1+ae^{-\lambda t}} $$où $K$ et $\lambda$ sont des réels positifs et $a$ un réel quelconque.
Les fonctions sigmoïdes sont un cas particulier de fonctions logistique avec $a > 0$.
In [ ]:
def logistique(x, a=1., k=1., _lambda=1.):
y = k / (1. + a * np.exp(-_lambda * x))
return y
In [ ]:
%matplotlib inline
x = np.linspace(-5, 5, 300)
y1 = logistique(x, a=1.)
y2 = logistique(x, a=2.)
y3 = logistique(x, a=0.5)
plt.plot(x, y1, label=r"$a=1$")
plt.plot(x, y2, label=r"$a=2$")
plt.plot(x, y3, label=r"$a=0.5$")
plt.hlines(y=0, xmin=-5, xmax=5, color='gray', linestyles='dotted')
plt.vlines(x=0, ymin=-2, ymax=2, color='gray', linestyles='dotted')
plt.legend()
plt.title("Fonction logistique")
plt.axis([-5, 5, -0.5, 2]);
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=6)
HSPACE = 6
VSPACE = 4
# Synapse #####################################
#nnfig.draw_synapse(ax, (0,2*VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_0"), label_position=0.3)
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_1"), label_position=0.3)
nnfig.draw_synapse(ax, (0, 0), (HSPACE, 0), label=tex(STR_WEIGHT + "_2"), label_position=0.3)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_3"), label_position=0.3, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (HSPACE, 0), (HSPACE + 2, 0))
# Neuron ######################################
# Layer 1 (input)
#nnfig.draw_neuron(ax, (0,2*VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 0), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -VSPACE), 0.5, empty=True)
# Layer 2
nnfig.draw_neuron(ax, (HSPACE, 0), 1, ag_func="sum", tr_func="sigmoid")
# Text ########################################
# Layer 1 (input)
#plt.text(x=0.5, y=VSPACE+1, s=tex(STR_SIGOUT + "_i"), fontsize=12)
#plt.text(x=-1.7, y=2*VSPACE, s=tex("1"), fontsize=12)
plt.text(x=-1.7, y=VSPACE, s=tex(STR_SIGIN + "_1"), fontsize=12)
plt.text(x=-1.7, y=-0.2, s=tex(STR_SIGIN + "_2"), fontsize=12)
plt.text(x=-1.7, y=-VSPACE-0.2, s=tex(STR_SIGIN + "_3"), fontsize=12)
# Layer 2
#plt.text(x=HSPACE-1.25, y=1.5, s=tex(STR_POT), fontsize=12)
#plt.text(x=2*HSPACE+0.4, y=1.5, s=tex(STR_SIGOUT + "_o"), fontsize=12)
plt.text(x=HSPACE+2.5, y=-0.3,
s=tex(STR_SIGOUT),
fontsize=12)
plt.show()
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=6)
HSPACE = 6
VSPACE = 4
# Synapse #####################################
nnfig.draw_synapse(ax, (0,2*VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_0"), label_position=0.3)
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_1"), label_position=0.3)
nnfig.draw_synapse(ax, (0, 0), (HSPACE, 0), label=tex(STR_WEIGHT + "_2"), label_position=0.3)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_3"), label_position=0.3, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (HSPACE, 0), (HSPACE + 2, 0))
# Neuron ######################################
# Layer 1 (input)
nnfig.draw_neuron(ax, (0,2*VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 0), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -VSPACE), 0.5, empty=True)
# Layer 2
nnfig.draw_neuron(ax, (HSPACE, 0), 1, ag_func="sum", tr_func="sigmoid")
# Text ########################################
# Layer 1 (input)
#plt.text(x=0.5, y=VSPACE+1, s=tex(STR_SIGOUT + "_i"), fontsize=12)
plt.text(x=-1.7, y=2*VSPACE, s=tex("1"), fontsize=12)
plt.text(x=-1.7, y=VSPACE, s=tex(STR_SIGIN + "_1"), fontsize=12)
plt.text(x=-1.7, y=-0.2, s=tex(STR_SIGIN + "_2"), fontsize=12)
plt.text(x=-1.7, y=-VSPACE-0.2, s=tex(STR_SIGIN + "_3"), fontsize=12)
# Layer 2
#plt.text(x=HSPACE-1.25, y=1.5, s=tex(STR_POT), fontsize=12)
#plt.text(x=2*HSPACE+0.4, y=1.5, s=tex(STR_SIGOUT + "_o"), fontsize=12)
plt.text(x=HSPACE+2.5, y=-0.3,
s=tex(STR_SIGOUT),
fontsize=12)
plt.show()
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=6)
HSPACE = 6
VSPACE = 4
# Synapse #####################################
nnfig.draw_synapse(ax, (0,2*VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_0"), label_position=0.3)
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_1"), label_position=0.3)
nnfig.draw_synapse(ax, (0, 0), (HSPACE, 0), label=tex(STR_WEIGHT + "_2"), label_position=0.3)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, 0), label=tex(STR_WEIGHT + "_3"), label_position=0.3, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (HSPACE, 0), (HSPACE + 2, 0))
# Neuron ######################################
# Layer 1 (input)
nnfig.draw_neuron(ax, (0,2*VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 0), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -VSPACE), 0.5, empty=True)
# Layer 2
nnfig.draw_neuron(ax, (HSPACE, 0), 1, ag_func="sum", tr_func="sigmoid")
# Text ########################################
# Layer 1 (input)
#plt.text(x=0.5, y=VSPACE+1, s=tex(STR_SIGOUT + "_i"), fontsize=12)
plt.text(x=-1.7, y=2*VSPACE, s=tex("1"), fontsize=12)
plt.text(x=-1.7, y=VSPACE, s=tex(STR_SIGIN + "_1"), fontsize=12)
plt.text(x=-1.7, y=-0.2, s=tex(STR_SIGIN + "_2"), fontsize=12)
plt.text(x=-1.7, y=-VSPACE-0.2, s=tex(STR_SIGIN + "_3"), fontsize=12)
# Layer 2
#plt.text(x=HSPACE-1.25, y=1.5, s=tex(STR_POT), fontsize=12)
#plt.text(x=2*HSPACE+0.4, y=1.5, s=tex(STR_SIGOUT + "_o"), fontsize=12)
plt.text(x=HSPACE+2.5, y=-0.3,
s=tex(STR_SIGOUT),
fontsize=12)
plt.show()
Pour vecteur d'entrée = ... et un vecteur de poids arbitrairement fixé à ... et un neurone défini avec la fonction sigmoïde, on peut calculer la valeur de sortie du neurone :
On a:
$$ \sum_i \weight_i \feature_i = \dots $$donc $$ y = \frac{1}{1 + e^{-\dots}} $$
In [ ]:
@interact(w1=(-10., 10., 0.5), w2=(-10., 10., 0.5))
def nn1(wb1=0., w1=10.):
x = np.linspace(-10., 10., 100)
xb = np.ones(x.shape)
s1 = wb1 * xb + w1 * x
y = sigmoid(s1)
plt.plot(x, y)
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=4)
HSPACE = 6
VSPACE = 4
# Synapse #####################################
# Layer 1-2
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, VSPACE), label=tex(STR_WEIGHT + "_1"), label_position=0.4)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, VSPACE), label=tex(STR_WEIGHT + "_3"), label_position=0.25, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, -VSPACE), label=tex(STR_WEIGHT + "_2"), label_position=0.25)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, -VSPACE), label=tex(STR_WEIGHT + "_4"), label_position=0.4, label_offset_y=-0.8)
# Layer 2-3
nnfig.draw_synapse(ax, (HSPACE, VSPACE), (2*HSPACE, 0), label=tex(STR_WEIGHT + "_5"), label_position=0.4)
nnfig.draw_synapse(ax, (HSPACE, -VSPACE), (2*HSPACE, 0), label=tex(STR_WEIGHT + "_6"), label_position=0.4, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (2*HSPACE, 0), (2*HSPACE + 2, 0))
# Neuron ######################################
# Layer 1 (input)
nnfig.draw_neuron(ax, (0, VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -VSPACE), 0.5, empty=True)
# Layer 2
nnfig.draw_neuron(ax, (HSPACE, VSPACE), 1, ag_func="sum", tr_func="sigmoid")
nnfig.draw_neuron(ax, (HSPACE, -VSPACE), 1, ag_func="sum", tr_func="sigmoid")
# Layer 3
nnfig.draw_neuron(ax, (2*HSPACE, 0), 1, ag_func="sum", tr_func="sigmoid")
# Text ########################################
# Layer 1 (input)
#plt.text(x=0.5, y=VSPACE+1, s=tex(STR_SIGOUT + "_i"), fontsize=12)
plt.text(x=-1.7, y=VSPACE, s=tex(STR_SIGIN + "_1"), fontsize=12)
plt.text(x=-1.7, y=-VSPACE-0.2, s=tex(STR_SIGIN + "_2"), fontsize=12)
# Layer 2
#plt.text(x=HSPACE-1.25, y=VSPACE+1.5, s=tex(STR_POT + "_1"), fontsize=12)
plt.text(x=HSPACE+0.4, y=VSPACE+1.5, s=tex(STR_SIGOUT + "_1"), fontsize=12)
#plt.text(x=HSPACE-1.25, y=-VSPACE-1.8, s=tex(STR_POT + "_2"), fontsize=12)
plt.text(x=HSPACE+0.4, y=-VSPACE-1.8, s=tex(STR_SIGOUT + "_2"), fontsize=12)
# Layer 3
#plt.text(x=2*HSPACE-1.25, y=1.5, s=tex(STR_POT + "_o"), fontsize=12)
#plt.text(x=2*HSPACE+0.4, y=1.5, s=tex(STR_SIGOUT + "_o"), fontsize=12)
plt.text(x=2*HSPACE+2.5, y=-0.3,
s=tex(STR_SIGOUT),
fontsize=12)
plt.show()
TODO: il manque les biais...
In [ ]:
@interact(wb1=(-10., 10., 0.5), w1=(-10., 10., 0.5), wb2=(-10., 10., 0.5), w2=(-10., 10., 0.5))
def nn1(wb1=0.1, w1=0.1, wb2=0.1, w2=0.1):
x = np.linspace(-10., 10., 100)
xb = np.ones(x.shape)
s1 = wb1 * xb + w1 * x
y1 = sigmoid(s1)
s2 = wb2 * xb + w2 * x
y2 = sigmoid(s2)
s = wb2 * xb + w2 * x
y = sigmoid(s)
plt.plot(x, y)
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=4)
HSPACE = 6
VSPACE = 4
# Synapse #####################################
# Layer 1-2
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, VSPACE), label=tex(STR_WEIGHT + "_1"), label_position=0.4)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, VSPACE), label=tex(STR_WEIGHT + "_3"), label_position=0.25, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, -VSPACE), label=tex(STR_WEIGHT + "_2"), label_position=0.25)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, -VSPACE), label=tex(STR_WEIGHT + "_4"), label_position=0.4, label_offset_y=-0.8)
# Layer 2-3
nnfig.draw_synapse(ax, (HSPACE, VSPACE), (2*HSPACE, VSPACE), label=tex(STR_WEIGHT + "_5"), label_position=0.4)
nnfig.draw_synapse(ax, (HSPACE, -VSPACE), (2*HSPACE, VSPACE), label=tex(STR_WEIGHT + "_7"), label_position=0.25, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (HSPACE, VSPACE), (2*HSPACE, -VSPACE), label=tex(STR_WEIGHT + "_6"), label_position=0.25)
nnfig.draw_synapse(ax, (HSPACE, -VSPACE), (2*HSPACE, -VSPACE), label=tex(STR_WEIGHT + "_8"), label_position=0.4, label_offset_y=-0.8)
# Layer 3-4
nnfig.draw_synapse(ax, (2*HSPACE, VSPACE), (3*HSPACE, 0), label=tex(STR_WEIGHT + "_9"), label_position=0.4)
nnfig.draw_synapse(ax, (2*HSPACE, -VSPACE), (3*HSPACE, 0), label=tex(STR_WEIGHT + "_{10}"), label_position=0.4, label_offset_y=-0.8)
nnfig.draw_synapse(ax, (3*HSPACE, 0), (3*HSPACE + 2, 0))
# Neuron ######################################
# Layer 1 (input)
nnfig.draw_neuron(ax, (0, VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -VSPACE), 0.5, empty=True)
# Layer 2
nnfig.draw_neuron(ax, (HSPACE, VSPACE), 1, ag_func="sum", tr_func="sigmoid")
nnfig.draw_neuron(ax, (HSPACE, -VSPACE), 1, ag_func="sum", tr_func="sigmoid")
# Layer 3
nnfig.draw_neuron(ax, (2*HSPACE, VSPACE), 1, ag_func="sum", tr_func="sigmoid")
nnfig.draw_neuron(ax, (2*HSPACE, -VSPACE), 1, ag_func="sum", tr_func="sigmoid")
# Layer 4
nnfig.draw_neuron(ax, (3*HSPACE, 0), 1, ag_func="sum", tr_func="sigmoid")
# Text ########################################
# Layer 1 (input)
#plt.text(x=0.5, y=VSPACE+1, s=tex(STR_SIGOUT + "_i"), fontsize=12)
plt.text(x=-1.7, y=VSPACE, s=tex(STR_SIGIN + "_1"), fontsize=12)
plt.text(x=-1.7, y=-VSPACE-0.2, s=tex(STR_SIGIN + "_2"), fontsize=12)
# Layer 2
#plt.text(x=HSPACE-1.25, y=VSPACE+1.5, s=tex(STR_POT + "_1"), fontsize=12)
plt.text(x=HSPACE+0.4, y=VSPACE+1.5, s=tex(STR_SIGOUT + "_1"), fontsize=12)
#plt.text(x=HSPACE-1.25, y=-VSPACE-1.8, s=tex(STR_POT + "_2"), fontsize=12)
plt.text(x=HSPACE+0.4, y=-VSPACE-1.8, s=tex(STR_SIGOUT + "_2"), fontsize=12)
# Layer 3
#plt.text(x=2*HSPACE-1.25, y=VSPACE+1.5, s=tex(STR_POT + "_3"), fontsize=12)
plt.text(x=2*HSPACE+0.4, y=VSPACE+1.5, s=tex(STR_SIGOUT + "_3"), fontsize=12)
#plt.text(x=2*HSPACE-1.25, y=-VSPACE-1.8, s=tex(STR_POT + "_4"), fontsize=12)
plt.text(x=2*HSPACE+0.4, y=-VSPACE-1.8, s=tex(STR_SIGOUT + "_4"), fontsize=12)
# Layer 4
#plt.text(x=3*HSPACE-1.25, y=1.5, s=tex(STR_POT + "_o"), fontsize=12)
#plt.text(x=3*HSPACE+0.4, y=1.5, s=tex(STR_SIGOUT + "_o"), fontsize=12)
plt.text(x=3*HSPACE+2.5, y=-0.3,
s=tex(STR_SIGOUT),
fontsize=12)
plt.show()
TODO: il manque le biais...
$ \newcommand{\yone}{\underbrace{\activfunc \left(\weight_1 \feature_1 + \weight_3 \feature_2 \right)}_{\sigout_1}} \newcommand{\ytwo}{\underbrace{\activfunc \left(\weight_2 \feature_1 + \weight_4 \feature_2 \right)}_{\sigout_2}} \newcommand{\ythree}{\underbrace{\activfunc \left(\weight_5 \yone + \weight_7 \ytwo \right)}_{\sigout_3}} \newcommand{\yfour}{\underbrace{\activfunc \left(\weight_6 \yone + \weight_8 \ytwo \right)}_{\sigout_4}} $
$$ \sigout = \activfunc \left( \weight_9 ~ \ythree + \weight_{10} ~ \yfour \right) $$TODO
Fonction objectif: $\errfunc \left( \weights \right)$
Typiquement, la fonction objectif (fonction d'erreur) est la somme du carré de l'erreur de chaque neurone de sortie.
$\Omega$: l'ensemble des neurones de sortie
Le $\frac12$, c'est juste pour simplifier les calculs de la dérivée.
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=4)
nnfig.draw_synapse(ax, (0, -6), (10, 0))
nnfig.draw_synapse(ax, (0, -2), (10, 0))
nnfig.draw_synapse(ax, (0, 2), (10, 0))
nnfig.draw_synapse(ax, (0, 6), (10, 0))
nnfig.draw_synapse(ax, (0, -6), (10, -4))
nnfig.draw_synapse(ax, (0, -2), (10, -4))
nnfig.draw_synapse(ax, (0, 2), (10, -4))
nnfig.draw_synapse(ax, (0, 6), (10, -4))
nnfig.draw_synapse(ax, (0, -6), (10, 4))
nnfig.draw_synapse(ax, (0, -2), (10, 4))
nnfig.draw_synapse(ax, (0, 2), (10, 4))
nnfig.draw_synapse(ax, (0, 6), (10, 4))
nnfig.draw_synapse(ax, (10, -4), (12, -4))
nnfig.draw_synapse(ax, (10, 0), (12, 0))
nnfig.draw_synapse(ax, (10, 4), (12, 4))
nnfig.draw_neuron(ax, (0, -6), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -2), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 2), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 6), 0.5, empty=True)
nnfig.draw_neuron(ax, (10, -4), 1, ag_func="sum", tr_func="sigmoid")
nnfig.draw_neuron(ax, (10, 0), 1, ag_func="sum", tr_func="sigmoid")
nnfig.draw_neuron(ax, (10, 4), 1, ag_func="sum", tr_func="sigmoid")
plt.text(x=0, y=7.5, s=tex(STR_PREV), fontsize=14)
plt.text(x=10, y=7.5, s=tex(STR_CUR), fontsize=14)
plt.text(x=0, y=0, s=r"$\vdots$", fontsize=14)
plt.text(x=9.7, y=-6.1, s=r"$\vdots$", fontsize=14)
plt.text(x=9.7, y=5.8, s=r"$\vdots$", fontsize=14)
plt.text(x=12.5, y=4, s=tex(STR_SIGOUT + "_1"), fontsize=14)
plt.text(x=12.5, y=0, s=tex(STR_SIGOUT + "_2"), fontsize=14)
plt.text(x=12.5, y=-4, s=tex(STR_SIGOUT + "_3"), fontsize=14)
plt.text(x=16, y=4, s=tex(STR_ERRFUNC + "_1 = " + STR_SIGOUT + "_1 - " + STR_SIGOUT_DES + "_1"), fontsize=14)
plt.text(x=16, y=0, s=tex(STR_ERRFUNC + "_2 = " + STR_SIGOUT + "_2 - " + STR_SIGOUT_DES + "_2"), fontsize=14)
plt.text(x=16, y=-4, s=tex(STR_ERRFUNC + "_3 = " + STR_SIGOUT + "_3 - " + STR_SIGOUT_DES + "_3"), fontsize=14)
plt.text(x=16, y=-8, s=tex(STR_ERRFUNC + " = 1/2 ( " + STR_ERRFUNC + "^2_1 + " + STR_ERRFUNC + "^2_2 + " + STR_ERRFUNC + "^2_3 + \dots )"), fontsize=14)
plt.show()
$- \learnrate \nabla_{\weights} \errfunc \left( \weights_{\learnit} \right)$: descend dans la direction opposée au gradient (plus forte pente)
avec $\nabla_{\weights} \errfunc \left( \weights_{\learnit} \right)$: gradient de la fonction objectif au point $\weights$
$\learnrate > 0$: pas (ou taux) d'apprentissage
$$ \begin{align} \delta_{\wcur} & = \wcur_{\learnit + 1} - \wcur_{\learnit} \\ & = - \learnrate \frac{\partial \errfunc}{\partial \wcur} \end{align} $$$$ \Leftrightarrow \wcur_{\learnit + 1} = \wcur_{\learnit} - \learnrate \frac{\partial \errfunc}{\partial \wcur} $$Chaque présentation de l'ensemble des exemples = un cycle (ou une époque) d'apprentissage
Critère d'arrêt de l'apprentissage: quand la valeur de la fonction objectif se stabilise (ou que le problème est résolu avec la précision souhaitée)
In [ ]:
def d_sigmoid(x, _lambda=1.):
e = np.exp(-_lambda * x)
y = _lambda * e / np.power(1 + e, 2)
return y
In [ ]:
%matplotlib inline
x = np.linspace(-5, 5, 300)
y1 = d_sigmoid(x, 1.)
y2 = d_sigmoid(x, 5.)
y3 = d_sigmoid(x, 0.5)
plt.plot(x, y1, label=r"$\lambda=1$")
plt.plot(x, y2, label=r"$\lambda=5$")
plt.plot(x, y3, label=r"$\lambda=0.5$")
plt.hlines(y=0, xmin=-5, xmax=5, color='gray', linestyles='dotted')
plt.vlines(x=0, ymin=-2, ymax=2, color='gray', linestyles='dotted')
plt.legend()
plt.title("Fonction dérivée de la sigmoïde")
plt.axis([-5, 5, -0.5, 2]);
In [ ]:
def d_tanh(x):
y = 1. - np.power(np.tanh(x), 2)
return y
In [ ]:
x = np.linspace(-5, 5, 300)
y = d_tanh(x)
plt.plot(x, y)
plt.hlines(y=0, xmin=-5, xmax=5, color='gray', linestyles='dotted')
plt.vlines(x=0, ymin=-2, ymax=2, color='gray', linestyles='dotted')
plt.title("Fonction dérivée de la tangente hyperbolique")
plt.axis([-5, 5, -2, 2]);
In [ ]:
# TODO
# - "généralement le minimum local suffit" (preuve ???)
# - "dans le cas contraire, le plus simple est de recommencer plusieurs fois l'apprentissage avec des poids initiaux différents et de conserver la meilleure matrice $\weights$ (celle qui minimise $\errfunc$)"
In [ ]:
fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(4, 4))
x = np.arange(10, 30, 0.1)
y = (x - 20)**2 + 2
ax.set_xlabel(r"Poids $" + STR_WEIGHTS + "$", fontsize=14)
ax.set_ylabel(r"Fonction objectif $" + STR_ERRFUNC + "$", fontsize=14)
# See http://matplotlib.org/api/axes_api.html#matplotlib.axes.Axes.tick_params
ax.tick_params(axis='both', # changes apply to the x and y axis
which='both', # both major and minor ticks are affected
bottom='on', # ticks along the bottom edge are on
top='off', # ticks along the top edge are off
left='on', # ticks along the left edge are on
right='off', # ticks along the right edge are off
labelbottom='off', # labels along the bottom edge are off
labelleft='off') # labels along the lefleft are off
ax.set_xlim(left=10, right=25)
ax.set_ylim(bottom=0, top=5)
ax.plot(x, y);
Apprentissage incrémentiel (ou partiel) (ang. incremental learning): on ajuste les poids $\weights$ après la présentation d'un seul exemple ("ce n'est pas une véritable descente de gradient"). C'est mieux pour éviter les minimums locaux, surtout si les exemples sont mélangés au début de chaque itération
In [ ]:
# *Apprentissage différé* (ang. *batch learning*):
# TODO
# Est-ce que la fonction objectif $\errfunc$ est une fonction multivariée
# ou est-ce une aggrégation des erreurs de chaque exemple ?
In [ ]:
# **TODO: règle du delta / règle du delta généralisée**
Rétropropagation du gradient: une méthode pour calculer efficacement le gradient de la fonction objectif $\errfunc$.
Intuition: La rétropropagation du gradient n'est qu'une méthode parmis d'autre pour résoudre le probème d'optimisation des poids $\weight$. On pourrait très bien résoudre ce problème d'optimisation avec des algorithmes évolutionnistes par exemple. En fait, l'intérêt de la méthode de la rétropropagation du gradient (et ce qui explique sa notoriété) est qu'elle formule le problème d'optimisation des poids avec une écriture analytique particulièrement efficace qui élimine astucieusement un grand nombre de calculs redondants (un peu à la manière de ce qui se fait en programmation dynamique): quand on decide d'optimiser les poids via une descente de gradient, certains termes (les signaux d'erreurs $\errsig$) apparaissent un grand nombre de fois dans l'écriture analytique complète du gradient. La méthode de la retropropagation du gradient fait en sorte que ces termes ne soient calculés qu'une seule fois. À noter qu'on aurrait très bien pu résoudre le problème avec une descente de gradient oú le gradient $\frac{\partial \errfunc}{\partial\wcur_{\learnit}}$ serait calculé via une approximation numérique (méthode des différences finies par exemple) mais ce serait beaucoup plus lent et beaucoup moins efficace...
Principe: on modifie les poids à l'aide des signaux d'erreur $\errsig$.
$$ \wcur_{\learnit + 1} = \wcur_{\learnit} \underbrace{- \learnrate \frac{\partial \errfunc}{\partial \wcur_{\learnit}}}_{\delta_\prevcur} $$$$ \begin{align} \delta_\prevcur & = - \learnrate \frac{\partial \errfunc}{\partial \wcur(\learnit)} \\ & = - \learnrate \errsig_\cur \sigout\prev \end{align} $$
In [ ]:
# TODO
#Voc:
#- *erreur marginale*: **TODO**
Note intéressante de Jürgen Schmidhuber : http://people.idsia.ch/~juergen/who-invented-backpropagation.html
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=4)
nnfig.draw_synapse(ax, (0, -2), (10, 0))
nnfig.draw_synapse(ax, (0, 2), (10, 0), label=tex(STR_WEIGHT + "_{" + STR_NEXT + STR_CUR + "}"), label_position=0.5, fontsize=14)
nnfig.draw_synapse(ax, (10, 0), (12, 0))
nnfig.draw_neuron(ax, (0, -2), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, 2), 0.5, empty=True)
plt.text(x=0, y=3.5, s=tex(STR_CUR), fontsize=14)
plt.text(x=10, y=3.5, s=tex(STR_NEXT), fontsize=14)
plt.text(x=0, y=-0.2, s=r"$\vdots$", fontsize=14)
nnfig.draw_neuron(ax, (10, 0), 1, ag_func="sum", tr_func="sigmoid")
plt.show()
Dans l'exemple suivant on ne s'intéresse qu'aux poids $\weight_1$, $\weight_2$, $\weight_3$, $\weight_4$ et $\weight_5$ pour simplifier la demonstration.
In [ ]:
fig, ax = nnfig.init_figure(size_x=8, size_y=4)
HSPACE = 6
VSPACE = 4
# Synapse #####################################
# Layer 1-2
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, VSPACE), label=tex(STR_WEIGHT + "_1"), label_position=0.4)
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, VSPACE), color="lightgray")
nnfig.draw_synapse(ax, (0, VSPACE), (HSPACE, -VSPACE), color="lightgray")
nnfig.draw_synapse(ax, (0, -VSPACE), (HSPACE, -VSPACE), color="lightgray")
# Layer 2-3
nnfig.draw_synapse(ax, (HSPACE, VSPACE), (2*HSPACE, VSPACE), label=tex(STR_WEIGHT + "_2"), label_position=0.4)
nnfig.draw_synapse(ax, (HSPACE, -VSPACE), (2*HSPACE, VSPACE), color="lightgray")
nnfig.draw_synapse(ax, (HSPACE, VSPACE), (2*HSPACE, -VSPACE), label=tex(STR_WEIGHT + "_3"), label_position=0.4)
nnfig.draw_synapse(ax, (HSPACE, -VSPACE), (2*HSPACE, -VSPACE), color="lightgray")
# Layer 3-4
nnfig.draw_synapse(ax, (2*HSPACE, VSPACE), (3*HSPACE, 0), label=tex(STR_WEIGHT + "_4"), label_position=0.4)
nnfig.draw_synapse(ax, (2*HSPACE, -VSPACE), (3*HSPACE, 0), label=tex(STR_WEIGHT + "_5"), label_position=0.4, label_offset_y=-0.8)
# Neuron ######################################
# Layer 1 (input)
nnfig.draw_neuron(ax, (0, VSPACE), 0.5, empty=True)
nnfig.draw_neuron(ax, (0, -VSPACE), 0.5, empty=True, line_color="lightgray")
# Layer 2
nnfig.draw_neuron(ax, (HSPACE, VSPACE), 1, ag_func="sum", tr_func="sigmoid")
nnfig.draw_neuron(ax, (HSPACE, -VSPACE), 1, ag_func="sum", tr_func="sigmoid", line_color="lightgray")
# Layer 3
nnfig.draw_neuron(ax, (2*HSPACE, VSPACE), 1, ag_func="sum", tr_func="sigmoid")
nnfig.draw_neuron(ax, (2*HSPACE, -VSPACE), 1, ag_func="sum", tr_func="sigmoid")
# Layer 4
nnfig.draw_neuron(ax, (3*HSPACE, 0), 1, ag_func="sum", tr_func="sigmoid")
# Text ########################################
# Layer 1 (input)
plt.text(x=0.5, y=VSPACE+1, s=tex(STR_SIGOUT + "_i"), fontsize=12)
# Layer 2
plt.text(x=HSPACE-1.25, y=VSPACE+1.5, s=tex(STR_POT + "_1"), fontsize=12)
plt.text(x=HSPACE+0.4, y=VSPACE+1.5, s=tex(STR_SIGOUT + "_1"), fontsize=12)
# Layer 3
plt.text(x=2*HSPACE-1.25, y=VSPACE+1.5, s=tex(STR_POT + "_2"), fontsize=12)
plt.text(x=2*HSPACE+0.4, y=VSPACE+1.5, s=tex(STR_SIGOUT + "_2"), fontsize=12)
plt.text(x=2*HSPACE-1.25, y=-VSPACE-1.8, s=tex(STR_POT + "_3"), fontsize=12)
plt.text(x=2*HSPACE+0.4, y=-VSPACE-1.8, s=tex(STR_SIGOUT + "_3"), fontsize=12)
# Layer 4
plt.text(x=3*HSPACE-1.25, y=1.5, s=tex(STR_POT + "_o"), fontsize=12)
plt.text(x=3*HSPACE+0.4, y=1.5, s=tex(STR_SIGOUT + "_o"), fontsize=12)
plt.text(x=3*HSPACE+2, y=-0.3,
s=tex(STR_ERRFUNC + " = (" + STR_SIGOUT + "_o - " + STR_SIGOUT_DES + "_o)^2/2"),
fontsize=12)
plt.show()
Attention: $\weight_1$ influe $\pot_2$ et $\pot_3$ en plus de $\pot_1$ et $\pot_o$.
rappel:
c'est à dire:
donc, en appliquant les règles de derivation de fonctions composées, on a:
Rappel: dérivation des fonctions composées (parfois appelé règle de dérivation en chaîne ou règle de la chaîne)
$$ \frac{\mathrm{d} y}{\mathrm{d} x} = \frac{\mathrm{d} y}{\mathrm{d} u} \cdot \frac{\mathrm{d} u}{\mathrm {d} x} $$de (1), (2) et (3) on déduit:
le signal d'erreur s'écrit donc:
avec:
avec:
avec:
avec:
In [ ]:
# Define the activation function and its derivative
activation_function = tanh
d_activation_function = d_tanh
In [ ]:
def init_weights(num_input_cells, num_output_cells, num_cell_per_hidden_layer, num_hidden_layers=1):
"""
The returned `weights` object is a list of weight matrices,
where weight matrix at index $i$ represents the weights between
layer $i$ and layer $i+1$.
Numpy array shapes for e.g. num_input_cells=2, num_output_cells=2,
num_cell_per_hidden_layer=3 (without taking account bias):
- in: (2,)
- in+bias: (3,)
- w[0]: (3,3)
- w[0]+bias: (3,4)
- w[1]: (3,2)
- w[1]+bias: (4,2)
- out: (2,)
"""
# TODO:
# - faut-il que wij soit positif ?
# - loi normale plus appropriée que loi uniforme ?
# - quel sigma conseillé ?
W = []
# Weights between the input layer and the first hidden layer
W.append(np.random.uniform(low=0., high=1., size=(num_input_cells + 1, num_cell_per_hidden_layer + 1)))
# Weights between hidden layers (if there are more than one hidden layer)
for layer in range(num_hidden_layers - 1):
W.append(np.random.uniform(low=0., high=1., size=(num_cell_per_hidden_layer + 1, num_cell_per_hidden_layer + 1)))
# Weights between the last hidden layer and the output layer
W.append(np.random.uniform(low=0., high=1., size=(num_cell_per_hidden_layer + 1, num_output_cells)))
return W
In [ ]:
def evaluate_network(weights, input_signal): # TODO: find a better name
# Add the bias on the input layer
input_signal = np.concatenate([input_signal, [-1]])
assert input_signal.ndim == 1
assert input_signal.shape[0] == weights[0].shape[0]
# Compute the output of the first hidden layer
p = np.dot(input_signal, weights[0])
output_hidden_layer = activation_function(p)
# Compute the output of the intermediate hidden layers
# TODO: check this
num_layers = len(weights)
for n in range(num_layers - 2):
p = np.dot(output_hidden_layer, weights[n + 1])
output_hidden_layer = activation_function(p)
# Compute the output of the output layer
p = np.dot(output_hidden_layer, weights[-1])
output_signal = activation_function(p)
return output_signal
In [ ]:
def compute_gradient():
# TODO
pass
In [ ]:
weights = init_weights(num_input_cells=2, num_output_cells=2, num_cell_per_hidden_layer=3, num_hidden_layers=1)
print(weights)
#print(weights[0].shape)
#print(weights[1].shape)
In [ ]:
input_signal = np.array([.1, .2])
input_signal
In [ ]:
evaluate_network(weights, input_signal)
Le PMC peut approximer n'importe quelle fonction continue avec une précision arbitraire suivant le nombre de neurones présents sur la couche cachée.
Initialisation des poids: généralement des petites valeurs aléatoires
In [ ]:
# TODO: la différence entre:
# * réseau bouclé
# * réseau récurent
Les biais sont stockés dans une liste de vecteurs plutôt qu'une liste de scalaires... pourquoi ???
Avantages des PMC:
Inconvenients des PMC:
Cross-Entropy Loss Function: ...
Softmax: ...
Multi-label classification: ... modèle de classifieur qui permet a un exemple d'appartenir à plusieurs classes