J'aimerai montrer ici comment générer des fausses citations latines, dignes du Roi Loth de Kaamelott, avec Python, des données extraites de sa page Wikiquote et des chaînes de Markov.
Cf. ce ticket pour l'idée initiale.
Exemple de sortie :
In [32]:
citation = citation_aleatoire(italic=True)
display(Markdown("> {}".format(citation)))
In [2]:
%load_ext watermark
%watermark -v -m -a "Lilian Besson (Naereen)" -p lea -g
In [3]:
import os
import random
from string import ascii_lowercase
from collections import Counter, defaultdict
Le module lea sera très pratique pour manipuler les probabilités pour les chaînes de Markov.
In [4]:
from lea import Lea
J'ai utilisé cette page Wikipédia et deux lignes de Bash :
In [5]:
%%bash
wget --no-verbose "https://en.wikipedia.org/wiki/List_of_Latin_phrases_(full)" -O /tmp/latin.html
grep -o '<b>[^<]*</b>' /tmp/latin.html | sed s_'</\?b>'_''_g | sort | uniq | sort | uniq > /tmp/data_latin.txt
In [6]:
!head data/latin.txt
Ensuite il faut un peu de nettoyage pour enlever les lignes qui ont été incorrectement ajoutées dans le fichier (j'ai fait ça à la main).
In [7]:
!head data/latin.txt
In [8]:
!ls -larth data/latin.txt
!wc data/latin.txt
On a 1571 citations latines, c'est déjà un corpus conséquent !
J'utilise cette fonction markov écrite par Jill-Jênn Vie.
In [9]:
def markov(corpus, start, length):
# Counting occurrences
next_one = defaultdict(Counter)
for sentence in corpus:
words = sentence.split()
nb_words = len(words)
for i in range(nb_words - 1):
next_one[words[i]][words[i + 1]] += 1
# Initializing states
states = {}
for word in next_one:
states[word] = Lea.fromValFreqsDict(next_one[word])
# Outputting visited states
word = start
words = [word]
for _ in range(length - 1):
word = states[word].random()
words.append(word)
return(words)
Par exemple :
In [10]:
corpus = [
'je mange des cerises',
'je mange des bananes',
'je conduis des camions',
]
start = 'je'
length = 4
Et on peut générer 3 phrases aléatoires :
In [11]:
for _ in range(3):
words = markov(corpus, start, length)
print(' '.join(words))
In [12]:
WORD_LIST = "data/latin.txt"
corpus = open(WORD_LIST).readlines()
In [13]:
print("Exemple d'une citation :", corpus[0])
print("Il y a", len(corpus), "citations.")
In [14]:
starts = [c.split()[0] for c in corpus]
start = random.choice(starts)
print("Exemple d'un mot de début de citation :", start)
print("Il y a", len(starts), "mots de débuts de citations.")
In [15]:
proba_title = len([1 for s in starts if s.istitle()]) / len(starts)
print("Il y a {:.3%} chance de commencer une citation par une majuscule.".format(proba_title))
Mais en fait, le Roi Loth commence toujours ses citations latines par une majuscule :
In [16]:
proba_title = 1
On va générer des locutions de 3 à 6 mots :
In [17]:
length_min = 3
length_max = 6
On a bientôt ce qu'il faut pour générer une locution latine aléatoire. Il arrive que la chaîne de Markov se bloque, donc on va juste essayer plusieurs fois avec des débuts différents.
In [18]:
def markov_try_while_failing(corpus, starts, length_min, length_max, proba_title, nb_max_trial=100):
# Try 100 times to generate a sentence
start = random.choice(starts)
length = random.randint(length_min, length_max)
for trial in range(nb_max_trial):
try:
words = markov(corpus, start, length)
if random.random() <= proba_title:
words[0] = words[0].title()
return words # comment to debug
print(' '.join(words))
break
except KeyError:
start = random.choice(starts)
length = random.randint(length_min, length_max)
continue
raise ValueError("Echec")
On peut essayer :
In [19]:
for _ in range(10):
words = markov_try_while_failing(corpus, starts, length_min, length_max, proba_title)
print(' '.join(words))
Ça a déjà l'air pas mal latin !
Pour générer une citation du Roi Loth, il ne suffit pas d'avoir des locutions latines. Il faut le contexte, l'explication, une fausse citation d'un épisode de Kaamelott etc...
Ecouter celle là : Misa brevis, et spiritus maxima.
Ave Cesar, rosae rosam, et spiritus rex ! Ah non, parce que là, j’en ai marre ! -- François Rollin, Kaamelott, Livre III, L’Assemblée des rois 2e partie, écrit par Alexandre Astier.
Tempora mori, tempora mundis recorda. Voilà. Eh bien ça, par exemple, ça veut absolument rien dire, mais l’effet reste le même, et pourtant j’ai jamais foutu les pieds dans une salle de classe attention ! -- François Rollin, Kaamelott, Livre III, L’Assemblée des rois 2e partie, écrit par Alexandre Astier.
Victoriae mundis et mundis lacrima. Bon, ça ne veut absolument rien dire, mais je trouve que c’est assez dans le ton. -- François Rollin, Kaamelott, Livre IV, Le désordre et la nuit, écrit par Alexandre Astier.
Misa brevis et spiritus maxima, ça veut rien dire, mais je suis très en colère contre moi-même. -- François Rollin, Kaamelott, Livre V, Misère noire, écrit par Alexandre Astier.
Deus minimi placet : seul les dieux décident. -- François Rollin, Kaamelott, Livre VI, Arturus Rex, écrit par Alexandre Astier.
"Mundi placet et spiritus minima", ça n'a aucun sens mais on pourrait très bien imaginer une traduction du type : "Le roseau plie, mais ne cède... qu'en cas de pépin" ce qui ne veut rien dire non plus. -- François Rollin, Kaamelott, Livre VI, Lacrimosa, écrit par Alexandre Astier.
In [20]:
episodes = [
"Livre III, L’Assemblée des rois 2e partie, écrit par Alexandre Astier.",
"Livre III, L’Assemblée des rois 2e partie, écrit par Alexandre Astier.", # présent deux fois
"Livre IV, Le désordre et la nuit, écrit par Alexandre Astier.",
"Livre V, Misère noire, écrit par Alexandre Astier.",
"Livre VI, Arturus Rex, écrit par Alexandre Astier.",
"Livre VI, Lacrimosa, écrit par Alexandre Astier."
]
In [21]:
def metadonnee_aleatoire(episodes=episodes):
episode = random.choice(episodes)
return "D'après François Rollin, inspiré par Kaamelott, " + episode
In [22]:
explications = [
". Ah non, parce que là, j’en ai marre !",
". Voilà. Eh bien ça, par exemple, ça veut absolument rien dire, mais l’effet reste le même, et pourtant j’ai jamais foutu les pieds dans une salle de classe attention !",
". Bon, ça ne veut absolument rien dire, mais je trouve que c’est assez dans le ton.",
", ça veut rien dire, mais je suis très en colère contre moi-même.",
" : seul les dieux décident.",
""", ça n'a aucun sens mais on pourrait très bien imaginer une traduction du type : "Le roseau plie, mais ne cède... qu'en cas de pépin", ce qui ne veut rien dire non plus.""",
]
Et quelques variations :
In [23]:
explications += [
". Ah non, parce qu'au bout d'un moment, zut !",
". Voilà, ça ne veut rien dire, mais c'est assez dans le ton !",
". Bon, ça n'a aucun sens, mais j'aime bien ce petit ton décalé.",
". Le latin, ça impressionne ! Surtout les grouillots.",
", ça n'a aucun sens, mais je suis très en colère contre moi-même.",
", ça n'a aucun sens, mais je fais ça par amour.",
" : la victoire par la sagesse.",
" : les livres contiennent la sagesse des anciens.",
" : à Rome seul compte le pouvoir.",
" : seul les puissants agissent.",
" : le mariage est une bénédiction.",
" : ça veut rien dire, mais ça impressionne !",
""", ça veut rien dire mais on pourrait très bien imaginer une traduction du type : "Le vent tourne pour ceux qui savent écouter", ce qui ne veut rien dire non plus.""",
""", ça n'a aucun sens mais pourquoi pas une traduction du genre : "Les imbéciles dorment, les forts agissent mais dorment aussi", ce qui n'a aucun sens non plus.""",
]
In [24]:
def explication_aleatoire():
return random.choice(explications)
In [25]:
def citation_aleatoire(italic=False):
metadonnee = metadonnee_aleatoire()
explication = explication_aleatoire()
words = markov_try_while_failing(corpus, starts, length_min, length_max, proba_title)
locution = ' '.join(words)
if italic:
citation = '"*{}*"{} -- {}'.format(locution, explication, metadonnee)
else:
citation = '"{}"{} -- {}'.format(locution, explication, metadonnee)
return citation
In [26]:
for _ in range(10):
print(">", citation_aleatoire(italic=True))
In [27]:
from IPython.display import display, Markdown
In [28]:
for _ in range(10):
citation = citation_aleatoire(italic=True)
display(Markdown("> {}".format(citation)))
Alors, convaincus ?
Whoooo! Whoo! C'est mortel ! Whoua c'est mortel! comme dirait Perceval.
Allez voir ici pour d'autres Notebooks écrits par Lilian Besson.