In [1]:
from cltk.corpus.greek.tlg.parse_tlg_indices import select_id_by_name

In [2]:
select_id_by_name('Aeschylus')


Out[2]:
[('0085', 'Aeschylus Trag.'), ('0321', 'Aeschylus Trag.')]

In [3]:
import os

author_fp = os.path.expanduser('~/cltk_data/greek/text/tlg/plaintext/' + 'TLG0085.TXT')

In [4]:
author_fp


Out[4]:
'/Users/kyle/cltk_data/greek/text/tlg/plaintext/TLG0085.TXT'

In [5]:
with open(author_fp) as file_open:
    aes_raw = file_open.read()

In [6]:
print(aes_raw[:1000])


                 {ΙΚΕΤΙΔΕΣ} 
  {ΧΟΡΟΣ ΔΑΝΑΙΔΩΝ} 
       Ζεὺς μὲν ἀφίκτωρ ἐπίδοι προφρόνως 
       στόλον ἡμέτερον νάιον ἀρθέντ' 
       ἀπὸ προστομίων λεπτοψαμάθων 
         Νείλου. Δίαν δὲ λιποῦσαι 
       χθόνα σύγχορτον Συρίᾳ φεύγομεν, 
       οὔτιν' ἐφ' αἵματι δημηλασίαν 
         ψήφῳ πόλεως γνωσθεῖσαι, 
       ἀλλ' αὐτογενεῖ φυξανορίᾳ, 
       γάμον Αἰγύπτου παίδων ἀσεβῆ τ' 
         ὀνοταζόμεναι <διάνοιαν>. 
       Δαναὸς δὲ πατὴρ καὶ βούλαρχος 
       καὶ στασίαρχος τάδε πεσσονομῶν 
         κύδιστ' ἀχέων ἐπέκρινεν 
       φεύγειν ἀνέδην διὰ κῦμ' ἅλιον, 
       κέλσαι δ' Ἄργους γαῖαν, ὅθεν δὴ 
       γένος ἡμέτερον τῆς οἰστροδόνου 
       βοὸς ἐξ ἐπαφῆς κἀξ ἐπιπνοίας 
         Διὸς εὐχόμενον τετέλεσται. 
       τίν' ἂν οὖν χώραν εὔφρονα μᾶλλον 
       τῆσδ' ἀφικοίμεθα 
       σὺν τοῖσδ' ἱκετῶν ἐγχειριδίοις, 
         ἐριοστέπτοισι κλάδοισιν;  
       ὦ πόλις, ὦ γῆ, καὶ λευκὸν ὕδωρ, 
       ὕπατοί τε θεοί, καὶ βαρύτιμοι 
         χθόνιοι θήκας κατέχοντες, 
       καὶ Ζεὺς σωτὴρ

In [7]:
from cltk.corpus.utils.formatter import tlg_plaintext_cleanup

In [8]:
aes_clean = tlg_plaintext_cleanup(aes_raw, rm_punctuation=True, rm_periods=True)

In [9]:
print(aes_clean[:1000])


 Ζεὺς μὲν ἀφίκτωρ ἐπίδοι προφρόνως στόλον ἡμέτερον νάιον ἀρθέντ ἀπὸ προστομίων λεπτοψαμάθων Νείλου Δίαν δὲ λιποῦσαι χθόνα σύγχορτον Συρίᾳ φεύγομεν οὔτιν ἐφ αἵματι δημηλασίαν ψήφῳ πόλεως γνωσθεῖσαι ἀλλ αὐτογενεῖ φυξανορίᾳ γάμον Αἰγύπτου παίδων ἀσεβῆ τ ὀνοταζόμεναι διάνοιαν Δαναὸς δὲ πατὴρ καὶ βούλαρχος καὶ στασίαρχος τάδε πεσσονομῶν κύδιστ ἀχέων ἐπέκρινεν φεύγειν ἀνέδην διὰ κῦμ ἅλιον κέλσαι δ Ἄργους γαῖαν ὅθεν δὴ γένος ἡμέτερον τῆς οἰστροδόνου βοὸς ἐξ ἐπαφῆς κἀξ ἐπιπνοίας Διὸς εὐχόμενον τετέλεσται τίν ἂν οὖν χώραν εὔφρονα μᾶλλον τῆσδ ἀφικοίμεθα σὺν τοῖσδ ἱκετῶν ἐγχειριδίοις ἐριοστέπτοισι κλάδοισιν ὦ πόλις ὦ γῆ καὶ λευκὸν ὕδωρ ὕπατοί τε θεοί καὶ βαρύτιμοι χθόνιοι θήκας κατέχοντες καὶ Ζεὺς σωτὴρ τρίτος οἰκοφύλαξ ὁσίων ἀνδρῶν δέξασθ ἱκέτην τὸν θηλυγενῆ στόλον αἰδοίῳ πνεύματι χώρας ἀρσενοπληθῆ δ ἑσμὸν ὑβριστὴν Αἰγυπτογενῆ πρὶν πόδα χέρσῳ τῇδ ἐν ἀσώδει θεῖναι ξὺν ὄχῳ ταχυήρει πέμψατε πόντονδ ἔνθα δὲ λαίλαπι χειμωνοτύπῳ βροντῇ στεροπῇ τ ὀμβροφόροισίν τ ἀνέμοις ἀγρίας ἁλὸς ἀντήσαντες ὄλοιντο π

In [10]:
aes_unigrams = aes_clean.split()
print(aes_unigrams[:30])


['Ζεὺς', 'μὲν', 'ἀφίκτωρ', 'ἐπίδοι', 'προφρόνως', 'στόλον', 'ἡμέτερον', 'νάιον', 'ἀρθέντ', 'ἀπὸ', 'προστομίων', 'λεπτοψαμάθων', 'Νείλου', 'Δίαν', 'δὲ', 'λιποῦσαι', 'χθόνα', 'σύγχορτον', 'Συρίᾳ', 'φεύγομεν', 'οὔτιν', 'ἐφ', 'αἵματι', 'δημηλασίαν', 'ψήφῳ', 'πόλεως', 'γνωσθεῖσαι', 'ἀλλ', 'αὐτογενεῖ', 'φυξανορίᾳ']

In [11]:
total_words = len(aes_unigrams)
print('Total words:', total_words)


Total words: 74329

In [12]:
unique_words = set(aes_unigrams)
unique_count = len(unique_words)
print('Total unique words:', unique_count)


Total unique words: 24097

In [13]:
aes_ratio = unique_count / total_words

In [14]:
print('Lexical diversity of Aechylus', aes_ratio)


Lexical diversity of Aechylus 0.3241937870817581