In [18]:
    
fileName='book.txt'
    
Ahora vamos a eliminar todo aquello que no se consideren cadenas de texto válidas. Para ello definiremos una función que elimine aquello que no queremos contabilizar.
In [19]:
    
import re
def removePunctuation(text):
    return re.sub('[^a-z| |0-9]', '', text.strip().lower())
    
Ahora vamos a crear el primer RDD del contenido del libro.
In [21]:
    
shakespeareRDD = (sc
                  .textFile(fileName, 8)
                  .map(removePunctuation))
    
In [22]:
    
shakespeareRDD.take(4)
    
    Out[22]:
In [23]:
    
print '\n'.join(shakespeareRDD
                .zipWithIndex()  # to (line, lineNum)
                .map(lambda (l, num): '{0}: {1}'.format(num, l))  # to 'lineNum: line'
                .take(15))
    
    
In [ ]: