Práctica 6: introducción a NLTK y IPython Notebook

En esta práctica se trata de replicar y adaptar lo aprendido en el notebook llamado Introduction.ipynb.

Seguir exactamente las instrucciones de forma detallada, incluyendo nombres de variables, etc.

Primer paso: preparar utilización de NLTK. El nltk.download() no es necesario si ya se ha hecho en otros ejercicios, pero se incluye por precaución


In [ ]:
import nltk
nltk.download('book')

1. manejo básico de texto en Python

Primer guardamos el texto por analizar en una variable llamada mitexto:


In [ ]:

Ahora comprobamos que este texto se ha guardado bien y lo mostramos en pantalla:


In [ ]:

Medimos el tamaño del texto en caracteres:


In [ ]:

2. NLTK: segmentación en palabras

Separamos el texto y guardamos el resultado en la variable palabras:


In [ ]:

Y miramos la lista de palabras resultante:


In [ ]:

¿Cuántas palabras contiene el texto?


In [ ]:

¿Cuál es la longitud media de las palabras?


In [ ]:

3. NLTK: segmentación en oraciones

Separamos el texto en oraciones y guardamos el resultado en la variable oraciones:


In [ ]:

Miramos la lista de oraciones:


In [ ]:

¿Cuántas oraciones hay en nuestro texto?


In [ ]:

¿Cuántas palabras tiene cada oración en promedio?


In [ ]:

4. NLTK: anotación con part-of-speech

Etiquetamos nuestro texto con un etiquetador morfosintáctico y guardamos el resultado en la variable etiquetado:


In [ ]:

Miramos el resultado:


In [ ]:

Miramos la lista de adjetivos que contiene el texto:


In [ ]:

¿Cuál es el porcentaje de sustantivos, adjetivos, verbos y adverbios en el texto?


In [ ]:

Comentarios y reflexiones

Escribir los comentarios en esta casilla (activar con doble-clic).

Entrega

  1. Antes de hacer la entrega siempre hay que seleccionar el menú Kernel $\Rightarrow$ Restart & Run all
  2. Comprobar que todos los resultados aparecen correctamente
  3. Descargar el notebook en dos formatos (File $\Rightarrow$ Download as):
    1. IPython Notebook
    2. HTML
  4. Cambiar el nombre de los ficheros a la forma siguiente:
    • P6-[seminario]-[nombre estudiante].ipynb
    • P6-[seminario]-[nombre estudiante].html
    • Ejemplo: P6-101-Jens_Grivolla.ipynb
  5. Subir los dos ficheros a AulaGlobal

In [ ]: