In [2]:
"""
IPython Notebook v4.0 para python 2.7
Librerías adicionales: numpy, matplotlib
Contenido bajo licencia CC-BY 4.0. Código bajo licencia MIT. (c) Sebastian Flores.
"""
# Configuracion para recargar módulos y librerías
%reload_ext autoreload
%autoreload 2
from IPython.core.display import HTML
HTML(open("style/mat281.css", "r").read())
Out[2]:
Porque problemas actuales requieren una escala de preprocesamiento, procesamiento y postprocesamiento diferente a los problemas tradicionales. Algoritmos de Machine Learning y técnicas de Data Science son aplicables a un sinnúmero de problemas distintos.
ML y DS entregan herramientas versátiles para entender, modelar y solucionar problemas.
Esta sección del curso se basa en los siguientes recursos:
Introduction to Data Science by Bill Howe, MOOC, Coursera.
Machine Learning by Andrew Ng, CS229, Stanford University (también disponible en coursera y youtube).
A Few Useful Things to Know about Machine Learning, Pedro Domingos (artículo).
Machine Learning, Data Mining, Big Data y Data Science tienen fronteras difusas y permeables, al igual que Probabilidad y Estadística.
Estudia y construye sistemas que pueden aprender de los datos, más que seguir instrucciones explícitamente programadas.
Machine Learning es un conjunto de técnicas y modelos que permiten el modelamiento predictivo de datos, reunidas a partir de la intersección de elementos de probabilidad, estadística e inteligencia artificial.
Pregunta fundamental: ¿Qué conocimiento emerge a partir de los datos? ¿Qué modelo/técnica otorga la mejor predicción para estos datos?
Estudia y contruye algoritmos que permiten descubrir relaciones interesantes a partir de grandes bases de datos.
Data Mining abarca el almacenamiento, mantención, lectura y realización de descubrimientos en los datos.
También se le conoce como KDD (Knowledge Discovery in Databases).
Pregunta fundamental: ¿Qué relaciones son interesantes y cómo descubrirlas?
Se preocupa de la practicidad de resolver problemas complejos utilizando datos.
Data Science es la aplicación de data mining y machine learning con un fin específico.
También se conoce como eScience.
La base de datos a utilizar no ha sido necesariamente creada.
Pregunta fundamental: ¿Qué puedo decir de X a partir de los datos?
Similar a clustering, pero donde los datos están etiquetados con un valor real.
El desafío es asignar la etiqueta correcta a datos sin etiquetar.
Ejemplos:
Predicción de precio en mercado de acciones.
Predicción de precio de casa/departamento basado en características.
Los datos no se encuentran etiquetados (no existe un valor $y$ para predecir), pero se busca dividir el conjunto de datos basados en alguna medida de similaridad o estructura de los datos. El desafío es encontrar cómo se podrían separar los datos a partir de sus datos sin saber cómo ni porqué se podrían separar.
Ejemplos:
Ordenar fotos según aparición en rostros.
Segmentación de mercados.
Compresión de información.
Los datos se usan para la extracción de reglas o relaciones previamente desconocidas entre los datos. A menudo no existe una relación predictiva entre los datos, sino que simplemente existe una relación no causal entre los atributos de los datos. El desafío es encontrar las relaciones no predictivas entre los datos, sin conocerlas a priori.
Ejemplos:
Reconocimiento de Voz.
Recomendación de Productos.
Cerveza y pañales.
Excelente artículo de Pedro Domingos: A Few Useful Things to Know about Machine Learning.
6 Resultados teóricos no son lo que parecen. Probar vence a teorizar.
7 Preparación de datos es esencial.
8 Más datos es mejor que un algoritmo más astuto.
9 Aprender muchos modelos, no śolo uno.
10 Simplicidad no implica exactitud.
11 Correlación no implica causalidad, aunque a veces es suficiente.