Uso de ipython para el análsis y muestra de los datos obtenidos durante la producción. Los datos analizados son del filamento de bq el día 20 de Julio del 2015
In [34]:
#Importamos las librerías utilizadas
import numpy as np
import pandas as pd
import seaborn as sns
import sklearn as sk
from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
In [35]:
#Mostramos las versiones usadas de cada librerías
print ("Numpy v{}".format(np.__version__))
print ("Pandas v{}".format(pd.__version__))
print ("Seaborn v{}".format(sns.__version__))
print ("Sklearn v{}".format(sk.__version__))
In [36]:
#Abrimos el fichero csv con los datos de la muestra
datos = pd.read_csv('prueba1.csv')
In [37]:
datos_filtrados = datos[(datos['Diametro X'] >= 1.2) & (datos['Diametro Y'] >= 1.2)]
In [38]:
%pylab inline
In [39]:
#Mostramos un resumen de los datos obtenidoss
datos_filtrados.describe()
#datos.describe().loc['mean',['Diametro X [mm]', 'Diametro Y [mm]']]
Out[39]:
In [40]:
#Almacenamos en una lista las columnas del fichero con las que vamos a trabajar
#columns = ['Diametro X', 'Diametro Y', 'RPM TRAC']
columns = ['Diametro X', 'RPM TRAC']
In [41]:
#Mostramos en varias gráficas la información obtenida tras el ensayo
datos_filtrados[columns].plot(secondary_y=['RPM TRAC'],figsize=(20,20))
#datos_filtrados['RPM TRAC'].plot(secondary_y=True,style='g',figsize=(20,20)).set_ylabel=('RPM')
Out[41]:
In [83]:
# Buscamos el polinomio de orden 4 que determina la distribución de los datos
reg = np.polyfit(datos_filtrados['time'],datos_filtrados['Diametro X'],4)
# Calculamos los valores de y con la regresión
ry = np.polyval(reg,datos_filtrados['time'])
print ('P(x)= {} {}*X {}*X^2 {}*X^3 {}*X^4'.format(reg[0],reg[1],reg[2],reg[3],reg[4]) )
In [73]:
plt.plot(datos_filtrados['time'],datos_filtrados['Diametro X'],'*', label=('f(x)'))
plt.plot(datos_filtrados['time'],ry,'ro', label=('regression'))
plt.legend(loc=0)
plt.grid(True)
plt.xlabel('x')
plt.ylabel('f(x)')
Out[73]:
Representamos ambos diámetros en la misma gráfica
In [40]:
datos_filtrados.ix[:, "Diametro X":"Diametro Y"].plot(figsize=(16,3))
Out[40]:
In [41]:
datos_filtrados.ix[:, "Diametro X":"Diametro Y"].boxplot(return_type='axes')
Out[41]:
Mostramos la representación gráfica de la media de las muestras
In [42]:
pd.rolling_mean(datos[columns], 50).plot(subplots=True, figsize=(12,12))
Out[42]:
Comparativa de Diametro X frente a Diametro Y para ver el ratio del filamento
In [43]:
plt.scatter(x=datos['Diametro X [mm]'], y=datos['Diametro Y [mm]'], marker='.')
In [ ]:
datos_filtrados = datos[(datos['Diametro X [mm]'] >= 0.9) & (datos['Diametro Y [mm]'] >= 0.9)]
In [ ]:
plt.scatter(x=datos_filtrados['Diametro X [mm]'], y=datos_filtrados['Diametro Y [mm]'], marker='.')
In [ ]:
ratio = datos_filtrados['Diametro X [mm]']/datos_filtrados['Diametro Y [mm]']
ratio.describe()
In [ ]:
rolling_mean = pd.rolling_mean(ratio, 50)
rolling_std = pd.rolling_std(ratio, 50)
rolling_mean.plot(figsize=(12,6))
# plt.fill_between(ratio, y1=rolling_mean+rolling_std, y2=rolling_mean-rolling_std, alpha=0.5)
ratio.plot(figsize=(12,6), alpha=0.6, ylim=(0.5,1.5))
Calculamos el número de veces que traspasamos unos límites de calidad. $Th^+ = 1.85$ and $Th^- = 1.65$
In [ ]:
Th_u = 1.85
Th_d = 1.65
In [ ]:
data_violations = datos[(datos['Diametro X [mm]'] > Th_u) | (datos['Diametro X [mm]'] < Th_d) |
(datos['Diametro Y [mm]'] > Th_u) | (datos['Diametro Y [mm]'] < Th_d)]
In [ ]:
data_violations.describe()
In [ ]:
data_violations.plot(subplots=True, figsize=(12,12))
In [ ]: