In [1]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
%matplotlib inline
In [40]:
n=np.random.normal(10,6,100)
n1=np.random.normal(5,7,100)
In [3]:
sns.distplot(n)
sns.distplot(n1)
Out[3]:
In [41]:
import matplotlib.pyplot as plt
plt.scatter(n,n1)
Out[41]:
In [45]:
data = pd.DataFrame({'x':n, 'y':n1})
data.head()
Out[45]:
In [50]:
sns.lmplot('x', 'y', data)
Out[50]:
In [69]:
y=12+72*n+ np.random.normal(0,500,100)
In [70]:
data = pd.DataFrame({'x':n, 'y':y})
sns.lmplot('x', 'y', data)
Out[70]:
Se importan las librerias necesarias para trabajar
In [4]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
sns.set()
%matplotlib inline
Se llama el archivo con los datos a trabajar, los cuales son una lista de genes normalizados asociados al cancer y un numero n de pacientes a los cuales se les hizo un analisis de expresion de estos genes mediante mRNAseq, por lo que para cada gen y persona se encuentra el número de reads correspondientes.
In [5]:
df= pd.read_table('C:/Users/Alex/Documents/eafit/semestres/X semestre/programacion/gdac/LUAD.txt', sep='\t')
pd.set_option('display.mpl_style', 'default')
In [6]:
df=df.convert_objects(convert_dates=True, convert_numeric=True)
df=df.drop([0])
In [7]:
df.head()
Out[7]:
In [8]:
p1=df['TCGA-05-4244-01A-01R-1107-07']
p1[:5]
p1 = pd.to_numeric(p1)
type(p1)
sns.distplot(p1)
Out[8]:
In [9]:
gen1=df[df['Hybridization REF']=='?|10431']
gen1=gen1.drop('Hybridization REF', 1)
#gen1=gen1.values.astype(float).tolist()
gen2=df[df['Hybridization REF']=='tAKR|389932']
gen2=gen2.drop('Hybridization REF', 1)
#gen2=gen2.values.astype(float).tolist()
In [10]:
sns.distplot(gen1)
sns.distplot(gen2)
Out[10]:
In [11]:
df2=df.ix[:,'TCGA-05-4244-01A-01R-1107-07':]
a=df2.max(axis=0)
#a.min
In [12]:
#df['TCGA-05-4244-01A-01R-1107-07'].value_counts()
Se seleccionan los genes que posean mas de cien mil reads
In [13]:
maximo=df.loc[df.ix[:,1] > 100000 ]
gen_list=maximo['Hybridization REF'].values.tolist()
gen_list
#maximo
Out[13]:
In [14]:
sns.boxplot(x="Hybridization REF", y= 'TCGA-05-4389-01A-01R-1206-07', data=maximo, palette="PRGn") #mirar cuantos pacientes presentan un gen mas expresado que otro
Out[14]:
Se realiza un grafico de distribuciones de los 5 genes que fueron los que mas reads presentaron
In [15]:
for i in range(len(gen_list)):
name=gen_list[i]
gen1=df[df['Hybridization REF']== name].ix[:,'TCGA-05-4244-01A-01R-1107-07':]
sns.distplot(gen1)
In [16]:
genes=df.loc[df.ix[:,1] > 100000 ]
genes
Out[16]:
In [17]:
g = sns.factorplot(x='Hybridization REF', data=genes, kind="count",
palette="BuPu", size=6, aspect=1.5)
g.set_xticklabels(step=2)
genes
Out[17]:
In [ ]:
maximo = maximo.set_index('Hybridization REF')
In [22]:
maximo1 = maximo.transpose()
maximo1.head()
Out[22]:
In [34]:
sns.violinplot(maximo1[['ACTB|60']])
Out[34]:
In [25]:
import matplotlib.pyplot as plt
maximo1=maximo.transpose()
gen_list=maximo1.ix[1:].as_matrix()
plt.boxplot(gen_list,1)
gen_list
Out[25]:
In [108]:
print(maximo.mean(1))
print (maximo.std(1))
In [136]:
gen2=df[df['Hybridization REF']=='SFTPB|6439']
gen2=gen2.drop('Hybridization REF',1)
gen2=gen2.values.tolist()
plt.boxplot(gen2)
Out[136]: