Recientemente se ha confirmado que el cancer de mama resulta de desordenes moleculares complejos. El análisis del perfil de expresión de genes ha facilitado el estdudio de grandes volumenes de genes que se expresan en tejidos enfermos, con el fin de desarrollar una firma que pueda eventualmente ser leída en otros pacientes para establecer un pronostico. En este trabajo se analizan tres parejas genes que están particualarmente relacionados con cancer de mama en pacientes con de una base de datos de 293 pacientes enfermos, por medio de aproximaciones estadisticas con algunos paquetes y librerías de Python. Las pareja de genes BRCA1/2 no muestra correlación, pero un porcentaje importante de la población presenta una expresión casi nula. De la pareja de genes ERBB2/ERBB2IP solo el gen ERBB2IP mostró una baja expresión y no presentaron correlación. Finalmente, los genes GSTM1/TP53 presentan ambos muy baja expresión, sin embargo la expresión baja del gen TP53 es mucho más constante en la mayoría de la población.
El cancer de mama no es una única enfermedad con características morfológicas variables, sino que se trata de un grupo de desordenes neoplásicos molecularmente diferentes (Sotiriou & Pusztai, 2009). Es por esto que la expresión variable de múltiples genes puede estar involucrada en el origen del cancer de mama. De este modo se proseguido a realizar un anñalisis de genes que potencialmente pueden estar involucrados en el cancer de mama.
La expresión del gen BRCA1, por ejemplo, es importante para la reparación del ADN y para la activación de los puntos de control en el ciclo celular (Sotiriou & Pusztai, 2009), además las mutaciones no solo en el gen BRCA1, sino también en el gen BRCA2 son raras y altamente penetrantes, pero solo explican el 5% de los casos (Dunning et al, 1999).
Por otro lado, se halló que la supresión del gen GSTM1 está asociada significativamente con cancer de mama postmenopausico (Dunning et al, 1999). A pesar de que no se conce en detalle el origen de las muestras del presente trabajo por cuestiones de confidencialidad, es posible que estas se hallan obtenido de individuos con edad avanzado o al menos con un caso de cancer avanzada, lo que nos ha llevado a relizar un análisis de este gen.
El gen TP53 es un gen supresor de tumores, cuya proteína es producida en respuesta al daño del ADN, causando un arresto del ciclo celular en la fase G1 y la inducción de rutas de reparación o de apoptosis (Dunning et al, 1999). Tanto el gen GSTM1 y TP53 son supresores de cancer y se espera observar bajos niveles de expresión entre las muestras.
Finalmente, la expresión del gen ERBB2 esta relacionada con carcinomas HER2-positivos, así como también otros genes de la misma familia como el ERBB2IP (Sotiriou & Pusztai, 2009).
Así pues,de acuerdo con los antecedentes y dado que estos genes son de importancia para la no generación de tumores se espera que al evaluar, en un diseño pareado, la expresión de los genes BRCA1/2, GSTM1/TP53 y ERBB2/ERBB2IP sea baja, de lo contrario se estaría hablando de otros genes que pueden estar involucrados mayormente. Para alncazar este objetivo se condujeron varios análisis utilizando diferentes librerías de Python.
Se obtuvo finalmente que...
Para este anális se contó con varias librerias de Python como Pandas, Matplotlib, Seaborn. La librería Pandas permitió trabajar con tablas de datos que se leyeron como formato .csv para eventualmente vizualizar los datos por medio de librerías como Seaborn o Matplot y eventualmente conducir los análisis con las funciones de cada librería.
Los datos fueron obtenidos a partir de la base de datos del Broadinstitute como expresión de secuencias de ARNm de pacientes con cancer de mama. Y los análisis se condujeron en parejas de genes: BRCA1/2, GSTM1/TP53 y ERBB2/ERBB2IP, que se esperaba tenían una relación.
Para el uso de las librerías se importaron al cuaderno de la siguiente manera:
In [1]:
%matplotlib inline
import pandas as pd # Librería para trabajar con bases y tablas de datos
import numpy as np #libreria de datos numericos
import matplotlib.pyplot as plt # Librearia que permite realizar algunos análisis matemáticos y graficar
import seaborn as sns # Librería que permite la visualización de datos
Una vez importado el paquete $pandas$ como $pd$ el se nombró el objeto DF como la tabla de datos que se descargo de la base de datos del $Broadinstitute$.
In [2]:
DF = pd.read_csv('/Users/camilogarcia/Downloads/gdac.broadinstitute.org_BRCA.Merge_rnaseq__illuminahiseq_rnaseq__unc_edu__Level_3__gene_expression__data.Level_3.2016012800.0.0/BRCA.rnaseq__illuminahiseq_rnaseq__unc_edu__Level_3__gene_expression__data.data.txt', sep='\t')
DF.head(5)
Out[2]:
In [3]:
# Tabla de datos de los genes BRCA1|672 y BRCA2|675
BRCA_Genes = DF[DF['Hybridization REF'].isin(['BRCA1|672', 'BRCA2|675'])]
BRCA_Genes = BRCA_Genes.set_index('Hybridization REF')
BRCA_Genes = BRCA_Genes.iloc[:,range(2,879,3)]
BRCA_Genes
Out[3]:
In [4]:
# Tabla de datos de los genes ERBB2|2064 y ERBB2IP|55914
ERBB_Genes = DF[DF['Hybridization REF'].isin(['ERBB2|2064', 'ERBB2IP|55914'])]
ERBB_Genes = ERBB_Genes.set_index('Hybridization REF')
ERBB_Genes = ERBB_Genes.iloc[:,range(2,879,3)]
ERBB_Genes
Out[4]:
In [5]:
# Tabla de datos de los genes TP53|7157 y GSTM1|2944
TP__GS_Genes = DF[DF['Hybridization REF'].isin(['TP53|7157', 'GSTM1|2944'])]
TP__GS_Genes = TP__GS_Genes.set_index('Hybridization REF')
TP__GS_Genes = TP__GS_Genes.iloc[:,range(2,879,3)]
TP__GS_Genes
Out[5]:
In [6]:
BRCA_GT = BRCA_Genes.transpose()
plt.scatter(BRCA_Genes.iloc[0,:],BRCA_Genes.iloc[1,:])
plt.xlabel("BRCA1|672")
plt.ylabel('BRCA2|675')
plt.title('BRCA1|672 vs. BRCA2|675')
sns.despine()
In [7]:
ERBB_GT = ERBB_Genes.transpose()
fig2 = plt.scatter(ERBB_GT.iloc[:,0],ERBB_GT.iloc[:,1])
plt.xlabel("ERBB2IP|55914")
plt.ylabel('ERBB2|2064')
plt.title('ERBB2IP|55914 vs. ERBB2|2064')
sns.despine()
In [8]:
TP__GS_GT = TP__GS_Genes.transpose()
plt.scatter(TP__GS_Genes.iloc[0,:],TP__GS_Genes.iloc[1,:])
plt.xlabel("TP53|7157")
plt.ylabel('GSTM1|2944')
plt.title('TP53|7157 vs. GSTM1|2944')
sns.despine()
Las distribuciones de las parejas de genes no siguen, al parecer, ningún tipo de correlación. Sin embargo La expresión de cada pareja puede ser diferencial, en consecuencia el siguiente paso es el análisis de estas expresiones en todos los individuos utilizando la Libreria Seaborn.
In [9]:
for i, r in BRCA_Genes.iterrows():
fig4 = sns.distplot(r.values, label=i, axlabel= 'RPKM')
sns.plt.legend()
sns.despine()
De la primera grafica de distribucion en donde se compraran la expresión de genes BRCA1|672 y BRCA2|675 en toda la población muestreada, se observa que ambos muestran un rango de expresión que ocsila entre 0 y 30 RPKM. No obstante, en la mayoría de la población con un 70% parece estar presentando unos niveles de expresión del gen BRCA2|675 mucho menores que ocsilan entre 0 y 4 RPKM. La distribución en la expresión del gen BRCA1|672, parece estar más variable en la población muestreada.
In [10]:
for i, r in ERBB_Genes.iterrows():
sns.distplot(r.values, label=i, axlabel= 'RPKM')
sns.plt.legend()
sns.despine()
Por otro lado, la expresión de los genes ERBB2IP|55914 y ERBB2|2064 muestra una distribución mucho más variable. Por ejemplo, la expresión del gen ERBB2|2064 alcnaza inclusive valores de expresión de aproximadamente 1600 RPKM. No obstante, los valores bajos de expresión del gen ERBB2|2064, parecen solo estar a la vez presentes en un porcentaje muy bajo de la población, que es aporximadamente el 6%. En otras palabras las expresión del gen ERBB2|2064 parece tener valores altos en gran porcentaje de la población.
La distribución de los valores de expresión del gen ERBB2IP|55914, al contrario de los del gen ERBB2|2064, parecen ser menos variables, alcanzando valores de expresión hasta aproximadamente los 100 RPKM. Sin embargo siguen siendo estables dentro de ese rango, puesto que la densidad de probabilidad no sobrepasa el 6 % en los valores de expresión más expresados.
In [11]:
for i, r in TP__GS_Genes.iterrows():
sns.distplot(r.values, label=i, axlabel= 'RPKM')
sns.plt.legend()
sns.despine()
Por último en el análisis de distribución de los valores de expresión, se obtuvo que los genes TP53|7157 y GSTM1|2944 tienen unas distribuciones similares. Sin embargo el modo de distribución de los valores de expresión del gen GSTM1|2944 parece estár más corrido hacia la izquierza o casi 0, pero a la vez presenta aún mucha variabilidad que alcanza hasta valores de casi 700 RPKM.
El gen TP53|7157 presenta una variabilidad menor con valores de expresión que alcanzan los 200 RPKM, sin embargo puede observarse también que la densidad más alta de probabilidad no supera el 2%, lo que indica que su expresión es también muy variable en la población.
Las distribuciones anteriores arrojan información importante que permite afirmar que existe o no variabilidad entre los niveles de expresión de las parejas de genes establecidas. Sin embargo, algunos datos pueden estar enmascarando cómo todos los otros datos realmente se comportan. En este análisis de diferencias significativas se graficaron se revelan que datos se comportan de manera alejada a la media de los datos.
In [12]:
fig1 = sns.boxplot(data = BRCA_GT)
sns.swarmplot(data=BRCA_GT, color=".25")
sns.despine()
Para los genes BRCA1|672 y BRCA2|675 se observa que la media de los valores de expresión es de aproximadamente 4 RPKM y 2 RPKM. No obstante para BRCA1|672, a pesar de que el 50% de los valores de expresión en la población se halla entre 3 y 6 RPKM, pueden observarse gran cantidad de valores que superan el tercer cuantil. En cambio, los valores de expresión del gen BRCA2|675 son menores (1-2 RPKM para el 50% de los datos) y presentan menos valores alejados de la media.
In [13]:
sns.boxplot(data = ERBB_GT)
sns.swarmplot(data=ERBB_GT, color=".25")
sns.despine()
In [14]:
sns.boxplot(data = ERBB_GT.iloc[:,0])
sns.swarmplot(data=ERBB_GT.iloc[:,0], color=".25")
sns.despine()
La grafica anteriror muestra que el 50% de los valores de lectura de la expresión del gen ERBB2IP|55914 varían entre 10 y 20 RPKM. Además, solo se presentan cuatro datos alejados del tercer cuantil.
In [15]:
sns.boxplot(data = ERBB_GT.iloc[:,1])
sns.swarmplot(data=ERBB_GT.iloc[:,1], color=".25")
sns.despine()
En contraste, los valores de expresión del gen ERBB2|2064 muestran unavariabilidad más importante entre 20 y 100 RPKM y a también una importante cantidad de datos por fuera del tecer cuantil, tan alejados que inclusive alcanzan valores de 1600 RPKM.
In [16]:
sns.boxplot(data = TP__GS_GT)
sns.swarmplot(data=TP__GS_GT, color=".25")
sns.despine()
Finalmente, de la gráfica anterior se puede ver que el 50% de los individuos muestran en promedio 50 RPKM de expresión del gen TP53|7157, pero con importante variabilidad, empero hay una gran cantidad de datos cuya expresión se situa en la linea 0. Mientras que los valores de expresión del GSTM1|2944, si bien son poco variables y ocsilan en expresiones medias entre los 30 y 60 RPKM, no se observa una linea de 0 expresión.
Si bien exite una relación registrada de efectos carcinogenicos de la supresión compartida de la pareja de genes BRCA1|672 y BRCA2|675 (Dunning et al, 1999; Sotiriou & Pusztai, 2009), al observar el análisis de correlación de los valores de RPKM de ellos, no se halló un patrón claro. No obstante, al observar sus distribuciones se obtuvo que la expresión del gen BRCA2|675 está fuertemente reducida en 70% de la población analizada, en contraste con otros genes evaluados como el ERBB2|2064 que muestra datos con valores de expresión de hasta 1600 RPKM. Así mismo al observaar la distribución de los valores de expresión del gen BRCA1|672, aunque hay menos de 20% de la población con valores entre 0 y 5 RPKM, los máximo valores que alcnzan son de aproximadamente 25 RPKM en un dato alejado del tercer cuantil (ver Boxplot del gen BRCA1|672). En consecuencia, los genes BRCA1|672 y BRCA2|675, puede decirse que presentan una muy baja expresión en el en la muestra evaluada y pueden ser fuente molecular del cancer de mama de la mayoría de los individuos evaluados.
En cuanto al gen ERBB2IP|55914, si bien se esperaba una fuerte relación con la expresión del gen ERBB2|2064 (Dunning et al, 1999), fue primeramente cuestionada al no observarse ningún patrón de correlación por el análisis de dispersión. Al conducir los análisis de distribución de la pareja ERBB2IP|55914/ERBB2|2064 se observó una gran diferencia en las distribuciones de los valores de expresión, diferencia en la que la expresión del gen ERBB2IP|55914 se mostró mucho menos variable que la del gen primeramente asociado ERBB2|2064. Esta diferencia, pudo haber enmascarado los valores bajos de expresión del gen ERBB2IP|55914, dado que es posible que la distribución de la expresión del gen ERBB2|2064 se haya extendido a valores extremos por la presencia de algún dato raro con una alta expresión. Al observar por separado los graficos de cajas y bigotes se encontrar que la expresión del gen ERBB2IP|55914 varían entre 10 y 20 RPKM, mientras que los valores de expresión del gen ERBB2|2064 son muy variables.
Por último, los valores de expresión de los genes TP53|7157 GSTM1|2944 presentaron ambos mucha variabilidad, sin embargo los valores de expresión fueron muy consistentes con la baja expresión esperada. Al observar los graficos de cajas y bigotes de estos genes puede decirse que el gen GSTM1|2944 muestra una expresión muy variable, pero en valores bajos, mientras que el gen TP53|7157 muestra valores bajos pero consistentes en gran cantidad de la población.
A modo de primera conclusión los valores de la expresión de los genes BRCA1|672 y BRCA2|675 no exhiben ninguna correlación, pero son muy bajos entre 0 y 5 RPKM en la mayoria de la población, y en consecuencia pueden ser causantes del cancer de mama en los pacientes analizados.
En segundo lugar, los genes ERBB2|2064/ERBB2IP|55914 no muestran ninguna correlación y solo el gen ERBB2IP|55914, parece estar involucrado en la generación de cancer de mama en la población.
Y a modo de colofón, los genes TP53|7157 GSTM1|2944, tampoco mostraron correlación en sus expresiones y se observó una menor expresión constante en la población del gen TP53|7157, aunque aun con valores muy lejanos de la media.
Sotiriou, C., & Pusztai, L. (2009). Gene-expression signatures in breast cancer. New England Journal of Medicine, 360(8), 790-800.
Dunning, A. M., Healey, C. S., Pharoah, P. D., Teare, M. D., Ponder, B. A., & Easton, D. F. (1999). A systematic review of genetic polymorphisms and breast cancer risk. Cancer Epidemiology and Prevention Biomarkers, 8(10), 843-854.