Going to train on 50,000,000 molecules from GDB-17

May later try scraping for all molecules w/ positive charge



In [1]:

    
import matplotlib.pylab as plt
import numpy as np
import seaborn as sns; sns.set()
%matplotlib inline

import keras
from keras.models import Sequential, Model
from keras.layers import Dense
from keras.optimizers import Adam
import salty
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
import numpy as np
from sklearn.model_selection import train_test_split
from random import shuffle
import pandas as pd









    



/home/wesleybeckner/anaconda3/envs/py36/lib/python3.6/site-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.
  from ._conv import register_converters as _register_converters
Using TensorFlow backend.



In [3]:

    
df = pd.read_csv('../../../../../../../GDB17.50000000', names=['smiles'])

only N+ contain positive charges in this dataset



In [4]:

    
df = df[df['smiles'].str.contains("N+", regex=False)]



In [5]:

    
values = df['smiles']
print(values.shape)



In [6]:

    
smile_max_length = values.map(len).max()
print(smile_max_length)

We may want to remove cations with more than 25 heavy atoms



In [7]:

    
plt.hist(values.map(len))









    Out[7]:





(array([1.4000e+01, 8.9000e+01, 1.7810e+03, 7.0240e+03, 1.9826e+04,
        3.7334e+04, 9.1690e+03, 1.4020e+03, 1.1100e+02, 4.6000e+01]),
 array([27. , 29.4, 31.8, 34.2, 36.6, 39. , 41.4, 43.8, 46.2, 48.6, 51. ]),
 <a list of 10 Patch objects>)



In [8]:

    
def pad_smiles(smiles_string, smile_max_length):
     if len(smiles_string) < smile_max_length:
            return smiles_string + " " * (smile_max_length - len(smiles_string))



In [9]:

    
padded_smiles =  [pad_smiles(i, smile_max_length) for i in values if pad_smiles(i, smile_max_length)]



In [10]:

    
shuffle(padded_smiles)



In [11]:

    
def create_char_list(char_set, smile_series):
    for smile in smile_series:
        char_set.update(set(smile))
    return char_set



In [12]:

    
char_set = set()
char_set = create_char_list(char_set, padded_smiles)



In [13]:

    
print(len(char_set))
char_set









    



27






    Out[13]:





{' ',
 '#',
 '(',
 ')',
 '+',
 '-',
 '1',
 '2',
 '3',
 '4',
 '=',
 'B',
 'C',
 'F',
 'H',
 'I',
 'N',
 'O',
 'S',
 '[',
 ']',
 'c',
 'l',
 'n',
 'o',
 'r',
 's'}



In [14]:

    
char_list = list(char_set)
chars_in_dict = len(char_list)
char_to_index = dict((c, i) for i, c in enumerate(char_list))
index_to_char = dict((i, c) for i, c in enumerate(char_list))



In [15]:

    
char_to_index









    Out[15]:





{' ': 9,
 '#': 22,
 '(': 20,
 ')': 14,
 '+': 8,
 '-': 0,
 '1': 25,
 '2': 19,
 '3': 15,
 '4': 2,
 '=': 11,
 'B': 1,
 'C': 21,
 'F': 6,
 'H': 7,
 'I': 4,
 'N': 18,
 'O': 12,
 'S': 13,
 '[': 23,
 ']': 3,
 'c': 26,
 'l': 16,
 'n': 17,
 'o': 5,
 'r': 24,
 's': 10}



In [16]:

    
X_train = np.zeros((len(padded_smiles), smile_max_length, chars_in_dict), dtype=np.float32)



In [17]:

    
X_train.shape









    Out[17]:





(76792, 51, 27)



In [18]:

    
for i, smile in enumerate(padded_smiles):
    for j, char in enumerate(smile):
        X_train[i, j, char_to_index[char]] = 1



In [19]:

    
X_train, X_test = train_test_split(X_train, test_size=0.33, random_state=42)



In [20]:

    
X_train.shape









    Out[20]:





(51450, 51, 27)



In [21]:

    
# need to build RNN to encode. some issues include what the 'embedded dimension' is (vector length of embedded sequence)

so some keras version stuff. 1.0 uses keras.losses to store its loss functions. 2.0 uses objectives. we'll just have to be consistent



In [22]:

    
from keras import backend as K
from keras.objectives import binary_crossentropy #objs or losses
from keras.models import Model
from keras.layers import Input, Dense, Lambda
from keras.layers.core import Dense, Activation, Flatten, RepeatVector
from keras.layers.wrappers import TimeDistributed
from keras.layers.recurrent import GRU
from keras.layers.convolutional import Convolution1D

Here I've adapted the exact architecture used in the paper



In [23]:

    
def Encoder(x, latent_rep_size, smile_max_length, epsilon_std = 0.01):
    h = Convolution1D(9, 9, activation = 'relu', name='conv_1')(x)
    h = Convolution1D(9, 9, activation = 'relu', name='conv_2')(h)
    h = Convolution1D(10, 11, activation = 'relu', name='conv_3')(h)
    h = Flatten(name = 'flatten_1')(h)
    h = Dense(435, activation = 'relu', name = 'dense_1')(h)

    def sampling(args):
        z_mean_, z_log_var_ = args
        batch_size = K.shape(z_mean_)[0]
        epsilon = K.random_normal(shape=(batch_size, latent_rep_size),
                                  mean=0., stddev = epsilon_std)
        return z_mean_ + K.exp(z_log_var_ / 2) * epsilon

    z_mean = Dense(latent_rep_size, name='z_mean', activation = 'linear')(h)
    z_log_var = Dense(latent_rep_size, name='z_log_var', activation = 'linear')(h)

    def vae_loss(x, x_decoded_mean):
        x = K.flatten(x)
        x_decoded_mean = K.flatten(x_decoded_mean)
        xent_loss = smile_max_length * binary_crossentropy(x, x_decoded_mean)
        kl_loss = - 0.5 * K.mean(1 + z_log_var - K.square(z_mean) - \
                                 K.exp(z_log_var), axis = -1)
        return xent_loss + kl_loss

    return (vae_loss, Lambda(sampling, output_shape=(latent_rep_size,),
                             name='lambda')([z_mean, z_log_var]))

def Decoder(z, latent_rep_size, smile_max_length, charset_length):
    h = Dense(latent_rep_size, name='latent_input', activation = 'relu')(z)
    h = RepeatVector(smile_max_length, name='repeat_vector')(h)
    h = GRU(501, return_sequences = True, name='gru_1')(h)
    h = GRU(501, return_sequences = True, name='gru_2')(h)
    h = GRU(501, return_sequences = True, name='gru_3')(h)
    return TimeDistributed(Dense(charset_length, activation='softmax'),
                           name='decoded_mean')(h)



In [24]:

    
x = Input(shape=(smile_max_length, len(char_set)))



In [25]:

    
_, z = Encoder(x, latent_rep_size=292, smile_max_length=smile_max_length)



In [26]:

    
encoder = Model(x, z)

encoded_input looks like a dummy layer here:



In [27]:

    
encoded_input = Input(shape=(292,))



In [28]:

    
decoder = Model(encoded_input, Decoder(encoded_input, latent_rep_size=292,
                                       smile_max_length=smile_max_length,
                 charset_length=len(char_set)))

create a separate autoencoder model that combines the encoder and decoder (I guess the former cells are for accessing those separate parts of the model)



In [29]:

    
x1 = Input(shape=(smile_max_length, len(char_set)), name='input_1')



In [30]:

    
vae_loss, z1 = Encoder(x1, latent_rep_size=292, smile_max_length=smile_max_length)



In [31]:

    
autoencoder = Model(x1, Decoder(z1, latent_rep_size=292,
                                       smile_max_length=smile_max_length,
                 charset_length=len(char_set)))

we compile and fit



In [32]:

    
autoencoder.compile(optimizer='Adam', loss=vae_loss, metrics =['accuracy'])



In [33]:

    
autoencoder.fit(X_train, X_train, shuffle = True, validation_data=(X_test, X_test))









    



Train on 51450 samples, validate on 25342 samples
Epoch 1/1
51450/51450 [==============================] - 904s 18ms/step - loss: 3.8466 - acc: 0.5281 - val_loss: 2.8455 - val_acc: 0.6573






    Out[33]:





<keras.callbacks.History at 0x7ff836e89898>



In [55]:

    
def sample(a, temperature=1.0):
    # helper function to sample an index from a probability array
#     a = np.log(a) / temperature
#     a = np.exp(a) / np.sum(np.exp(a))
#     return np.argmax(np.random.multinomial(1, a, 1))
    # work around from https://github.com/llSourcell/How-to-Generate-Music-Demo/issues/4
    a = np.log(a) / temperature 
    dist = np.exp(a)/np.sum(np.exp(a)) 
    choices = range(len(a)) 
    return np.random.choice(choices, p=dist)



In [56]:

    
values[393977]









    Out[56]:





'CC12C3C4=C(C1CCC23O)C(=CN4)[N+]([O-])=O'



In [57]:

    
test_smi = values[393977]
test_smi = pad_smiles(test_smi, smile_max_length)
Z = np.zeros((1, smile_max_length, len(char_list)), dtype=np.bool)
for t, char in enumerate(test_smi):
    Z[0, t, char_to_index[char]] = 1



In [59]:

    
string = ""
for i in autoencoder.predict(Z):
    for j in i:
        index = sample(j)
        string += index_to_char[index]
print("\n callback guess: " + string)









    



 callback guess: CC(OCCCCC(1CC==C)OC)(=O))111NN+((O--]==



In [60]:

    
properties = ['density', 'cpt', 'viscosity', 'thermal_conductivity',
              'melting_point']
props = properties
devmodel = salty.aggregate_data(props, merge='Union')
devmodel.Data['smiles_string'] = devmodel.Data['smiles-cation']
cations = devmodel.Data['smiles_string'].drop_duplicates()
print(cations.shape)









    



(276,)



In [61]:

    
cations = cations.reset_index(drop=True)



In [62]:

    
test_smi = cations[100]
test_smi = pad_smiles(test_smi, smile_max_length)
Z = np.zeros((1, smile_max_length, len(char_list)), dtype=np.bool)
for t, char in enumerate(test_smi):
    Z[0, t, char_to_index[char]] = 1
test_smi









    Out[62]:





'OCCCCCC([n+]1ccn(c1)C)                             '



In [63]:

    
Z.shape









    Out[63]:





(1, 51, 27)



In [64]:

    
string = ""
for i in autoencoder.predict(Z):
    for j in i:
        index = sample(j)
        string += index_to_char[index]
print("\n callback guess: " + string)









    



 callback guess: CCOC1C=C)C2=CC(NCCC==O))++]([(-]=OO

Alright. So now I'm going to loop through our 276 cations, sample 100x from the decoder based on these representations, and see how many sanitize with the RDKit

Also will for now remove cations with new elements:



In [65]:

    
cations_with_proper_chars = []
for smi in cations:
    if set(smi).issubset(char_list):
        cations_with_proper_chars.append(smi)



In [66]:

    
len(cations_with_proper_chars)









    Out[66]:





251

so we had to remove 25 cations



In [83]:

    
cation_samples = []
for smi_index, smi in enumerate(cations_with_proper_chars):
    smi = pad_smiles(smi, smile_max_length)
    Z = np.zeros((1, smile_max_length, len(char_list)), dtype=np.bool)
    for t, char in enumerate(smi):
        Z[0, t, char_to_index[char]] = 1
    string = ""
    for i in autoencoder.predict(Z):
        for j in i:
            index = sample(j, temperature=0.5)
            string += index_to_char[index]
    cation_samples.append(string)



In [84]:

    
print('sampled cations: {}'.format(len(cation_samples)))
print('unique samples: {}'.format(pd.DataFrame(cation_samples).drop_duplicates().shape[0]))









    



sampled cations: 251
unique samples: 251



In [85]:

    
from rdkit import Chem
from rdkit.Chem import Draw



In [86]:

    
% matplotlib inline
for smi in cation_samples:
    
    try:
        Draw.MolToMPL(Chem.MolFromSmiles(smi))
        print(smi)
    except:
        pass









    



CCCCCCCCNNCCCC=C(NCC11)[N+]([O-])=O                
CCCCC1CCCCCCCC(=CCC1)[N+]([O-])=O                  
CC1CCCCC(CCCCC=NOC1C)[N+]([O-])=O



In [87]:

    
cation_samples









    Out[87]:





['CCNCC(CCCO=N)=CCNCC11)[N+]([O-])=O                 ',
 'CC1CCCCCCC=CCNC=2C1N1)N++]([O-])=O                 ',
 'CCC(CCCC=CC1CCNCCC1111[N+]([O-])=OO                ',
 'CCCCCCCCCNC=CNCN=C=C)[N+]([OO])=OO                 ',
 'CCCCCN=CCCCCC=NNC(1C)[N+][[O-])=O                  ',
 'CCNCCNN=CCNCCCCCC=)[N+]([O--)=OO=C                 ',
 'CCCC1CCCSC(CCCC1=N1[NN]([O-])=O))#O                ',
 'CC(CCC=CCNCN==CCCCCC11)N+]([O-)))=O                ',
 'CCCCC1NN)CCCC(CNC=CC)[++]([O-])=O                  ',
 'CCCCCCCCCCNCCCC(CCNO[NN+([O--)==O                  ',
 'CC1CC=CCN=CC=CCNCNCCC)N++([[O]]==O                 ',
 'CCC==NCCCNCCNCCC(CCC1[[++([O--])=O                 ',
 'CCCCCCNC(CCC=C=CC=CC)[N+]([O-])=OO                 ',
 'CCCCCCCC=CCCC=N=CCC1)[N+](OO-])=O                  ',
 'CCNCCCCCN)C=C)CCC(===1)[N+]([O-])=O                ',
 'CCCCCCCCNNCCCC=C(NCC11)[N+]([O-])=O                ',
 'CCNCCC=)(CNCC1CCCC12NN++([O--))=O                  ',
 'CCCCCCNNCCCNC1CONNN=1[N+]([O-])=OO                 ',
 'CCC=CCCCC(NNCCCCNCCC)[NN+([[O-])=O                 ',
 'CCCCCCCCCC(CCC(CNCC11[N+]([O-])==                  ',
 'CC1CNCCCCC(2=CCCCNCC11[[N+]([O-])=O                ',
 'CCCCCCCCCCNCC=C=)1C[++]([[O]))OO                   ',
 'CC1CCCCN1CCC=CCCC11[N+]([O-]))=O                   ',
 'CCCCCCCCC==NCCC=(=N1C[N+]([O-])=OO                 ',
 'CCC1CCCCCC=C=C=CCNC)1N[N+]([O-])=OO                ',
 'CCCCC1CCCCCCCC(=CCC1)[N+]([O-])=O                  ',
 'CCCCCCC1CCCCCCCC1COC11)[+](([O-])OO                ',
 'CCCC)CCCCCCCCCCNCCCN)N1[N+]([O-])=O                ',
 'CCCC=C)CCCCCNCNCC=CC[[++](O-]]==O                  ',
 'CCCN(CCCCCNCCC=CCCCC))[N](([O-])=O                 ',
 'CC(CCC=CCCCC=CCC)CCCC1[[N+]([O-])=O                ',
 'CCCCCCCC=CCCCCCC=1)[[N+]([O-])=O                   ',
 'CCCCCCCCNC=CN=CN=(NCC))[N+]([O-])=O                ',
 'CC1CCCCC(CCCCC=NOC1C)[N+]([O-])=O                  ',
 'CCC=CCC)C)CCCCCC(CCCC)[N+]([O-])=O                 ',
 'CCCCC(C(CC(CCCC)CCOCOC1)[N+]([O-])=O               ',
 'CC(CCCCC(CCN)CCNCC1=N1[[N+]([O-])=O                ',
 'CCCC)CC((=C=CCC(===CC1)[++]([O-])=O                ',
 'CCCCNNCCCCCCCCCCCCNC))[N+]([O-])=O                 ',
 'CC1NCCCCCN)=CCN(CCC1[N+]([O--)=O                   ',
 'CCCCCCCCCCCCC(=CC=N)[[+]([O-])==O                  ',
 'CCCC=C(CCC=NC=CCCN11[[N+]([O-])=O                  ',
 'CC(CCC1C)CCCCCCNCCCNCCC)[N+]([[-])=O               ',
 'CCC=CCCCCCCC(CCC))CCCC1)[N+]([O-])=O               ',
 'CCC=N=1CCC=CC=CCC=1[[N+]([OO])=O                   ',
 'CC(1CCCCC=CCCCCCNCCN1[[N+]([O-])=O                 ',
 'CCCCCCCC=NC(NC(CCC1C)N++][OO-])=O                  ',
 'CCCC=CCCCCNCCCCNNCCC)[N+]([O-])=OO                 ',
 'CC1CCCNCCCCCNCCC1[NN]][O-])=O=CC#                  ',
 'CCCCCCCN=NC(CCCCCCC11[[N+][[O-])=O                 ',
 'CC1CCCCCNCNCCC=C==CCN)[N+]([O-])=OO                ',
 'CC(1CN)NCN(C=CCCNCCCCCC)[N+]([O-])=O               ',
 'CCCCCCC((11CCCCCCCCC=2)[N+(([O-])=OO               ',
 'CC(C)COCCCNCCO=C)CCCCC1)[++]([O-])OO               ',
 'CCCCC=CNCCCCCCCC=CC1)[N+]([O-])=O                  ',
 'CCCCCNCCCCC(CCNCCCNCC[N+]([O-])=O                  ',
 'CC1OC(CCCC)=CCCC)CCNCOC)[N+]([[-])=O               ',
 'CCC1=CC(NCCCCCNNC=C=NC1)[[+]([O-])=O               ',
 'CC(=CCCCC(C=CC(C(CNNOC1[[N+]([O-])=O               ',
 'CCC=CC(CCC1CCCCCCCC=1)[[++][OO])=OO                ',
 'CCNN(=CCCCCCCCCCN(CCNC[[N+]([O-])=O                ',
 'CCCCCCC(CCC(=CCC=N=)11[[N+]([O-])=O                ',
 'CCC(CNCCC=CNNCC()C11)[N+]([O-]]=O                  ',
 'CC1C(CCN=C1C(NCNCC=N1[N+](OO-])=OO                 ',
 'CCCCC(CCCCCCCCCC=CCC1)[N+]([O-])=O                 ',
 'CCCNCC=C1CCC(CN(CC11)[N+]([O-])=O                  ',
 'CCC2CC=CCCC)CCC=C)[N+]([O-])OOCCC                  ',
 'CCCCCCC1C1CCNCCCCC1[NN]([O-]))=O                   ',
 'CCCCCCC1C(CCC(=CC11[N+]([O--)==O                   ',
 'CCCCCCCCCCCN(CCNC1)[+]][[-]])=OO                   ',
 'CCCCCC(OCNN1CCCC=CC)[N+(([O-])=O                   ',
 'CCCCCNC1CC1CCCCCC1)[N+]([[-])=OO                   ',
 'CCCCCCC((=CCC=CNCCC11)[N+]([O-])=OO                ',
 'CCCCCNC=CCNCNC(==CN1[N+]([O-]))OO                  ',
 'CCNCC(CCC1C1CCCCNOCN==1)[N+]([O-])=O               ',
 'CCCNC1CCC=CC)C)CCCC=OC1)[N+]([O-])==               ',
 'CCCN(NCC1=C=C))OC(==N1))[N+(([O-])=O               ',
 'CCCCCNNC(CC(NCCCCC1[[N+(([O-])=O                   ',
 'CCCCCC=(CNC=CCC=CN1[N+]([O-]))O))=O#               ',
 'CCCC=CC1C1CCCCC=CN1C)NN+]([O-])=O                  ',
 'CCCCC=CCCCNN1(N=CC1[[N+]([O-])=O                   ',
 'CCCCCCCCNNCCCCC==NN=1[[N+]([O-])=OO                ',
 'CCCCCC(CC)CCC)CNCCCC))[N+]([O-])=OO                ',
 'CCCCCNCC(CCCCCCNC)NCCC)[N+]([O-])=O                ',
 'CCCCC(=CCCNCC1CCCCNC===)[N+]([O-])=O               ',
 'CCCCC(CCCCC=CCC(=)(=N1N1)[N+]([[-])=O              ',
 'CC1CCCNCCCCCC=(CNN(CC=1)[N+]([O-])=O               ',
 'CCCCCNNNC=CCNCONCC1)[N+]([O-])=OO                  ',
 'CCCCCNC(CCCCCC==C=11[N+]([O-]))=O                  ',
 'OCCCC)=1)1CCCCCC1CC)[N+]([O-])=OO                  ',
 'CCC=(CCC==CCCC=C1C)[N+]([O-])==O                   ',
 'CC(CCCCCCCCCCC)=1C11[N+]([O-]))OO                  ',
 'CCC(CCC(CC=C1=(CCCN1)[N]]([O-])=O                  ',
 'CC1CCN=CCCCCCCCCC=1[[N]](O--])=O                   ',
 'CCCCCCCCCC(CCCC)CN1)[+]](OO-])=O                   ',
 'CCCCCCCC=COC=CC=1C)[N+]([O-])==O                   ',
 'CC1CCCCCCCCCCCCC(1CCCC)[N+]([O-])=O                ',
 'CCCCCC(C(CC=C)C==CCCC==1)[N+]([O-])=O              ',
 'CCN=CCCCCC=C=CCCNCCOCCC))NN+][[O-]==O              ',
 'CC1NCCCCCCCCCNCCC(CCC1[N+]([O-])=O                 ',
 'CC1C=COCCNCCCC=)CCCC=1)[N+]([O-])=O                ',
 'CCCCCNC1(CC(=CC=CC=CN=N[[N+][[O]])=O               ',
 'CCC(CCCC(CCCCCC(C(CCNN[[+]]([O-])=O                ',
 'CCCCC=CCCCCCN()NCCCC)[N+]([O-])=O                  ',
 'CC(=CC)CCCCCCCNCCCNCCC11[N+]([O]]]=O               ',
 'CC1CCOCCCCCCCCCCCCCC=1)[N+]([O-])OO                ',
 'CCCCC1CCCCCCNCCNCCC1C1)[N+]([O-])=OO               ',
 'CCCCC(COCN==CCCC=C(CC21[[N+]([O-])=O               ',
 'CCC=)C=C(CCCCCCCNC==(=C2)NN]][[--])=O              ',
 'CC1C)NCCC==CCCCCOCCN1N)N+]]([O-])OO                ',
 'CCCCCCNCCCC=C=CCCCCC1)[N+]([O-])=O                 ',
 'CCCCNCCCNCNCCCCCNC1)[N+]([O-])==O                  ',
 'CCCCCCCC(CNCCCC1CCCC))[N+]([O-])=O                 ',
 'CCC=CCCCNN=CCCCCC121)[N+]([O-])==                  ',
 'CCC=CCCC1CCC(=(CCCC(CC1)[N]]([O-])=O               ',
 'CC11CNCCCCCCCCCCCC=1C11)[N+]([O-])=O               ',
 'CCCCCCC==CC)CCCNCC1)[N+]([O-]))OO                  ',
 'CCC(CCCCCNCCCCCCCC=C=1)[N+]([[--)=OO               ',
 'CCCC1CCC1C=CNCCCCC=C=O1)[N+]([OO))=O               ',
 'CC(NNCN11CCCCCCCCNCC1)[N+]([O-])=O                 ',
 'CC(C)C((CCCCCCCCCCC=CC=1)[N+]([O-])==              ',
 'CC1(CCOCCCCCCCCNCCCCC11[[N+]([O-])=O               ',
 'CCCC)CNNC=(CCCCNC=C==C1)[N+]([O-])=O               ',
 'CCCCC==CCCCCC=(CCCCC11)[N+]([O-])=O                ',
 'CCC1CNCCCCCC=CC=C)=CC1[N+]([O-])=OO                ',
 'CCCCCCCCNCCC)=CCC(1=C1)[N+(([O-])=O                ',
 'CC1CN1N=CCCCNCCCCCCCC1[N+]](OO]))=                 ',
 'CCC=C=CCCCCC=CNCCC=C1[[N+]([O-])=O                 ',
 'CCCC1CCCCC=CCCCCCC)[N+]([O-]]==O                   ',
 'CCCCCC(CCCNCNCOCCCC)[N+]([O-])=OO                  ',
 'CCCCCOCC=CCCC(CCC21[[N+]([--])=O                   ',
 'CCCCCCCCCCC=NN=CCCO)[N+](OO-])==O                  ',
 'CCCCC1)N1CCC=N=OCCCC)[N+]([O-])=O                  ',
 'CCNCC(CCCN(CNNCCN1)[N+]([O-]))=                    ',
 'CCCCC=CCC=CCN=CCC11)[N+]([O-])=OO                  ',
 'CCCC11CNCCCCCCCNCCN1[N+]([--])==O                  ',
 'CCCCCCCCC(=CC=CCCCC11)N++([[O-])OO                 ',
 'CCCCCNNCCCCC=)CN=11[N+]([[-])==O                   ',
 'CC1CCN=CCCCCCCN=1C1)[N+]([O-])=O                   ',
 'CCCCCCCCCOCC)CCC=N=1[N+]([O-])=OO                  ',
 'CC1=C(CC((C=)(CCC=C()C)(2=C=22[N+](OO-]))OO=CO     ',
 'CC1CCCCCCCNCCCC=CC=CC)[N++((O-])==                 ',
 'CC1C=CCCCCCCCCCCCN=CC)[N+]([O-])=O                 ',
 'CCCCCCCNCCCCCCC=CCC)[N+]([O-])=OO                  ',
 'CCCCCNC=CCCCCCNCC11[N+]([O-]))=O                   ',
 'CCCCCNC=CCSCCCNCCCC1)[N+]([O-])=O                  ',
 'CCCCCCC=CC==CCCCCCCNC11[N+]([O-])=O                ',
 'CCCC=C=CCCCCCCN(CCCN1)[N+]([O-])=O                 ',
 'CC(1CCNCCN(CCNCC=(CCCC1)[N+]([O-])=O               ',
 'CCC1=CCC=CC=CC)NNCC=C1)[N+]([O-])=O                ',
 'CCNCNCCC1CCCCNCCCCCC1[N++([O-])=OO                 ',
 'CCCCC(CC1NCCONC1CCNN1)[N+]([O-])==O                ',
 'CC1CC1CCCCCC=C=(CCC=NC1[N+]([O-])=O                ',
 'CCCN=(CCCCC=CCC(CN==C1)[N+]([O-])=O                ',
 'CC(CC==C=CCNCNCCC=C1[N+]([O-]))O                   ',
 'COCCC(CCCCCCNCCC=1N)[N+]([OO])=O                   ',
 'CCCCCCCCCOCCCCCNNCC1)[N+]([O-])=O                  ',
 'CC(C=(CCC((CC1CCCFCC=CN1C[N+]([[-])==O             ',
 'CCN(CCCC(CCC(==CO(CC11[[N+]([O-])=O                ',
 'CN(C(CCCC(C=CC=CCCCC=C1[[N+]([O-])=O               ',
 'CCOCC)CC1NC=(CNCC111[N+]][O-])=OO                  ',
 'CCNCC1C(1C1CCNCCCCC=N1)[N+]][O-])=O                ',
 'CCCCN(NCCCCCCCC=CC(=1C)NN+]([O-])=O                ',
 'CCCNCCCC(CNCCC(CCNCCCC)[N+]([O-])=O                ',
 'CC1CCCN1C=CCCNC=CC=1))[N]]([O-])=O                 ',
 'CCC(CCCCCCCCCNC)C)NNC=1))N+]([O-])=O               ',
 'CCCCC==CCCNOCCCCC(N=))[N+]([O-])=OO                ',
 'CC1OCCCC=C1CC)1CCCCNNC1)[N+]([O-]]=O               ',
 'CCN=C=1NCC(=CNNCC)2CN11)[N+]([O-])=O               ',
 'CC1(CCCCCCCC)CC1CCCCCCC1[N+]([O]])==               ',
 'CCCCNCCCCCCCCCCCNCC)[N+]([O-])=OO                  ',
 'CCNCCC1=CC)=CN1C(NC11[N+]([O-])=OO                 ',
 'CCCC(CCCCNCC=CCCC1)[N+]([O-])=OO                   ',
 'CCCCCCCCO=1CCCC=CC1N[NN+]([O-])=O                  ',
 'CCNCCCCC=CCCCCCCCCCC1)[N+]([O-])=O                 ',
 'CCC1C(C=(=NCCNCC=NCCC1))[N+]([O-])=O               ',
 'CCCCCCOC(=CCN))CCCC1C1)[N+]([O-])=OO               ',
 'CCCCC(CNCCCCCC)CC=CC2N[N+]([O-])=OO                ',
 'CCCCCCCCOCCCCC=CCCCCN1))N+]([O-])=O                ',
 'CCCCC(CCCCNCC((NCC=C1[[N]]([O-])=O                 ',
 'CC1NC)=CN=(CC2CNNC=CC1)[N+]([O-])=OO               ',
 'CC1CNOCCCCCC(CCCC=CC1[NN+][O-])=OO                 ',
 'CCCCNCCCCCCCCCCCCCC1[N+]([O-]))OO                  ',
 'CCCCCCCCCCNCC1CNCNC1[N+]((O-])==O                  ',
 'CCC=CCCCCN(CCCCC(CCN1)[N+]([O-])=OO                ',
 'CCCCC11CCCCN==C(C111[N+]([O-])=O                   ',
 'CCCCCCCCCNCNC=C(CCCCC1[[N+](OO-])=O                ',
 'CC((CCCCC2CCN(C(CCCC111)[N+]([[O]))=               ',
 'CCCCCCCNCC=CC=C=C)C=))[N+]([O-])=O                 ',
 'CCN(CC1CCCOC((CC(CNCC11[NN](([-]])=O               ',
 'CC(NCC=CC1CCCC()CNCC1)[[N+]([O-])=O                ',
 'CCNCC1CCC=CCNCCC)==CN11[N+]([O-])=O                ',
 'CCCCCCCCC(=C(CCCCCNN11[[N]][[O-])=O                ',
 'CNCCCN(NCCCCCNCCC1)[N+]([O-]))=O                   ',
 'CC(CCNCCCCCC=C(CCC=NC1)[N+]([O-])=O                ',
 'CC(C=CNCNCCNCCNCN1CCN=))NN]]([]-])=O               ',
 'CCCCC(C1C1CCNC(NCCC1C[N+]([O-])=OO                 ',
 'CCCCCCNN=CCCCCCN(C12[N+]((O-])=OO                  ',
 'CC(CCCCCCCCCCC1CC(N11[N+]([[-])=O                  ',
 'CC(CCC=CCC1NC(CCCC=1N11)[N+]([O-])=O               ',
 'CCCCCCCCC1(CCCNCNC===)))[N+]([O-])=O               ',
 'CCC1CC(NCC(===CCC11[[N]][[--])=O                   ',
 'CCCCCCCN(CNCC2CCC==C11[N+]([OO])=O                 ',
 'CCCCNCCCC1CC=CC1C=C1)N+]](O--])=O                  ',
 'CC1CC1CCCCC(CCSCNC31)N+]([O--]==O                  ',
 'CCCCCCCCCCCCCNC=CC=)11)[N+]([O-])=O                ',
 'CCC(CCCCCOCC(CCCNCCC11[N+]([O-])=O                 ',
 'CCC=C2CCCCC1=(CNCCCCC)1[N+]([O--)=O                ',
 'CCC(=C1NCCNCNN=C)CC=(C111[[++]([O-])=O             ',
 'CC11CC=)CCC=(NCC)=CCC1)[N]]([O-])=OO               ',
 'CC(CCCCCCCCC==CCCCNCC=N)[N+]([O-])=O               ',
 'CCO1=CCCCCNC(==CC11)[N+]([O-])=OO                  ',
 'CCCCCC=(NNCCNC11[N+]([-O])==O=                     ',
 'CCCCN=CCC=CC==CCCCC=C1)NN+]([O-])=O                ',
 'CCNC=CCNN(CCCCCNCCN1)[N+]([O-])=OO                 ',
 'CC1CC==1CCNCNCCC=CC)[N+]([O-])=OO                  ',
 'CCCCCC1(CCCCCC==C)[N+]((OO])=OO))OC                ',
 'CCCCCCCCCNCOC==CCC=C1)[N+]([O-]]=OO                ',
 'CCC1NCC1CCCCCCNONC=N1)[N+(([O-])=O                 ',
 'CCCCCCC(NC1CNCCN(=N1[NN]([O-])=O                   ',
 'CC1C=OCC(CNCCCCCCCC=))[N+]([O-])=O                 ',
 'CCNCCOCNCCCCCCNCCC==NN)NN+]([O-])=O                ',
 'CCCCCCCC=CC=)C=CC(CNC))N+]]([O]])OO                ',
 'CCCC=CCCCC=CCCCCCCC1C1[N+]([O-])=O                 ',
 'CCNCC(CCCC)(CC=CCC11[N+]((OO]])=O                  ',
 'CCC1CCCCCCNCNCCCNC==C1[N+]]([O-])=O                ',
 'CCCCCN(CC1N=CNC=CCC21[[++]([O-])=O                 ',
 'CCCC1C(CC1CC==OCC1)[N+]([[-])=O                    ',
 'CC1C(=CCCCCCC=C(ONC))N+]([O-])=O                   ',
 'CCCCCCCCCC)NCCCCC=CCN=)[NN]([[-]])=O               ',
 'CC1(CCCCCC(CCC(C)CC=1)[N+]((OO])=OO                ',
 'CCCCCNCC=CNCCC(CCC21[N++]([--]==O                  ',
 'CCCCC=CCNCCN===(C==1[N+]([O-])=OO                  ',
 'CCC=CCNCCCC)CNCCNCC))N+]([O-]))O                   ',
 'CCCCCCC==CC(1CCC11)[N+]([O-])=OO                   ',
 'CCNCCCCCCCNCC=C=(NNCC1)[N+]([O-])=O                ',
 'CCC=CCC(CCCCCCCCCCO1[[N+]([O-])=O                  ',
 'CC1C=CCCN(CC(C=CCCNC1))[N]((OO-))=OCOO             ',
 'CCC1CC==CNCCCCCC=)CC11)[N+](OO-]]=O                ',
 'CC1CCCNCCC(CC)C)CCNNC1[[N]]([O-])=O                ',
 'CCC(NC11C=NCCNCC(=C111[[N+]([O-])=O                ',
 'CCCCCCNCNCC(=CCCCCCN))[N+]([O-])=O                 ',
 'CCCC=CCCCCC=NCCCCC11[N+]([O-]])=O                  ',
 'CC1CCCC==CCCC()CCCC=)[N+]](O-])=OO                 ',
 'CC(N=CC)C1CCNC=C=CCO1C[NN+](O-]])=O                ',
 'CCCCCC=CCCCCCCCC=C=NC)[++]([O--)=O                 ',
 'CCCCC(CCCCCCCCCCC11[[N+]([O-])=O                   ',
 'CC1CCN(=C=CCCNOCCC[[N+]([O-])=OO                   ',
 'CC1CCC(C(=CCCNCCCCCNCN1)[+]][[--])=O               ',
 'CCCNCCNCCCNC=CCCCCC)1[NN]][[O]]==O                 ',
 'CCCC(CNC1CN=CCC=CC1[[N+]([O-])=OO                  ']



In [ ]: