In [1]:
import numpy as np
import scipy.io as sio

In [2]:
nips_data = sio.loadmat('/Users/lucasbrunialti/Downloads/nips_1-17.mat')
nips_data


Out[2]:
{'__globals__': [],
 '__header__': 'MATLAB 5.0 MAT-file, Platform: GLNX86, Created on: Sun Jan 16 11:49:33 2005',
 '__version__': '1.0',
 'authors_names': array([[array([u'Aazhang_B'], 
       dtype='<U9'),
         array([u'Abbeel_P'], 
       dtype='<U8'),
         array([u'Abbott_L'], 
       dtype='<U8'), ...,
         array([u'van-den-Bosch_A'], 
       dtype='<U15'),
         array([u'van-der-Merwe_R'], 
       dtype='<U15'),
         array([u'von-zur-Muhlen_A'], 
       dtype='<U16')]], dtype=object),
 'aw_counts': <14036x2865 sparse matrix of type '<type 'numpy.float64'>'
 	with 2302716 stored elements in Compressed Sparse Column format>,
 'counts': <14036x2484 sparse matrix of type '<type 'numpy.uint8'>'
 	with 1304438 stored elements in Compressed Sparse Column format>,
 'docs_authors': <2484x2865 sparse matrix of type '<type 'numpy.uint8'>'
 	with 5879 stored elements in Compressed Sparse Column format>,
 'docs_names': array([[array([u'1987/0001'], 
       dtype='<U9'),
         array([u'1987/0009'], 
       dtype='<U9'),
         array([u'1987/0022'], 
       dtype='<U9'), ...,
         array([u'2003/VM13'], 
       dtype='<U9'),
         array([u'2003/VM14'], 
       dtype='<U9'),
         array([u'2003/VM15'], 
       dtype='<U9')]], dtype=object),
 'words': array([[array([u'aaa'], 
       dtype='<U3'),
         array([u'aaai'], 
       dtype='<U4'),
         array([u'aat'], 
       dtype='<U3'), ...,
         array([u'zur'], 
       dtype='<U3'),
         array([u'zurich'], 
       dtype='<U6'),
         array([u'zxt'], 
       dtype='<U3')]], dtype=object)}

In [3]:
words = [w_c[0] for w_c in nips_data['words'][0]]
print 'Num words: %s' % len(words)


Num words: 14036

In [4]:
docs_names = [title[0] for title in nips_data['docs_names'][0]]
print docs_names
print 'Num docs: %s' % len(docs_names)


[u'1987/0001', u'1987/0009', u'1987/0022', u'1987/0031', u'1987/0041', u'1987/0052', u'1987/0062', u'1987/0072', u'1987/0082', u'1987/0095', u'1987/0103', u'1987/0114', u'1987/0127', u'1987/0137', u'1987/0144', u'1987/0154', u'1987/0164', u'1987/0174', u'1987/0184', u'1987/0192', u'1987/0201', u'1987/0211', u'1987/0219', u'1987/0223', u'1987/0233', u'1987/0242', u'1987/0249', u'1987/0262', u'1987/0270', u'1987/0278', u'1987/0290', u'1987/0297', u'1987/0301', u'1987/0310', u'1987/0317', u'1987/0338', u'1987/0348', u'1987/0358', u'1987/0367', u'1987/0377', u'1987/0387', u'1987/0397', u'1987/0402', u'1987/0412', u'1987/0422', u'1987/0432', u'1987/0442', u'1987/0457', u'1987/0467', u'1987/0474', u'1987/0485', u'1987/0495', u'1987/0505', u'1987/0515', u'1987/0524', u'1987/0534', u'1987/0544', u'1987/0554', u'1987/0564', u'1987/0573', u'1987/0584', u'1987/0592', u'1987/0602', u'1987/0612', u'1987/0622', u'1987/0632', u'1987/0642', u'1987/0652', u'1987/0662', u'1987/0674', u'1987/0683', u'1987/0693', u'1987/0701', u'1987/0709', u'1987/0715', u'1987/0730', u'1987/0740', u'1987/0750', u'1987/0760', u'1987/0767', u'1987/0775', u'1987/0783', u'1987/0794', u'1987/0804', u'1987/0814', u'1987/0824', u'1987/0830', u'1987/0840', u'1987/0850', u'1987/0860', u'1988/0002', u'1988/0011', u'1988/0020', u'1988/0029', u'1988/0040', u'1988/0049', u'1988/0057', u'1988/0065', u'1988/0073', u'1988/0081', u'1988/0091', u'1988/0099', u'1988/0107', u'1988/0116', u'1988/0124', u'1988/0133', u'1988/0141', u'1988/0149', u'1988/0160', u'1988/0169', u'1988/0177', u'1988/0186', u'1988/0195', u'1988/0206', u'1988/0215', u'1988/0224', u'1988/0232', u'1988/0240', u'1988/0248', u'1988/0256', u'1988/0264', u'1988/0272', u'1988/0281', u'1988/0289', u'1988/0297', u'1988/0305', u'1988/0314', u'1988/0323', u'1988/0332', u'1988/0340', u'1988/0348', u'1988/0356', u'1988/0366', u'1988/0375', u'1988/0384', u'1988/0394', u'1988/0402', u'1988/0410', u'1988/0419', u'1988/0436', u'1988/0444', u'1988/0451', u'1988/0459', u'1988/0468', u'1988/0477', u'1988/0485', u'1988/0494', u'1988/0502', u'1988/0511', u'1988/0519', u'1988/0527', u'1988/0537', u'1988/0545', u'1988/0553', u'1988/0560', u'1988/0568', u'1988/0577', u'1988/0586', u'1988/0594', u'1988/0602', u'1988/0610', u'1988/0618', u'1988/0626', u'1988/0634', u'1988/0643', u'1988/0653', u'1988/0662', u'1988/0671', u'1988/0678', u'1988/0687', u'1988/0695', u'1988/0703', u'1988/0712', u'1988/0720', u'1988/0728', u'1988/0739', u'1988/0748', u'1988/0761', u'1988/0769', u'1988/0777', u'1988/0785', u'1988/0794', u'1988/0795', u'1988/0796', u'1988/0802', u'1989/0002', u'1989/0010', u'1989/0018', u'1989/0028', u'1989/0036', u'1989/0044', u'1989/0052', u'1989/0060', u'1989/0068', u'1989/0076', u'1989/0084', u'1989/0092', u'1989/0100', u'1989/0109', u'1989/0117', u'1989/0125', u'1989/0133', u'1989/0141', u'1989/0149', u'1989/0160', u'1989/0168', u'1989/0178', u'1989/0186', u'1989/0194', u'1989/0203', u'1989/0211', u'1989/0218', u'1989/0226', u'1989/0232', u'1989/0240', u'1989/0248', u'1989/0258', u'1989/0266', u'1989/0274', u'1989/0282', u'1989/0290', u'1989/0298', u'1989/0308', u'1989/0316', u'1989/0324', u'1989/0332', u'1989/0340', u'1989/0348', u'1989/0355', u'1989/0364', u'1989/0372', u'1989/0380', u'1989/0388', u'1989/0396', u'1989/0405', u'1989/0415', u'1989/0423', u'1989/0431', u'1989/0439', u'1989/0447', u'1989/0455', u'1989/0465', u'1989/0474', u'1989/0482', u'1989/0490', u'1989/0498', u'1989/0509', u'1989/0516', u'1989/0524', u'1989/0533', u'1989/0542', u'1989/0550', u'1989/0558', u'1989/0566', u'1989/0574', u'1989/0583', u'1989/0590', u'1989/0598', u'1989/0606', u'1989/0614', u'1989/0622', u'1989/0630', u'1989/0638', u'1989/0642', u'1989/0650', u'1989/0660', u'1989/0668', u'1989/0676', u'1989/0686', u'1989/0694', u'1989/0702', u'1989/0710', u'1989/0719', u'1989/0727', u'1989/0733', u'1989/0742', u'1989/0750', u'1989/0758', u'1989/0769', u'1989/0777', u'1989/0785', u'1989/0793', u'1989/0801', u'1989/0810', u'1989/0818', u'1989/0828', u'1990/0003', u'1990/0011', u'1990/0018', u'1990/0026', u'1990/0032', u'1990/0039', u'1990/0046', u'1990/0055', u'1990/0062', u'1990/0070', u'1990/0077', u'1990/0084', u'1990/0091', u'1990/0098', u'1990/0105', u'1990/0113', u'1990/0123', u'1990/0130', u'1990/0137', u'1990/0147', u'1990/0155', u'1990/0162', u'1990/0169', u'1990/0176', u'1990/0183', u'1990/0190', u'1990/0199', u'1990/0206', u'1990/0213', u'1990/0220', u'1990/0227', u'1990/0234', u'1990/0241', u'1990/0248', u'1990/0255', u'1990/0262', u'1990/0273', u'1990/0282', u'1990/0289', u'1990/0299', u'1990/0306', u'1990/0313', u'1990/0320', u'1990/0327', u'1990/0335', u'1990/0342', u'1990/0349', u'1990/0356', u'1990/0363', u'1990/0370', u'1990/0377', u'1990/0384', u'1990/0391', u'1990/0399', u'1990/0406', u'1990/0415', u'1990/0422', u'1990/0429', u'1990/0436', u'1990/0443', u'1990/0450', u'1990/0457', u'1990/0464', u'1990/0471', u'1990/0479', u'1990/0486', u'1990/0493', u'1990/0500', u'1990/0507', u'1990/0514', u'1990/0523', u'1990/0530', u'1990/0537', u'1990/0544', u'1990/0551', u'1990/0557', u'1990/0564', u'1990/0572', u'1990/0578', u'1990/0585', u'1990/0591', u'1990/0598', u'1990/0605', u'1990/0612', u'1990/0619', u'1990/0627', u'1990/0635', u'1990/0642', u'1990/0649', u'1990/0656', u'1990/0665', u'1990/0675', u'1990/0684', u'1990/0693', u'1990/0700', u'1990/0707', u'1990/0714', u'1990/0721', u'1990/0728', u'1990/0735', u'1990/0743', u'1990/0750', u'1990/0757', u'1990/0767', u'1990/0774', u'1990/0781', u'1990/0789', u'1990/0797', u'1990/0804', u'1990/0811', u'1990/0818', u'1990/0825', u'1990/0832', u'1990/0839', u'1990/0846', u'1990/0853', u'1990/0860', u'1990/0868', u'1990/0875', u'1990/0883', u'1990/0890', u'1990/0897', u'1990/0904', u'1990/0911', u'1990/0918', u'1990/0925', u'1990/0932', u'1990/0939', u'1990/0946', u'1990/0953', u'1990/0963', u'1990/0970', u'1990/0977', u'1990/0984', u'1990/0993', u'1990/1001', u'1990/1008', u'1990/1015', u'1990/1022', u'1990/1028', u'1990/1032', u'1990/1039', u'1990/1046', u'1991/0003', u'1991/0011', u'1991/0019', u'1991/0027', u'1991/0035', u'1991/0043', u'1991/0051', u'1991/0059', u'1991/0067', u'1991/0075', u'1991/0083', u'1991/0091', u'1991/0101', u'1991/0109', u'1991/0117', u'1991/0125', u'1991/0135', u'1991/0143', u'1991/0151', u'1991/0159', u'1991/0167', u'1991/0175', u'1991/0183', u'1991/0191', u'1991/0199', u'1991/0209', u'1991/0217', u'1991/0225', u'1991/0233', u'1991/0241', u'1991/0251', u'1991/0259', u'1991/0267', u'1991/0275', u'1991/0283', u'1991/0291', u'1991/0301', u'1991/0309', u'1991/0317', u'1991/0325', u'1991/0333', u'1991/0341', u'1991/0351', u'1991/0356', u'1991/0364', u'1991/0372', u'1991/0380', u'1991/0388', u'1991/0396', u'1991/0404', u'1991/0412', u'1991/0420', u'1991/0428', u'1991/0436', u'1991/0444', u'1991/0452', u'1991/0460', u'1991/0471', u'1991/0480', u'1991/0488', u'1991/0496', u'1991/0504', u'1991/0512', u'1991/0523', u'1991/0531', u'1991/0539', u'1991/0547', u'1991/0555', u'1991/0563', u'1991/0571', u'1991/0579', u'1991/0589', u'1991/0595', u'1991/0603', u'1991/0611', u'1991/0619', u'1991/0627', u'1991/0637', u'1991/0645', u'1991/0651', u'1991/0659', u'1991/0667', u'1991/0675', u'1991/0683', u'1991/0691', u'1991/0698', u'1991/0706', u'1991/0714', u'1991/0722', u'1991/0730', u'1991/0741', u'1991/0748', u'1991/0756', u'1991/0764', u'1991/0773', u'1991/0781', u'1991/0789', u'1991/0797', u'1991/0805', u'1991/0813', u'1991/0821', u'1991/0831', u'1991/0839', u'1991/0847', u'1991/0855', u'1991/0863', u'1991/0871', u'1991/0879', u'1991/0887', u'1991/0895', u'1991/0904', u'1991/0912', u'1991/0920', u'1991/0928', u'1991/0936', u'1991/0944', u'1991/0950', u'1991/0958', u'1991/0969', u'1991/0977', u'1991/0985', u'1991/0993', u'1991/1001', u'1991/1009', u'1991/1017', u'1991/1025', u'1991/1033', u'1991/1040', u'1991/1048', u'1991/1056', u'1991/1064', u'1991/1072', u'1991/1080', u'1991/1088', u'1991/1096', u'1991/1102', u'1991/1110', u'1991/1118', u'1991/1125', u'1991/1133', u'1991/1141', u'1991/1151', u'1991/1159', u'1991/1167', u'1992/0003', u'1992/0011', u'1992/0019', u'1992/0027', u'1992/0034', u'1992/0042', u'1992/0050', u'1992/0059', u'1992/0065', u'1992/0073', u'1992/0081', u'1992/0089', u'1992/0099', u'1992/0107', u'1992/0115', u'1992/0123', u'1992/0131', u'1992/0139', u'1992/0147', u'1992/0156', u'1992/0164', u'1992/0172', u'1992/0180', u'1992/0188', u'1992/0196', u'1992/0204', u'1992/0212', u'1992/0220', u'1992/0228', u'1992/0236', u'1992/0244', u'1992/0255', u'1992/0263', u'1992/0271', u'1992/0279', u'1992/0287', u'1992/0295', u'1992/0303', u'1992/0311', u'1992/0319', u'1992/0327', u'1992/0335', u'1992/0342', u'1992/0350', u'1992/0361', u'1992/0369', u'1992/0377', u'1992/0385', u'1992/0393', u'1992/0401', u'1992/0409', u'1992/0417', u'1992/0425', u'1992/0433', u'1992/0441', u'1992/0451', u'1992/0459', u'1992/0467', u'1992/0475', u'1992/0483', u'1992/0491', u'1992/0499', u'1992/0507', u'1992/0515', u'1992/0523', u'1992/0531', u'1992/0539', u'1992/0549', u'1992/0556', u'1992/0564', u'1992/0572', u'1992/0580', u'1992/0591', u'1992/0599', u'1992/0607', u'1992/0615', u'1992/0623', u'1992/0631', u'1992/0639', u'1992/0649', u'1992/0658', u'1992/0666', u'1992/0674', u'1992/0682', u'1992/0688', u'1992/0696', u'1992/0704', u'1992/0712', u'1992/0723', u'1992/0731', u'1992/0739', u'1992/0747', u'1992/0755', u'1992/0765', u'1992/0773', u'1992/0781', u'1992/0789', u'1992/0797', u'1992/0805', u'1992/0813', u'1992/0820', u'1992/0828', u'1992/0836', u'1992/0847', u'1992/0855', u'1992/0863', u'1992/0871', u'1992/0879', u'1992/0887', u'1992/0895', u'1992/0903', u'1992/0913', u'1992/0921', u'1992/0929', u'1992/0937', u'1992/0945', u'1992/0953', u'1992/0961', u'1992/0969', u'1992/0977', u'1992/0985', u'1992/0993', u'1992/1001', u'1992/1007', u'1992/1014', u'1992/1022', u'1992/1030', u'1993/0003', u'1993/0011', u'1993/0019', u'1993/0027', u'1993/0035', u'1993/0043', u'1993/0051', u'1993/0059', u'1993/0067', u'1993/0075', u'1993/0083', u'1993/0088', u'1993/0096', u'1993/0104', u'1993/0112', u'1993/0120', u'1993/0128', u'1993/0136', u'1993/0144', u'1993/0152', u'1993/0160', u'1993/0168', u'1993/0176', u'1993/0184', u'1993/0192', u'1993/0200', u'1993/0208', u'1993/0216', u'1993/0224', u'1993/0232', u'1993/0240', u'1993/0247', u'1993/0255', u'1993/0263', u'1993/0271', u'1993/0279', u'1993/0285', u'1993/0293', u'1993/0303', u'1993/0311', u'1993/0319', u'1993/0327', u'1993/0335', u'1993/0343', u'1993/0351', u'1993/0359', u'1993/0367', u'1993/0375', u'1993/0383', u'1993/0391', u'1993/0399', u'1993/0407', u'1993/0415', u'1993/0423', u'1993/0431', u'1993/0439', u'1993/0447', u'1993/0455', u'1993/0463', u'1993/0471', u'1993/0477', u'1993/0485', u'1993/0493', u'1993/0501', u'1993/0511', u'1993/0519', u'1993/0527', u'1993/0535', u'1993/0543', u'1993/0551', u'1993/0559', u'1993/0566', u'1993/0574', u'1993/0582', u'1993/0590', u'1993/0598', u'1993/0606', u'1993/0614', u'1993/0622', u'1993/0629', u'1993/0639', u'1993/0647', u'1993/0655', u'1993/0663', u'1993/0671', u'1993/0679', u'1993/0687', u'1993/0695', u'1993/0703', u'1993/0711', u'1993/0719', u'1993/0727', u'1993/0737', u'1993/0745', u'1993/0753', u'1993/0761', u'1993/0769', u'1993/0777', u'1993/0785', u'1993/0793', u'1993/0801', u'1993/0809', u'1993/0817', u'1993/0825', u'1993/0833', u'1993/0843', u'1993/0850', u'1993/0858', u'1993/0866', u'1993/0874', u'1993/0882', u'1993/0888', u'1993/0896', u'1993/0904', u'1993/0911', u'1993/0919', u'1993/0927', u'1993/0937', u'1993/0945', u'1993/0953', u'1993/0961', u'1993/0969', u'1993/0977', u'1993/0985', u'1993/0993', u'1993/1001', u'1993/1011', u'1993/1019', u'1993/1027', u'1993/1035', u'1993/1043', u'1993/1051', u'1993/1059', u'1993/1069', u'1993/1077', u'1993/1085', u'1993/1093', u'1993/1101', u'1993/1109', u'1993/1117', u'1993/1125', u'1993/1135', u'1993/1143', u'1993/1151', u'1994/0003', u'1994/0011', u'1994/0019', u'1994/0027', u'1994/0035', u'1994/0043', u'1994/0051', u'1994/0061', u'1994/0069', u'1994/0077', u'1994/0085', u'1994/0093', u'1994/0101', u'1994/0109', u'1994/0117', u'1994/0125', u'1994/0133', u'1994/0141', u'1994/0149', u'1994/0157', u'1994/0165', u'1994/0173', u'1994/0183', u'1994/0191', u'1994/0199', u'1994/0207', u'1994/0215', u'1994/0223', u'1994/0231', u'1994/0239', u'1994/0247', u'1994/0255', u'1994/0263', u'1994/0271', u'1994/0279', u'1994/0287', u'1994/0295', u'1994/0303', u'1994/0311', u'1994/0319', u'1994/0327', u'1994/0335', u'1994/0345', u'1994/0353', u'1994/0361', u'1994/0369', u'1994/0377', u'1994/0385', u'1994/0393', u'1994/0401', u'1994/0411', u'1994/0419', u'1994/0427', u'1994/0435', u'1994/0443', u'1994/0451', u'1994/0459', u'1994/0467', u'1994/0475', u'1994/0481', u'1994/0489', u'1994/0497', u'1994/0505', u'1994/0513', u'1994/0521', u'1994/0529', u'1994/0537', u'1994/0545', u'1994/0553', u'1994/0561', u'1994/0569', u'1994/0577', u'1994/0585', u'1994/0593', u'1994/0601', u'1994/0609', u'1994/0617', u'1994/0625', u'1994/0633', u'1994/0641', u'1994/0649', u'1994/0657', u'1994/0665', u'1994/0673', u'1994/0681', u'1994/0689', u'1994/0697', u'1994/0705', u'1994/0713', u'1994/0721', u'1994/0731', u'1994/0739', u'1994/0747', u'1994/0755', u'1994/0763', u'1994/0771', u'1994/0779', u'1994/0787', u'1994/0795', u'1994/0803', u'1994/0811', u'1994/0817', u'1994/0827', u'1994/0835', u'1994/0843', u'1994/0851', u'1994/0859', u'1994/0867', u'1994/0875', u'1994/0883', u'1994/0893', u'1994/0901', u'1994/0909', u'1994/0917', u'1994/0925', u'1994/0933', u'1994/0941', u'1994/0949', u'1994/0957', u'1994/0965', u'1994/0973', u'1994/0981', u'1994/0991', u'1994/0999', u'1994/1007', u'1994/1015', u'1994/1023', u'1994/1031', u'1994/1039', u'1994/1047', u'1994/1055', u'1994/1063', u'1994/1069', u'1994/1077', u'1994/1085', u'1994/1093', u'1994/1101', u'1994/1109', u'1994/1117', u'1994/1125', u'1995/0003', u'1995/0010', u'1995/0017', u'1995/0024', u'1995/0031', u'1995/0038', u'1995/0045', u'1995/0052', u'1995/0061', u'1995/0068', u'1995/0075', u'1995/0082', u'1995/0089', u'1995/0096', u'1995/0103', u'1995/0110', u'1995/0117', u'1995/0124', u'1995/0131', u'1995/0138', u'1995/0145', u'1995/0152', u'1995/0159', u'1995/0169', u'1995/0176', u'1995/0183', u'1995/0190', u'1995/0197', u'1995/0204', u'1995/0211', u'1995/0218', u'1995/0225', u'1995/0232', u'1995/0239', u'1995/0246', u'1995/0253', u'1995/0260', u'1995/0267', u'1995/0274', u'1995/0281', u'1995/0288', u'1995/0295', u'1995/0302', u'1995/0309', u'1995/0316', u'1995/0323', u'1995/0330', u'1995/0337', u'1995/0344', u'1995/0351', u'1995/0358', u'1995/0365', u'1995/0372', u'1995/0381', u'1995/0388', u'1995/0395', u'1995/0402', u'1995/0409', u'1995/0416', u'1995/0423', u'1995/0430', u'1995/0437', u'1995/0444', u'1995/0451', u'1995/0458', u'1995/0465', u'1995/0472', u'1995/0479', u'1995/0486', u'1995/0493', u'1995/0500', u'1995/0507', u'1995/0514', u'1995/0521', u'1995/0528', u'1995/0535', u'1995/0542', u'1995/0549', u'1995/0556', u'1995/0563', u'1995/0570', u'1995/0577', u'1995/0584', u'1995/0591', u'1995/0598', u'1995/0605', u'1995/0612', u'1995/0619', u'1995/0626', u'1995/0633', u'1995/0640', u'1995/0647', u'1995/0654', u'1995/0661', u'1995/0671', u'1995/0678', u'1995/0685', u'1995/0692', u'1995/0699', u'1995/0706', u'1995/0713', u'1995/0720', u'1995/0729', u'1995/0736', u'1995/0743', u'1995/0750', u'1995/0757', u'1995/0764', u'1995/0771', u'1995/0778', u'1995/0785', u'1995/0795', u'1995/0802', u'1995/0809', u'1995/0816', u'1995/0823', u'1995/0830', u'1995/0837', u'1995/0844', u'1995/0851', u'1995/0858', u'1995/0865', u'1995/0875', u'1995/0882', u'1995/0889', u'1995/0896', u'1995/0903', u'1995/0910', u'1995/0917', u'1995/0924', u'1995/0931', u'1995/0938', u'1995/0945', u'1995/0952', u'1995/0959', u'1995/0966', u'1995/0973', u'1995/0980', u'1995/0989', u'1995/0996', u'1995/1003', u'1995/1010', u'1995/1017', u'1995/1024', u'1995/1031', u'1995/1038', u'1995/1045', u'1995/1052', u'1995/1059', u'1995/1066', u'1995/1073', u'1995/1080', u'1996/0003', u'1996/0010', u'1996/0017', u'1996/0027', u'1996/0034', u'1996/0041', u'1996/0048', u'1996/0055', u'1996/0062', u'1996/0069', u'1996/0076', u'1996/0083', u'1996/0090', u'1996/0097', u'1996/0104', u'1996/0111', u'1996/0118', u'1996/0127', u'1996/0134', u'1996/0141', u'1996/0148', u'1996/0155', u'1996/0162', u'1996/0169', u'1996/0176', u'1996/0183', u'1996/0190', u'1996/0197', u'1996/0204', u'1996/0211', u'1996/0218', u'1996/0225', u'1996/0232', u'1996/0239', u'1996/0246', u'1996/0253', u'1996/0260', u'1996/0267', u'1996/0274', u'1996/0281', u'1996/0288', u'1996/0295', u'1996/0302', u'1996/0309', u'1996/0319', u'1996/0326', u'1996/0333', u'1996/0340', u'1996/0347', u'1996/0354', u'1996/0361', u'1996/0368', u'1996/0375', u'1996/0382', u'1996/0389', u'1996/0396', u'1996/0403', u'1996/0410', u'1996/0417', u'1996/0424', u'1996/0431', u'1996/0438', u'1996/0445', u'1996/0452', u'1996/0459', u'1996/0466', u'1996/0473', u'1996/0480', u'1996/0487', u'1996/0494', u'1996/0501', u'1996/0508', u'1996/0515', u'1996/0522', u'1996/0529', u'1996/0536', u'1996/0543', u'1996/0550', u'1996/0557', u'1996/0564', u'1996/0571', u'1996/0578', u'1996/0585', u'1996/0592', u'1996/0599', u'1996/0606', u'1996/0613', u'1996/0620', u'1996/0627', u'1996/0634', u'1996/0641', u'1996/0648', u'1996/0655', u'1996/0662', u'1996/0669', u'1996/0676', u'1996/0685', u'1996/0692', u'1996/0699', u'1996/0706', u'1996/0713', u'1996/0720', u'1996/0727', u'1996/0734', u'1996/0741', u'1996/0751', u'1996/0758', u'1996/0765', u'1996/0772', u'1996/0779', u'1996/0786', u'1996/0793', u'1996/0800', u'1996/0807', u'1996/0817', u'1996/0824', u'1996/0831', u'1996/0838', u'1996/0845', u'1996/0852', u'1996/0859', u'1996/0866', u'1996/0873', u'1996/0880', u'1996/0887', u'1996/0894', u'1996/0901', u'1996/0908', u'1996/0915', u'1996/0925', u'1996/0932', u'1996/0939', u'1996/0946', u'1996/0953', u'1996/0960', u'1996/0967', u'1996/0974', u'1996/0981', u'1996/0988', u'1996/0995', u'1996/1005', u'1996/1012', u'1996/1019', u'1996/1026', u'1996/1033', u'1996/1040', u'1996/1047', u'1996/1054', u'1996/1061', u'1996/1068', u'1996/1075', u'1996/1082', u'1997/0003', u'1997/0010', u'1997/0017', u'1997/0024', u'1997/0031', u'1997/0038', u'1997/0045', u'1997/0052', u'1997/0059', u'1997/0066', u'1997/0073', u'1997/0080', u'1997/0087', u'1997/0094', u'1997/0103', u'1997/0110', u'1997/0117', u'1997/0124', u'1997/0131', u'1997/0138', u'1997/0145', u'1997/0152', u'1997/0159', u'1997/0166', u'1997/0173', u'1997/0180', u'1997/0187', u'1997/0194', u'1997/0201', u'1997/0208', u'1997/0215', u'1997/0222', u'1997/0229', u'1997/0236', u'1997/0245', u'1997/0252', u'1997/0259', u'1997/0266', u'1997/0273', u'1997/0280', u'1997/0287', u'1997/0294', u'1997/0301', u'1997/0308', u'1997/0315', u'1997/0322', u'1997/0329', u'1997/0336', u'1997/0343', u'1997/0350', u'1997/0357', u'1997/0364', u'1997/0371', u'1997/0378', u'1997/0385', u'1997/0395', u'1997/0402', u'1997/0409', u'1997/0416', u'1997/0423', u'1997/0430', u'1997/0437', u'1997/0444', u'1997/0451', u'1997/0458', u'1997/0465', u'1997/0472', u'1997/0479', u'1997/0486', u'1997/0493', u'1997/0500', u'1997/0507', u'1997/0514', u'1997/0521', u'1997/0528', u'1997/0535', u'1997/0542', u'1997/0549', u'1997/0556', u'1997/0563', u'1997/0570', u'1997/0577', u'1997/0584', u'1997/0591', u'1997/0598', u'1997/0605', u'1997/0612', u'1997/0619', u'1997/0626', u'1997/0633', u'1997/0640', u'1997/0647', u'1997/0654', u'1997/0661', u'1997/0668', u'1997/0675', u'1997/0682', u'1997/0689', u'1997/0696', u'1997/0705', u'1997/0712', u'1997/0719', u'1997/0726', u'1997/0735', u'1997/0742', u'1997/0749', u'1997/0756', u'1997/0763', u'1997/0773', u'1997/0780', u'1997/0787', u'1997/0794', u'1997/0801', u'1997/0808', u'1997/0815', u'1997/0822', u'1997/0829', u'1997/0836', u'1997/0843', u'1997/0850', u'1997/0859', u'1997/0866', u'1997/0873', u'1997/0880', u'1997/0887', u'1997/0894', u'1997/0901', u'1997/0908', u'1997/0915', u'1997/0922', u'1997/0929', u'1997/0936', u'1997/0943', u'1997/0950', u'1997/0957', u'1997/0964', u'1997/0971', u'1997/0978', u'1997/0985', u'1997/0992', u'1997/1001', u'1997/1008', u'1997/1015', u'1997/1022', u'1997/1029', u'1997/1036', u'1997/1043', u'1997/1050', u'1997/1057', u'1997/1064', u'1997/1071', u'1998/0003', u'1998/0010', u'1998/0017', u'1998/0024', u'1998/0031', u'1998/0038', u'1998/0045', u'1998/0052', u'1998/0059', u'1998/0069', u'1998/0076', u'1998/0083', u'1998/0090', u'1998/0097', u'1998/0104', u'1998/0111', u'1998/0118', u'1998/0125', u'1998/0132', u'1998/0139', u'1998/0146', u'1998/0153', u'1998/0160', u'1998/0167', u'1998/0174', u'1998/0183', u'1998/0190', u'1998/0197', u'1998/0204', u'1998/0211', u'1998/0218', u'1998/0225', u'1998/0232', u'1998/0239', u'1998/0246', u'1998/0253', u'1998/0260', u'1998/0267', u'1998/0274', u'1998/0281', u'1998/0288', u'1998/0295', u'1998/0302', u'1998/0309', u'1998/0316', u'1998/0323', u'1998/0330', u'1998/0337', u'1998/0344', u'1998/0351', u'1998/0361', u'1998/0368', u'1998/0375', u'1998/0382', u'1998/0389', u'1998/0396', u'1998/0403', u'1998/0410', u'1998/0417', u'1998/0424', u'1998/0431', u'1998/0438', u'1998/0445', u'1998/0452', u'1998/0459', u'1998/0466', u'1998/0473', u'1998/0480', u'1998/0487', u'1998/0494', u'1998/0501', u'1998/0508', u'1998/0515', u'1998/0522', u'1998/0529', u'1998/0536', u'1998/0543', u'1998/0550', u'1998/0557', u'1998/0564', u'1998/0571', u'1998/0578', u'1998/0585', u'1998/0592', u'1998/0599', u'1998/0606', u'1998/0613', u'1998/0620', u'1998/0627', u'1998/0634', u'1998/0641', u'1998/0648', u'1998/0657', u'1998/0664', u'1998/0671', u'1998/0678', u'1998/0685', u'1998/0692', u'1998/0699', u'1998/0706', u'1998/0713', u'1998/0723', u'1998/0730', u'1998/0737', u'1998/0744', u'1998/0751', u'1998/0761', u'1998/0768', u'1998/0775', u'1998/0782', u'1998/0789', u'1998/0796', u'1998/0803', u'1998/0810', u'1998/0817', u'1998/0824', u'1998/0831', u'1998/0838', u'1998/0847', u'1998/0854', u'1998/0861', u'1998/0868', u'1998/0875', u'1998/0882', u'1998/0889', u'1998/0896', u'1998/0903', u'1998/0910', u'1998/0917', u'1998/0924', u'1998/0931', u'1998/0938', u'1998/0945', u'1998/0952', u'1998/0961', u'1998/0968', u'1998/0975', u'1998/0982', u'1998/0989', u'1998/0996', u'1998/1003', u'1998/1010', u'1998/1017', u'1998/1024', u'1998/1031', u'1998/1038', u'1998/1045', u'1998/1052', u'1998/1059', u'1998/1066', u'1998/1073', u'1999/0003', u'1999/0010', u'1999/0017', u'1999/0024', u'1999/0031', u'1999/0038', u'1999/0045', u'1999/0052', u'1999/0059', u'1999/0066', u'1999/0073', u'1999/0080', u'1999/0089', u'1999/0096', u'1999/0103', u'1999/0108', u'1999/0115', u'1999/0122', u'1999/0129', u'1999/0136', u'1999/0143', u'1999/0150', u'1999/0157', u'1999/0164', u'1999/0171', u'1999/0178', u'1999/0185', u'1999/0192', u'1999/0199', u'1999/0209', u'1999/0216', u'1999/0223', u'1999/0230', u'1999/0237', u'1999/0244', u'1999/0251', u'1999/0258', u'1999/0265', u'1999/0272', u'1999/0279', u'1999/0286', u'1999/0293', u'1999/0300', u'1999/0307', u'1999/0314', u'1999/0321', u'1999/0328', u'1999/0335', u'1999/0342', u'1999/0349', u'1999/0356', u'1999/0363', u'1999/0370', u'1999/0379', u'1999/0386', u'1999/0393', u'1999/0400', u'1999/0407', u'1999/0414', u'1999/0421', u'1999/0428', u'1999/0435', u'1999/0442', u'1999/0449', u'1999/0456', u'1999/0463', u'1999/0470', u'1999/0477', u'1999/0484', u'1999/0491', u'1999/0498', u'1999/0505', u'1999/0512', u'1999/0519', u'1999/0526', u'1999/0533', u'1999/0540', u'1999/0547', u'1999/0554', u'1999/0561', u'1999/0568', u'1999/0575', u'1999/0582', u'1999/0589', u'1999/0596', u'1999/0603', u'1999/0610', u'1999/0617', u'1999/0624', u'1999/0631', u'1999/0638', u'1999/0645', u'1999/0652', u'1999/0659', u'1999/0666', u'1999/0673', u'1999/0680', u'1999/0687', u'1999/0694', u'1999/0703', u'1999/0710', u'1999/0717', u'1999/0724', u'1999/0731', u'1999/0738', u'1999/0747', u'1999/0754', u'1999/0761', u'1999/0768', u'1999/0775', u'1999/0782', u'1999/0789', u'1999/0796', u'1999/0803', u'1999/0813', u'1999/0820', u'1999/0827', u'1999/0834', u'1999/0841', u'1999/0848', u'1999/0855', u'1999/0862', u'1999/0869', u'1999/0879', u'1999/0886', u'1999/0893', u'1999/0900', u'1999/0907', u'1999/0914', u'1999/0921', u'1999/0928', u'1999/0935', u'1999/0942', u'1999/0949', u'1999/0956', u'1999/0963', u'1999/0970', u'1999/0977', u'1999/0987', u'1999/0994', u'1999/1001', u'1999/1008', u'1999/1015', u'1999/1022', u'1999/1029', u'1999/1036', u'1999/1043', u'1999/1050', u'1999/1057', u'1999/1064', u'2000/AgueraFairhallBialek', u'2000/Aharonov-BarkiMeilijsonRuppin', u'2000/AndreRussell', u'2000/ArcherLeen', u'2000/ArchieMel', u'2000/ArleoSmeraldiHugGerstner', u'2000/AttiasPlattAceroDeng', u'2000/BaeLee', u'2000/BeckerBurgess', u'2000/BelongieMalikPuzicha', u'2000/Ben-DavidSimon', u'2000/Ben-HurHornSiegelmannVapnik', u'2000/BengioDucharmeVincent', u'2000/BhattacharyyaKeerthi', u'2000/Bialek', u'2000/BogaczBrownGiraud-Carrier', u'2000/BourlardBengioWeber', u'2000/BousquetElisseeff', u'2000/BoyanLittman', u'2000/CampbellBennett', u'2000/Carlstrom', u'2000/CaruanaLawrenceGiles', u'2000/CauwenberghsPoggio', u'2000/ChapelleWestonBottouVapnik', u'2000/ChechikTishby', u'2000/ChenGopinath', u'2000/CohnHofmann', u'2000/CoughlanYuille', u'2000/CrammerSinger', u'2000/CsatoOpper', u'2000/Dayan', u'2000/DayanKakade', u'2000/DellaertSeitzThrunThorpe', u'2000/DeneveDuhamelPouget', u'2000/DomeniconiPengGunopulos', u'2000/Downs', u'2000/DugasBengioBelisleNadeauGarcia', u'2000/EdelmanIntrator', u'2000/ElidanLotnerFriedmanKoller', u'2000/FairhallLewenBialekSteveninck', u'2000/FisherDarrellFreemanViola', u'2000/FreyKannan', u'2000/FreyPatrascuJaakkolaMoran', u'2000/Gales', u'2000/Gentile', u'2000/GhahramaniBeal', u'2000/Gordon', u'2000/GraepelHerbrich', u'2000/GraepelHerbrichWilliamson', u'2000/GrayMoore', u'2000/GraySejnowskiMovellan', u'2000/GrimesMozer', u'2000/HahnloserSeung', u'2000/HaytonScholkopfTarassenkoAnuzis', u'2000/HerbrichGraepel1', u'2000/HerbrichGraepel2', u'2000/Hernandez-GardiolMahadevan', u'2000/HochreiterMozer', u'2000/Hojen-SorensenWintherHansen', u'2000/HsuFigueroaDiorio', u'2000/JebaraPentland', u'2000/JonssonBarto', u'2000/KakadeDayan', u'2000/KaliDayan', u'2000/KappenWiegerinck', u'2000/KjemsHansenStrother', u'2000/KoltchinskiiPanchenkoLozano', u'2000/Kowalczyk', u'2000/KristjanssonFrey', u'2000/KurinoNakagawaLeeNakamuraYamadaParkKoyanagi', u'2000/LeeSeung', u'2000/LeeWachtlerSejnowski', u'2000/LegensteinMaass', u'2000/LeisinkKappen', u'2000/LiDayan', u'2000/LiuMinch', u'2000/LodhiShawe-TaylorCristianiniWatkins', u'2000/LuRajapakse', u'2000/MalzahnOpper', u'2000/MangasarianMusicant', u'2000/MannorMeir', u'2000/MayrazHinton', u'2000/MeilaShi', u'2000/MerweDoucetFreitasWan', u'2000/MikaRatschMuller', u'2000/Minka', u'2000/MizutaniDemmel', u'2000/MoghaddamYang', u'2000/MorimotoDoya', u'2000/MovellanMineiroWilliams', u'2000/MyungPittZhangBalasubramanian', u'2000/NaphadeKozintsevHuang', u'2000/NatschlagerMaass', u'2000/NatschlagerMaassSontagZador', u'2000/NelsonMovellan', u'2000/NemenmanBialek', u'2000/NeskovicDavisCooper', u'2000/OlshausenSalleeLewicki', u'2000/OrmoneitGlynn', u'2000/OrmoneitSidenbladhBlackHastie', u'2000/ParraSpenceSajda', u'2000/PavlovicRehgMacCormick', u'2000/PedersenApostolopoulosWhittaker', u'2000/Penev', u'2000/Perez-CruzAlarcon-DianaNavia-VazquezArtes-Rodriguez', u'2000/PunyakanokRoth', u'2000/RasmussenGhahramani', u'2000/Roweis', u'2000/SallansHinton', u'2000/SaonPadmanabhan', u'2000/SaulAllen', u'2000/ScarpettaLiHertz', u'2000/SchneidmanBrennerTishbySteveninckBialek', u'2000/SchodlEssa', u'2000/Scholkopf', u'2000/SchwartzSimoncelli', u'2000/Shelton', u'2000/ShrikiSompolinskyLee', u'2000/SimoniCymbalyukSorensenCalabreseDeWeerth', u'2000/SlaneyCovell', u'2000/SmithCottrellAnderson', u'2000/SmolaBartlett', u'2000/SmolaOvariWilliamson', u'2000/St-AubinHoeyBoutilier', u'2000/StillScholkopfHeppDouglas', u'2000/SzummerJaakkola', u'2000/Tanaka', u'2000/TchorzKleinschmidtKollmeier', u'2000/TehHinton', u'2000/TenenbaumGriffiths', u'2000/Tipping', u'2000/TishbySlonim', u'2000/Tjan', u'2000/TongKoller', u'2000/Tresp', u'2000/VasconcelosLippman', u'2000/VicenteSaadKabashima', u'2000/Vreeswijk', u'2000/WainwrightSudderthWillsky', u'2000/Watanabe', u'2000/WestonMukherjeeChapellePontilPoggioVapnik', u'2000/Williams', u'2000/WilliamsSeeger', u'2000/Winther', u'2000/WongNishimori', u'2000/XieHahnloserSeung', u'2000/YedidiaFreemanWeiss', u'2000/ZemelPitassi', u'2000/ZengerKoch', u'2000/Zhang1', u'2000/Zhang2', u'2001/AA01', u'2001/AA02', u'2001/AA03', u'2001/AA04', u'2001/AA05', u'2001/AA06', u'2001/AA07', u'2001/AA08', u'2001/AA10', u'2001/AA11', u'2001/AA12', u'2001/AA13', u'2001/AA14', u'2001/AA15', u'2001/AA16', u'2001/AA17', u'2001/AA18', u'2001/AA19', u'2001/AA20', u'2001/AA21', u'2001/AA22', u'2001/AA23', u'2001/AA24', u'2001/AA25', u'2001/AA26', u'2001/AA27', u'2001/AA28', u'2001/AA29', u'2001/AA30', u'2001/AA31', u'2001/AA32', u'2001/AA33', u'2001/AA34', u'2001/AA35', u'2001/AA36', u'2001/AA37', u'2001/AA38', u'2001/AA39', u'2001/AA40', u'2001/AA41', u'2001/AA42', u'2001/AA43', u'2001/AA44', u'2001/AA45', u'2001/AA46', u'2001/AA47', u'2001/AA48', u'2001/AA49', u'2001/AA50', u'2001/AA51', u'2001/AA52', u'2001/AA53', u'2001/AA54', u'2001/AA55', u'2001/AA56', u'2001/AA57', u'2001/AA58', u'2001/AA59', u'2001/AA60', u'2001/AA61', u'2001/AA62', u'2001/AA63', u'2001/AA64', u'2001/AA65', u'2001/AA66', u'2001/AA67', u'2001/AP01', u'2001/AP02', u'2001/AP03', u'2001/AP04', u'2001/AP05', u'2001/AP06', u'2001/AP07', u'2001/AP08', u'2001/AP09', u'2001/AP10', u'2001/AP11', u'2001/AP12', u'2001/AP13', u'2001/AP14', u'2001/AP15', u'2001/AP16', u'2001/AP17', u'2001/CN01', u'2001/CN02', u'2001/CN03', u'2001/CN04', u'2001/CN05', u'2001/CN06', u'2001/CN07', u'2001/CN08', u'2001/CN09', u'2001/CN10', u'2001/CN11', u'2001/CN12', u'2001/CN13', u'2001/CN14', u'2001/CN15', u'2001/CS01', u'2001/CS02', u'2001/CS03', u'2001/CS04', u'2001/CS05', u'2001/CS06', u'2001/CS07', u'2001/CS08', u'2001/CS09', u'2001/CS10', u'2001/CS11', u'2001/CS12', u'2001/CS13', u'2001/CS14', u'2001/CS15', u'2001/CS16', u'2001/IM02', u'2001/IM03', u'2001/IM04', u'2001/IM05', u'2001/LT01', u'2001/LT02', u'2001/LT03', u'2001/LT04', u'2001/LT05', u'2001/LT06', u'2001/LT07', u'2001/LT08', u'2001/LT09', u'2001/LT10', u'2001/LT11', u'2001/LT12', u'2001/LT13', u'2001/LT14', u'2001/LT15', u'2001/LT16', u'2001/LT17', u'2001/LT18', u'2001/LT19', u'2001/LT20', u'2001/LT21', u'2001/LT22', u'2001/LT23', u'2001/LT24', u'2001/LT25', u'2001/LT26', u'2001/NS01', u'2001/NS02', u'2001/NS03', u'2001/NS04', u'2001/NS05', u'2001/NS06', u'2001/NS07', u'2001/NS08', u'2001/NS09', u'2001/NS10', u'2001/NS11', u'2001/NS12', u'2001/NS14', u'2001/NS15', u'2001/NS16', u'2001/NS17', u'2001/NS18', u'2001/NS19', u'2001/NS20', u'2001/NS21', u'2001/NS22', u'2001/NS23', u'2001/NS24', u'2001/NS25', u'2001/SP01', u'2001/SP02', u'2001/SP03', u'2001/SP04', u'2001/SP05', u'2001/SP06', u'2001/SP07', u'2001/SP08', u'2001/SP09', u'2001/SP10', u'2001/VS01', u'2001/VS02', u'2001/VS03', u'2001/VS04', u'2001/VS05', u'2001/VS06', u'2001/VS07', u'2001/VS08', u'2001/VS09', u'2001/VS10', u'2001/VS11', u'2001/VS12', u'2001/VS13', u'2001/VS14', u'2002/AA01', u'2002/AA02', u'2002/AA03', u'2002/AA04', u'2002/AA05', u'2002/AA06', u'2002/AA07', u'2002/AA08', u'2002/AA09', u'2002/AA11', u'2002/AA12', u'2002/AA13', u'2002/AA14', u'2002/AA15', u'2002/AA16', u'2002/AA17', u'2002/AA18', u'2002/AA19', u'2002/AA20', u'2002/AA21', u'2002/AA22', u'2002/AA23', u'2002/AA24', u'2002/AA25', u'2002/AA26', u'2002/AA27', u'2002/AA28', u'2002/AA29', u'2002/AA30', u'2002/AA31', u'2002/AA32', u'2002/AA33', u'2002/AA34', u'2002/AA35', u'2002/AA36', u'2002/AA37', u'2002/AA38', u'2002/AA39', u'2002/AA40', u'2002/AA41', u'2002/AA42', u'2002/AA43', u'2002/AA44', u'2002/AA45', u'2002/AA46', u'2002/AA47', u'2002/AA48', u'2002/AA49', u'2002/AA50', u'2002/AA51', u'2002/AA52', u'2002/AA53', u'2002/AA54', u'2002/AA55', u'2002/AA56', u'2002/AA57', u'2002/AA58', u'2002/AA59', u'2002/AA60', u'2002/AA61', u'2002/AA62', u'2002/AA63', u'2002/AA64', u'2002/AA65', u'2002/AA66', u'2002/AA67', u'2002/AA68', u'2002/AA69', u'2002/AA70', u'2002/AA71', u'2002/AA72', u'2002/AA73', u'2002/AP01', u'2002/AP02', u'2002/AP03', u'2002/AP04', u'2002/AP05', u'2002/AP06', u'2002/AP07', u'2002/AP08', u'2002/AP09', u'2002/AP10', u'2002/AP11', u'2002/AP12', u'2002/AP13', u'2002/AP14', u'2002/AP15', u'2002/CN01', u'2002/CN02', u'2002/CN03', u'2002/CN04', u'2002/CN05', u'2002/CN06', u'2002/CN07', u'2002/CN08', u'2002/CN09', u'2002/CN10', u'2002/CN11', u'2002/CN12', u'2002/CN13', u'2002/CN14', u'2002/CN15', u'2002/CN16', u'2002/CS01', u'2002/CS02', u'2002/CS03', u'2002/CS04', u'2002/CS05', u'2002/CS06', u'2002/CS07', u'2002/CS08', u'2002/CS09', u'2002/CS10', u'2002/CS11', u'2002/CS12', u'2002/CS13', u'2002/CS14', u'2002/IM01', u'2002/IM02', u'2002/IM03', u'2002/IM04', u'2002/IM05', u'2002/IM06', u'2002/IM07', u'2002/IM08', u'2002/IM09', u'2002/IM10', u'2002/IM11', u'2002/IM12', u'2002/LT01', u'2002/LT02', u'2002/LT03', u'2002/LT04', u'2002/LT05', u'2002/LT06', u'2002/LT07', u'2002/LT08', u'2002/LT09', u'2002/LT10', u'2002/LT11', u'2002/LT12', u'2002/LT13', u'2002/LT14', u'2002/LT16', u'2002/LT17', u'2002/LT18', u'2002/LT19', u'2002/LT20', u'2002/LT21', u'2002/NS01', u'2002/NS02', u'2002/NS03', u'2002/NS04', u'2002/NS05', u'2002/NS06', u'2002/NS07', u'2002/NS08', u'2002/NS09', u'2002/NS10', u'2002/NS11', u'2002/NS12', u'2002/NS13', u'2002/NS14', u'2002/NS15', u'2002/NS16', u'2002/NS17', u'2002/NS18', u'2002/NS19', u'2002/NS20', u'2002/NS21', u'2002/NS22', u'2002/NS23', u'2002/NS24', u'2002/NS25', u'2002/NS26', u'2002/NS27', u'2002/SP02', u'2002/SP03', u'2002/SP04', u'2002/SP05', u'2002/SP06', u'2002/SP07', u'2002/SP08', u'2002/SP09', u'2002/SP10', u'2002/VS01', u'2002/VS02', u'2002/VS03', u'2002/VS04', u'2002/VS05', u'2002/VS06', u'2002/VS07', u'2002/VS08', u'2002/VS09', u'2002/VS10', u'2002/VS11', u'2002/VS12', u'2002/VS13', u'2002/VS14', u'2002/VS15', u'2002/VS16', u'2002/VS17', u'2002/VS18', u'2002/VS19', u'2003/AA01', u'2003/AA02', u'2003/AA03', u'2003/AA04', u'2003/AA05', u'2003/AA06', u'2003/AA07', u'2003/AA08', u'2003/AA09', u'2003/AA10', u'2003/AA11', u'2003/AA12', u'2003/AA13', u'2003/AA14', u'2003/AA15', u'2003/AA16', u'2003/AA17', u'2003/AA18', u'2003/AA19', u'2003/AA20', u'2003/AA21', u'2003/AA22', u'2003/AA23', u'2003/AA24', u'2003/AA25', u'2003/AA26', u'2003/AA27', u'2003/AA28', u'2003/AA29', u'2003/AA30', u'2003/AA31', u'2003/AA32', u'2003/AA33', u'2003/AA34', u'2003/AA35', u'2003/AA36', u'2003/AA37', u'2003/AA38', u'2003/AA39', u'2003/AA40', u'2003/AA41', u'2003/AA42', u'2003/AA43', u'2003/AA44', u'2003/AA45', u'2003/AA46', u'2003/AA47', u'2003/AA48', u'2003/AA49', u'2003/AA50', u'2003/AA51', u'2003/AA52', u'2003/AA53', u'2003/AA54', u'2003/AA55', u'2003/AA56', u'2003/AA57', u'2003/AA58', u'2003/AA59', u'2003/AA60', u'2003/AA61', u'2003/AA62', u'2003/AA63', u'2003/AA64', u'2003/AA65', u'2003/AA66', u'2003/AA67', u'2003/AA68', u'2003/AA69', u'2003/AA70', u'2003/AA71', u'2003/AP01', u'2003/AP02', u'2003/AP03', u'2003/AP04', u'2003/AP05', u'2003/AP06', u'2003/AP07', u'2003/AP08', u'2003/AP09', u'2003/AP10', u'2003/AP11', u'2003/AP12', u'2003/AP13', u'2003/AP14', u'2003/AP15', u'2003/BI01', u'2003/BI02', u'2003/BI03', u'2003/BI04', u'2003/BI05', u'2003/BI06', u'2003/BI07', u'2003/CN01', u'2003/CN02', u'2003/CN03', u'2003/CN04', u'2003/CN05', u'2003/CN06', u'2003/CN07', u'2003/CN08', u'2003/CN09', u'2003/CN10', u'2003/CN11', u'2003/CN12', u'2003/CN13', u'2003/CN14', u'2003/CN15', u'2003/CN16', u'2003/CN17', u'2003/CN18', u'2003/CN19', u'2003/CS01', u'2003/CS02', u'2003/CS03', u'2003/CS04', u'2003/CS05', u'2003/CS06', u'2003/CS07', u'2003/CS08', u'2003/CS09', u'2003/CS10', u'2003/ET01', u'2003/ET02', u'2003/ET03', u'2003/ET04', u'2003/ET05', u'2003/ET06', u'2003/ET07', u'2003/ET08', u'2003/ET09', u'2003/LT01', u'2003/LT02', u'2003/LT03', u'2003/LT04', u'2003/LT05', u'2003/LT06', u'2003/LT07', u'2003/LT08', u'2003/LT09', u'2003/LT10', u'2003/LT11', u'2003/LT12', u'2003/LT13', u'2003/LT14', u'2003/LT15', u'2003/LT16', u'2003/LT17', u'2003/LT18', u'2003/LT19', u'2003/LT20', u'2003/LT21', u'2003/LT22', u'2003/NS01', u'2003/NS02', u'2003/NS03', u'2003/NS04', u'2003/NS05', u'2003/NS06', u'2003/NS07', u'2003/NS09', u'2003/NS10', u'2003/NS11', u'2003/NS12', u'2003/NS13', u'2003/NS14', u'2003/NS15', u'2003/NS16', u'2003/SP01', u'2003/SP02', u'2003/SP03', u'2003/SP04', u'2003/SP05', u'2003/SP06', u'2003/SP07', u'2003/VB01', u'2003/VB02', u'2003/VB03', u'2003/VB04', u'2003/VB05', u'2003/VB06', u'2003/VB07', u'2003/VM01', u'2003/VM02', u'2003/VM03', u'2003/VM04', u'2003/VM05', u'2003/VM06', u'2003/VM07', u'2003/VM08', u'2003/VM09', u'2003/VM10', u'2003/VM11', u'2003/VM12', u'2003/VM13', u'2003/VM14', u'2003/VM15']
Num docs: 2484

In [5]:
classes_set = set()
years_set = set()
dist_years = dict()
for n in docs_names:
    try:
        int(n[5:7])
    except:
        if n[5:7].isupper():
            classes_set.add(n[5:7])
            years_set.add(n[:4])
            if n[:4] in dist_years:
                dist_years[n[:4]] = dist_years[n[:4]] + 1
            else:
                dist_years[n[:4]] = 1
print classes_set
print years_set
print dist_years


set([u'AA', u'VB', u'CN', u'SP', u'BI', u'VM', u'AP', u'LT', u'VS', u'IM', u'CS', u'ET', u'NS'])
set([u'2002', u'2003', u'2001'])
{u'2002': 204, u'2003': 197, u'2001': 192}
  • AA −> Algorithms & Architectures
  • NS −> Neuroscience
  • BI −> Brain Imaging
  • VS −> Vision
  • VM −> Vision (Machine)
  • VB −> Vision (Biological)
  • LT −> Learning Theory
  • CS −> Cognitive Science & AI
  • IM −> Implementations
  • AP −> Applications
  • SP −> Speech and Signal Processing
  • CN −> Control & Reinforcement Learning
  • ET −> Emerging Technologies

In [6]:
# remove 11, 5, 10, 2
classes = {
 u'AA': 0,
 u'AP': 1,
#  u'BI': 2,
 u'CN': 2,
 u'CS': 3,
#  u'ET': 5,
 u'IM': 4,
 u'LT': 5,
 u'NS': 6,
 u'SP': 7,
#  u'VB': 10,
#  u'VM': 11,
 u'VS': 8
}
classes


Out[6]:
{u'AA': 0,
 u'AP': 1,
 u'CN': 2,
 u'CS': 3,
 u'IM': 4,
 u'LT': 5,
 u'NS': 6,
 u'SP': 7,
 u'VS': 8}

In [7]:
indexes_with_label = []
labels = []
for i, name in enumerate(docs_names):
    clasz = name[5:7]
    if clasz in classes:
        if clasz == 'BI' or clasz == 'ET' or clasz == 'VB' or clasz == 'VM': # remove shallow clusters
            continue
        label_num = classes[clasz]

        indexes_with_label.append(i)
        labels.append(label_num)

In [8]:
print len(indexes_with_label)
print len(labels)
print set(labels)


555
555
set([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [9]:
nips_data['counts']


Out[9]:
<14036x2484 sparse matrix of type '<type 'numpy.uint8'>'
	with 1304438 stored elements in Compressed Sparse Column format>

In [10]:
data = nips_data['counts'].T
print data.shape
data = data[indexes_with_label, :].toarray()
print data.shape
data


(2484, 14036)
(555, 14036)
Out[10]:
array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=uint8)

In [11]:
data.shape


Out[11]:
(555, 14036)

In [12]:
d = data.sum(axis=0)
empty_words_inds = np.where(d != 0)[0]
print empty_words_inds.shape
data = data[:, np.where(d != 0)[0]]
data.shape


(6881,)
Out[12]:
(555, 6881)

In [13]:
class Dataset(object):

    @classmethod
    def fromdataframe(cls, dataframe):
        s = cls()
        s.__dataframe = dataframe
        s.__target_names = dataframe['channel'].unique().tolist()
        s.__target = s.build_targets()
        s.__data = dataframe['all']
        s.__name = 'ig'
        return s

    @classmethod
    def fromnumpyarray(cls, arr, labels):
        s = cls()
        s.__target = labels
        s.__data = arr
        s.__name = 'nips'
        return s

    def build_targets(self):
        classes_index = list(range(len(self.target_names)))
        target_names_to_index = {k: v for k, v in zip(self.target_names, classes_index)}

        return np.array([target_names_to_index[name] for name in self.dataframe['channel']])

    @property
    def name(self):
        return self.__name

    @property
    def dataframe(self):
        return self.__dataframe

    @property
    def target(self):
        return self.__target

    @property
    def target_names(self):
        return self.__target_names

    @property
    def data(self):
        return self.__data


def get_dataset(dataset_name):
    if dataset_name == 'newsgroup':
        return fetch_20newsgroups(subset='all')
    elif dataset_name == 'ig':
        ig_df = pd.read_pickle('all_news_df.pkl')
        return Dataset.fromdataframe(ig_df)
    elif dataset_name == '':
        arr = pd.read_pickle('nips_data')
        labels = pd.read_pickle('nips_labels')
        return Dataset.fromnumpyarray(arr, labels)

In [14]:
np.save(open('nips_data', 'w+'), data)

In [15]:
np.save(open('nips_labels', 'w+'), labels)

In [16]:
d = Dataset.fromnumpyarray(np.load('nips_data'), np.load('nips_labels'))

In [17]:
d.name


Out[17]:
'nips'

In [18]:
d.data


Out[18]:
array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=uint8)

In [19]:
d.target


Out[19]:
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4,
       4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
       5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
       6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8,
       8, 8, 8, 8, 8, 8, 8, 8, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5,
       5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6,
       6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6,
       7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8,
       8, 8, 8, 8, 8, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5,
       5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7,
       7, 7, 7])

In [20]:
print d.data.shape
print len(d.target)


(555, 6881)
555

In [21]:
dict_classes = {}
for t in d.target:
    if t in dict_classes:
        dict_classes[t] = dict_classes[t] + 1
    else:
        dict_classes[t] = 1
sorted(dict_classes.items(), key=lambda x: x[1])


Out[21]:
[(4, 16),
 (7, 26),
 (8, 33),
 (3, 40),
 (1, 47),
 (2, 50),
 (6, 66),
 (5, 68),
 (0, 209)]

In [22]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
names = ['Algorithms & Architectures', 'Neuroscience', 'Brain Imaging', 'Vision',
         'Vision (Machine)', 'Vision (Biological)', 'Learning Theory',
         'Cognitive Science & AI', 'Implementations', 'Applications',
         'Speech and Signal Processing', 'Control & Reinforcement Learning',
         'Emerging Technologies']
cs = [209, 47, 7, 50, 40, 9, 16, 68, 66, 26, 7, 15, 33]
sns.barplot(np.array(names), np.array(cs), palette="Set3")
plt.show()



In [23]:
np.sum(d.data)


Out[23]:
746826

In [36]:
import pandas as pd
def get_dataset(dataset_name):
    if dataset_name == 'newsgroup':
        return fetch_20newsgroups(subset='all')
    elif dataset_name == 'ig':
        ig_df = pd.read_pickle('experiments/all_news_df.pkl')
        return Dataset.fromdataframe(ig_df)
    elif dataset_name == 'igtoy':
        arena_news_df = pd.read_pickle('experiments/arena_news_df.pkl')
        sport_news_df = pd.read_pickle('experiments/sport_news_df.pkl')
        jovem_news_df = pd.read_pickle('experiments/jovem_news_df.pkl')
        labels_true = np.array(len(arena_news_df.ix[0:99])*[0] + len(sport_news_df.ix[0:99])*[1] + len(jovem_news_df.ix[0:99])*[2])
        count_vect = CountVectorizer(encoding='UTF-8',lowercase=False, min_df=2)
        X = count_vect.fit_transform(arena_news_df['all'].ix[0:99].tolist() + sport_news_df['all'].ix[0:99].tolist() + jovem_news_df['all'].ix[0:99].tolist())
        return Dataset.fromnumpyarray(X, labels_true)
    elif dataset_name == 'nips':
        arr = np.load('nips_data')
        labels = np.load('nips_labels')
        return Dataset.fromnumpyarray(arr, labels)

In [35]:
from sklearn.feature_extraction.text import CountVectorizer
d_ig = get_dataset('ig')
vectorizer = CountVectorizer(stop_words='english', min_df=2)
X = vectorizer.fit_transform(d_ig.data)
X.sum()


Out[35]:
1187334

In [37]:
d_igt = get_dataset('igtoy')
d_igt.data.sum()


Out[37]:
70169

In [ ]: