In [1]:
%pylab inline


Populating the interactive namespace from numpy and matplotlib

In [2]:
from tethne.readers import zotero
import matplotlib.pyplot as plt

In [3]:
corpus = zotero.read('/Users/erickpeirson/Projects/tethne-notebooks/data/zotero')

In [4]:
corpus.indexed_papers.items()[0:5]    # The first 10 dois in the Paper index.


Out[4]:
[('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3527233/',
  <tethne.classes.paper.Paper at 0x10ab0dc10>),
 ('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1513266/',
  <tethne.classes.paper.Paper at 0x10c43b490>),
 ('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2211313/',
  <tethne.classes.paper.Paper at 0x10c43b650>),
 ('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2886068/',
  <tethne.classes.paper.Paper at 0x10c43bcd0>),
 ('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1914331/',
  <tethne.classes.paper.Paper at 0x10ab0d090>)]

In [5]:
corpus.structuredfeatures


Out[5]:
{'pdf_text': <tethne.classes.feature.StructuredFeatureSet at 0x10c7cc890>}

In [6]:
pdf_text = corpus.structuredfeatures['pdf_text']

In [7]:
pdf_text.features.values()[0]


Out[7]:
[u'research',
 u'open',
 u'access',
 u'placenta',
 u'tion',
 u'in',
 u'the',
 u'anteaters',
 u'myr',
 u'me',
 u'cop',
 u'hag',
 u'atri',
 u'dactyl',
 u'a',
 u'and',
 u'ta',
 u'mandu',
 u'a',
 u'tetra',
 u'dactyl',
 u'a',
 u'(',
 u'Eutheria',
 u',',
 u'Xenarthra',
 u')',
 u'AndreaMMess1*',
 u',',
 u'phe',
 u'lip',
 u'e',
 u'of',
 u'avar',
 u'on',
 u'1',
 u',',
 u'christian',
 u'ep',
 u'farrer',
 u'2',
 u',',
 u'christine',
 u'osman',
 u'n',
 u'3',
 u',',
 u'AllanPFMelo1',
 u',',
 u'ros',
 u'angela',
 u'f',
 u'rodrigues',
 u'1',
 u',',
 u'CarlosEAmbr\xf3sio4',
 u',',
 u'EstelaBevilacqua5andMariaAMiglino1AbstractBackground',
 u':',
 u'since',
 u'xenarthra',
 u'are',
 u'serious',
 u'candidates',
 u'for',
 u'being',
 u'basal',
 u'to',
 u'eutheria',
 u',',
 u'their',
 u'characteristics',
 u',',
 u'e.g.theplacentalsystem',
 u',',
 u'influence',
 u'perceptions',
 u'of',
 u'evolution',
 u'.',
 u'h',
 u'o',
 u'w',
 u'e',
 u'v',
 u'e',
 u'r',
 u',',
 u'in',
 u'the',
 u'subgroup',
 u'containing',
 u'the',
 u'anteaters',
 u',',
 u'dataareverylimited.Thepresentstudyaimstoelucidatethenatureofthefeto-maternalinterfaceintheanteaterplacentaandtointerpretthesedatawithinanevolutionarycontext.Methods',
 u':',
 u'placentas',
 u'of',
 u'two',
 u'species',
 u'were',
 u'investigated',
 u'with',
 u'histology',
 u',',
 u'immuno',
 u'his',
 u'to',
 u'chemistry',
 u'and',
 u'transmission',
 u'electron',
 u'microscopy',
 u'.',
 u'r',
 u'e',
 u's',
 u'u',
 u'l',
 u't',
 u's',
 u':',
 u'remnants',
 u'of',
 u'the',
 u'maternal',
 u'vessel',
 u'endothelium',
 u'were',
 u'absent',
 u',',
 u'resulting',
 u'in',
 u'a',
 u'fully',
 u'hae',
 u'm',
 u'ocho',
 u'rial',
 u'barrier',
 u'throughout',
 u'the',
 u'placenta',
 u'.',
 u't',
 u'w',
 u'o',
 u's',
 u't',
 u'r',
 u'u',
 u'c',
 u't',
 u'u',
 u'r',
 u'a',
 u'l',
 u'l',
 u'y',
 u'd',
 u'i',
 u'f',
 u'f',
 u'e',
 u'r',
 u'e',
 u'n',
 u't',
 u'p',
 u'a',
 u'r',
 u't',
 u's',
 u',',
 u'the',
 u'vil',
 u'lou',
 u's',
 u'and',
 u'tra',
 u'be',
 u'cula',
 u'rare',
 u'as',
 u'were',
 u'complex',
 u'and',
 u'intermingled',
 u'.',
 u'i',
 u'n',
 u'p',
 u'a',
 u'r',
 u't',
 u'i',
 u'c',
 u'u',
 u'l',
 u'a',
 u'r',
 u',',
 u'the',
 u'tra',
 u'be',
 u'cula',
 u'e',
 u'which',
 u'consisted',
 u'of',
 u'cellular',
 u',',
 u'pro',
 u'life',
 u'rat',
 u'ive',
 u'troph',
 u'oblast',
 u',',
 u'associated',
 u'with',
 u'connective',
 u'tissue',
 u',',
 u'wereattachedtothedecidua.Thevillicontainedfetalcapillariesandhypertrophiedmesenchymalcellsthatoccurednearthesurfaceneartheendofgestation.Thesurfaceofthevilliconsistedofflat',
 u',',
 u'syncytial',
 u'troph',
 u'oblast',
 u',',
 u'interspersed',
 u'with',
 u'pro',
 u'life',
 u'rat',
 u'ive',
 u'troph',
 u'oblast',
 u'cells',
 u'.',
 u'c',
 u'o',
 u'n',
 u'c',
 u'l',
 u'u',
 u's',
 u'i',
 u'o',
 u'n',
 u's',
 u':',
 u'based',
 u'on',
 u'fundamental',
 u'differences',
 u'between',
 u'anteaters',
 u'and',
 u'armadillos',
 u',',
 u'weinferredthatplacentalevolutionwasmorecomplexthanpreviouslythought.Thehaemochorialpatternofanteaterswaslikelyanancientconditionofxenarthrans.Consequently',
 u',',
 u'vil',
 u'lou',
 u's',
 u'placenta',
 u'tion',
 u'maybe',
 u'attributed',
 u',',
 u'atleastinpart',
 u',',
 u'by',
 u'convergent',
 u'evolution',
 u',',
 u'but',
 u'was',
 u'also',
 u'characterized',
 u'by',
 u'some',
 u'features',
 u'that',
 u'were',
 u'widespread',
 u'among',
 u'xenarthrans',
 u'.',
 u'k',
 u'e',
 u'y',
 u'w',
 u'o',
 u'r',
 u'd',
 u's',
 u':',
 u'Evolution',
 u',',
 u'Vermilingua',
 u',',
 u'Trophoblast',
 u',',
 u'inter',
 u'hae',
 u'mal',
 u'barrier',
 u',',
 u'vil',
 u'lou',
 u's',
 u'placenta',
 u'background',
 u'xenarthra',
 u'is',
 u'a',
 u'group',
 u'of',
 u'eutherian',
 u'mammals',
 u'that',
 u'evolved',
 u'in',
 u'south',
 u'america',
 u'since',
 u'the',
 u'mid',
 u'paleocene',
 u'and',
 u'subs',
 u'e',
 u'-',
 u'q',
 u'u',
 u'e',
 u'n',
 u't',
 u'l',
 u'y',
 u'r',
 u'a',
 u'd',
 u'i',
 u'a',
 u't',
 u'e',
 u'd',
 u's',
 u'u',
 u'c',
 u'c',
 u'e',
 u's',
 u's',
 u'f',
 u'u',
 u'l',
 u'l',
 u'y',
 u'[',
 u'1-3',
 u']',
 u'.Threedistinctgroupsevolved',
 u':',
 u'cingulata',
 u'comprises',
 u'armadillos',
 u'(',
 u'Dasypodidae',
 u')',
 u',',
 u'pilosa',
 u'include',
 u'sloths',
 u'(',
 u'brady',
 u'podi',
 u'dae',
 u'and',
 u'mega',
 u'lo',
 u'nyc',
 u'hida',
 u'e',
 u')',
 u'andanteaters',
 u'(',
 u'Vermilingua',
 u':',
 u'myr',
 u'me',
 u'cop',
 u'hag',
 u'i',
 u'dae',
 u'and',
 u'cy',
 u'clop',
 u'edi',
 u'dae',
 u')',
 u'[',
 u'4-6',
 u']',
 u'.Thelatterhadaspecialized',
 u',',
 u'elon-gatedrostrum',
 u',',
 u'prominent',
 u'claws',
 u'and',
 u'long',
 u'gestation',
 u'periods',
 u';',
 u'they',
 u'were',
 u'solitary',
 u',',
 u'crepuscular',
 u'and',
 u'inhabited',
 u'grasslands',
 u'and',
 u'other',
 u'habitats',
 u'of',
 u'central',
 u'south',
 u'america',
 u'[',
 u'7-10',
 u']',
 u'.XenarthrarepresentsasupraordinalcladeofEutheria.SincetheyareseriouscandidatesforbeingbasaltoEutheria',
 u'[',
 u'11-13',
 u']',
 u',',
 u'their',
 u'character',
 u'conditions',
 u'influence',
 u'perceptions',
 u'of',
 u'eutherian',
 u'evolution',
 u'[',
 u'14',
 u']',
 u'.Inparticular',
 u',',
 u'pla-centalcharactersvaryamongxenarthrans',
 u'[',
 u'15-19',
 u']',
 u'.Placen-tationhasbeenwellcharacterizedinarmadillos',
 u'[',
 u'20-26',
 u']',
 u';',
 u'they',
 u'have',
 u'vil',
 u'lou',
 u's',
 u'and',
 u'hae',
 u'm',
 u'ocho',
 u'rial',
 u'placentas',
 u'formed',
 u'by',
 u'a',
 u'peculiar',
 u',',
 u'partly',
 u'invasive',
 u'interaction',
 u'with',
 u'maternal',
 u'vessels',
 u'[',
 u'25-27',
 u']',
 u'.Incontrastslothshavelobulated',
 u',',
 u'labyrinthine',
 u'and',
 u'endo',
 u'the',
 u'li',
 u'ocho',
 u'rial',
 u'placentas',
 u'[',
 u'28-30',
 u']',
 u'.Anteatersareregardedasbeingsimilartoarmadillos.Consequently',
 u',',
 u'anarmadillo-likepatternisregardedtorepresenttheancientconditionofXenarthra',
 u',',
 u'resultinginevolutionarytransfor-mationsonthestemlineageofsloths',
 u'[',
 u'31',
 u']',
 u'.However',
 u',',
 u'data*Correspondence',
 u':',
 u'drandrmss',
 u'@',
 u'aol.com1DepartmentofSurgery',
 u',',
 u'faculty',
 u'of',
 u'veterinary',
 u'medicine',
 u'and',
 u'animal',
 u'science',
 u',',
 u'university',
 u'of',
 u'sao',
 u'paulo',
 u',',
 u'Av.Prof.Dr.OrlandoMarquesdePaiva,87',
 u',',
 u'cidade',
 u'universit',
 u'\xe1',
 u'r',
 u'i',
 u'a',
 u',',
 u'S\xe3oPauloSP',
 u',',
 u'CEP05508-270',
 u',',
 u'brazil',
 u'full',
 u'list',
 u'of',
 u'author',
 u'information',
 u'is',
 u'available',
 u'at',
 u'the',
 u'end',
 u'of',
 u'the',
 u'article',
 u'\xa9',
 u'2',
 u'0',
 u'1',
 u'2',
 u'm',
 u'e',
 u's',
 u's',
 u'e',
 u't',
 u'a',
 u'l',
 u'.',
 u';',
 u'licenseeBioMedCentralLtd.ThisisanOpenAccessarticledistributedunderthetermsoftheCreativeCommonsAttributionLicense',
 u'(',
 u'http',
 u':',
 u'//creativecommons.org/licenses/by/2.0',
 u')',
 u',',
 u'which',
 u'permits',
 u'unrestricted',
 u'use',
 u',',
 u'distribution',
 u',',
 u'and',
 u'reproduction',
 u'in',
 u'any',
 u'medium',
 u',',
 u'providedtheoriginalworkisproperlycited.Messetal.ReproductiveBiologyandEndocrinology2012,10:102http',
 u':',
 u'//www.rbej.com/content/10/1/102',
 u'on',
 u'anteater',
 u'placenta',
 u'tion',
 u'are',
 u'limited',
 u'to',
 u'a',
 u'nearly',
 u'stage',
 u'[',
 u'32',
 u']',
 u'and',
 u'delivered',
 u'placentas',
 u'[',
 u'33',
 u']',
 u'of',
 u'the',
 u'giant',
 u'anteater',
 u'myr',
 u'me',
 u'cop',
 u'hag',
 u'atri',
 u'dactyl',
 u'a',
 u',',
 u'approximately10stagesfromearly-tomid-gestationofthelesseranteaterTamanduatetradactyla',
 u'[',
 u'34',
 u']',
 u'aswellasasingle',
 u',',
 u'latestageofthetwo-toedanteaterCyclopesdidactyla',
 u'[',
 u'35',
 u']',
 u'.Importantaspectsareunresolved',
 u',',
 u'i.e.thedegreeoftrophoblastinvasion',
 u',',
 u'development',
 u'and',
 u'fine',
 u'structure',
 u'of',
 u'the',
 u'tra',
 u'be',
 u'cula',
 u'rare',
 u'a',
 u',',
 u'contributionoffetalormater-naltissuestothemaswellasthepresenceorabsenceofcellulartrophoblastinthevilliatterm',
 u'[',
 u'33',
 u']',
 u'.Theob-jectiveofthepresentstudywastousehistology',
 u',',
 u'immunohistochemistryandtransmissionelectronmi-croscopytocharacterizesimilaritiesanddifferencesamongxenarthransandtointerpretthesedatainanevolutionarycontext.MethodsTissuecollectionMaterialfromMyrmecophagatridactyla',
 u',',
 u'acquiredfromaroad-killedanimalinBrazil',
 u',',
 u'represented',
 u'mid',
 u'gestation',
 u'(',
 u'approximately100\u2013110days',
 u'[',
 u'36,37',
 u']',
 u')',
 u'.ThreedeliveredplacentaswereobtainedfromthebreedinggroupatDortmundZoo',
 u',',
 u'Germany.Anear-termstagefromTamanduatetradactylathatwasmoreadvancedthanthosedescribedbyBecher',
 u'[',
 u'34',
 u']',
 u'was',
 u'derived',
 u'from',
 u'the',
 u'zoological',
 u'park',
 u'in',
 u'il',
 u'has',
 u'olte',
 u'ira',
 u',',
 u'Brazil.Thisre-searchwasapprovedbytheEthicalCommitteeattheFacultyofVeterinaryMedicineandAnimalScienceoftheUniversityofSaoPaulo.HistologyandimmunohistochemistryMaterialforhistology',
 u',',
 u'fixedin10',
 u'%',
 u'formalinin0.1MphosphatebufferorBouin\u2019ssolution',
 u',',
 u'was',
 u'embedded',
 u'in',
 u'para',
 u'p',
 u'last',
 u',',
 u'sectionedat5\u03bcminanautomaticmicro-tome',
 u'(',
 u'LeicaRM2155',
 u',',
 u'Nussloch',
 u',',
 u'Germany',
 u')',
 u',',
 u'and',
 u'stained',
 u'with',
 u'hae',
 u'mato',
 u'xy',
 u'lin',
 u'and',
 u'eos',
 u'in',
 u',',
 u'Masson\u2019stri-chrome',
 u',',
 u'to',
 u'lui',
 u'dine',
 u'blue',
 u'and',
 u'the',
 u'periodic',
 u'acid',
 u'schiff',
 u're',
 u'-',
 u'a',
 u'c',
 u't',
 u'i',
 u'o',
 u'n',
 u'(',
 u'PAS',
 u')',
 u'.Immunohistochemistry',
 u'(',
 u'fordetailssee',
 u'[',
 u'26,38',
 u']',
 u')',
 u'for',
 u'vi',
 u'ment',
 u'in',
 u'was',
 u'done',
 u'to',
 u'detect',
 u'mes',
 u'enc',
 u'hy',
 u'mal',
 u'cells',
 u',',
 u'including',
 u'remnants',
 u'of',
 u'the',
 u'maternal',
 u'endothelium',
 u'and',
 u'strom',
 u'al',
 u'decidua',
 u'(',
 u'mousemonoclonalanti-humanantibody',
 u';',
 u'RTU-VimV9',
 u';',
 u'1:300',
 u';',
 u'Novacastra',
 u';',
 u'Wetzlar',
 u',',
 u'Germany',
 u')',
 u',',
 u'\u03b1-smoothmuscleactinthatsimilarlyla-beledvesselwalls',
 u'(',
 u'1:400',
 u';',
 u'Clone1A4',
 u';',
 u'DakoCytoma-tion',
 u';',
 u'Carpinteria',
 u',',
 u'California',
 u',',
 u'USA',
 u')',
 u',',
 u'cyto',
 u'keratin',
 u'to',
 u'identify',
 u'epithelial',
 u'tissues',
 u'including',
 u'troph',
 u'oblast',
 u'(',
 u'rabbit',
 u'poly',
 u'cl',
 u'on',
 u'al',
 u'antibody',
 u';',
 u'wide',
 u'spectrum',
 u'screening',
 u'n',
 u'1',
 u'5',
 u'1',
 u'2',
 u';',
 u'1:100',
 u';',
 u'Dako',
 u')',
 u'and',
 u'as',
 u'proliferation',
 u'marker',
 u'a',
 u'mouse',
 u'mono',
 u'cl',
 u'on',
 u'al',
 u'antibody',
 u'to',
 u'human',
 u'anti',
 u'-',
 u'p',
 u'c',
 u'n',
 u'a',
 u'(',
 u'prolifera-tioncellnuclearantigen',
 u';',
 u'clonePC10',
 u';',
 u'1:300',
 u';',
 u'Sigma',
 u';',
 u'St.Louis',
 u',',
 u'USA',
 u')',
 u'.Sectionsweresubjectedtoendogen-ousperoxidaseblockage',
 u',',
 u'non-specificbindingwasblocked',
 u'[',
 u'38',
 u']',
 u',',
 u'incubated',
 u'with',
 u'the',
 u'primary',
 u'antibodies',
 u'overnight',
 u'at',
 u'4',
 u'\xb0',
 u'c',
 u'i',
 u'n',
 u'a',
 u'h',
 u'u',
 u'm',
 u'i',
 u'd',
 u'c',
 u'h',
 u'a',
 u'm',
 u'b',
 u'e',
 u'r',
 u',',
 u'andrinsedinPBS.Abiotinylatedsecondaryantibodyandstreptavidin-HRP',
 u'(',
 u'Dako',
 u')',
 u'wereappliedfor30mineach',
 u',',
 u'followedbyrinsingwithPBS.DetectionwasdonewithFastRedTR/NaphtholAS-MX',
 u'(',
 u'F4523',
 u',',
 u'Sigma',
 u')',
 u'or',
 u'dab',
 u'and',
 u'substrate',
 u'ch',
 u'romo',
 u'gen',
 u'system',
 u'(',
 u'Dako',
 u')',
 u'for2min',
 u',',
 u'counterstainedwithhaematoxy-linandeosinandmountedinFaramontW',
 u'(',
 u'Dako',
 u')',
 u'.Negativecontrolsusedagoatanti-MouseIgG',
 u'(',
 u'AP308F,1:500',
 u';',
 u'-ChemiconInternationalTemecula',
 u',',
 u'California',
 u',',
 u'USA',
 u')',
 u'inlieuofprimaryantibody.SlideswereexaminedwithanOlympusBX40microscopewithZeissKS400imageanalysissystem.TransmissionelectronmicroscopySamplesforTEMwerefixedin2.5',
 u'%',
 u'glut',
 u'ar',
 u'aldehyde',
 u'inca',
 u'cody',
 u'late',
 u'buffer',
 u',',
 u'post-fixedin2',
 u'%',
 u'phosphate-bufferedosmiumtetroxideatph7.4for2h',
 u',',
 u'embed-dedinSpurr\u2019sResinandsectionedwithanauto-maticultramicrotome',
 u'(',
 u'UltracutR',
 u',',
 u'Leica',
 u')',
 u'.Semi-thinsections',
 u'(',
 u'400nm',
 u')',
 u'werestainedwithtoluidineblue.Ultrathinsections',
 u'(',
 u'90nm',
 u')',
 u'were',
 u'contrasted',
 u'with',
 u'2',
 u'%',
 u'ur',
 u'any',
 u'l',
 u'acetate',
 u'and',
 u'0',
 u'.',
 u'5',
 u'%',
 u'lead',
 u'citrate',
 u'and',
 u'studied',
 u'in',
 u'an',
 u'electron',
 u'microscope',
 u'(',
 u'Morgagni268D',
 u',',
 u'FEICom-pany',
 u',',
 u'TheNetherlands',
 u';',
 u'mega',
 u'view',
 u'iii',
 u'camera',
 ...]

In [8]:
# plt.hist([len(f) for f in pdf_text.features.values()[0]], bins=60, alpha=0.3)
plt.hist([len(f) for f in pdf_text.features.values()[1]], bins=60, alpha=0.3)
plt.hist([len(f) for f in pdf_text.features.values()[2]], bins=60, alpha=0.3)
# plt.hist([len(f) for f in pdf_text.features.values()[3]], bins=60, alpha=0.3)
plt.yscale('log')
plt.show()



In [27]:
mean([len(f) for f in pdf_text.features.values()[0]])


Out[27]:
16.144044321329641

In [26]:
mean([len(f) for f in pdf_text.features.values()[2]])


Out[26]:
5.1667772197479387

In [4]:
from math import


---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-4-95671bc508d6> in <module>()
----> 1 from math import avg

ImportError: cannot import name avg

In [ ]: