In [1]:
%pylab inline
Populating the interactive namespace from numpy and matplotlib
In [2]:
from tethne.readers import zotero
import matplotlib.pyplot as plt
In [3]:
corpus = zotero.read('/Users/erickpeirson/Projects/tethne-notebooks/data/zotero')
In [4]:
corpus.indexed_papers.items()[0:5] # The first 10 dois in the Paper index.
Out[4]:
[('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3527233/',
<tethne.classes.paper.Paper at 0x10ab0dc10>),
('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1513266/',
<tethne.classes.paper.Paper at 0x10c43b490>),
('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2211313/',
<tethne.classes.paper.Paper at 0x10c43b650>),
('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2886068/',
<tethne.classes.paper.Paper at 0x10c43bcd0>),
('http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1914331/',
<tethne.classes.paper.Paper at 0x10ab0d090>)]
In [5]:
corpus.structuredfeatures
Out[5]:
{'pdf_text': <tethne.classes.feature.StructuredFeatureSet at 0x10c7cc890>}
In [6]:
pdf_text = corpus.structuredfeatures['pdf_text']
In [7]:
pdf_text.features.values()[0]
Out[7]:
[u'research',
u'open',
u'access',
u'placenta',
u'tion',
u'in',
u'the',
u'anteaters',
u'myr',
u'me',
u'cop',
u'hag',
u'atri',
u'dactyl',
u'a',
u'and',
u'ta',
u'mandu',
u'a',
u'tetra',
u'dactyl',
u'a',
u'(',
u'Eutheria',
u',',
u'Xenarthra',
u')',
u'AndreaMMess1*',
u',',
u'phe',
u'lip',
u'e',
u'of',
u'avar',
u'on',
u'1',
u',',
u'christian',
u'ep',
u'farrer',
u'2',
u',',
u'christine',
u'osman',
u'n',
u'3',
u',',
u'AllanPFMelo1',
u',',
u'ros',
u'angela',
u'f',
u'rodrigues',
u'1',
u',',
u'CarlosEAmbr\xf3sio4',
u',',
u'EstelaBevilacqua5andMariaAMiglino1AbstractBackground',
u':',
u'since',
u'xenarthra',
u'are',
u'serious',
u'candidates',
u'for',
u'being',
u'basal',
u'to',
u'eutheria',
u',',
u'their',
u'characteristics',
u',',
u'e.g.theplacentalsystem',
u',',
u'influence',
u'perceptions',
u'of',
u'evolution',
u'.',
u'h',
u'o',
u'w',
u'e',
u'v',
u'e',
u'r',
u',',
u'in',
u'the',
u'subgroup',
u'containing',
u'the',
u'anteaters',
u',',
u'dataareverylimited.Thepresentstudyaimstoelucidatethenatureofthefeto-maternalinterfaceintheanteaterplacentaandtointerpretthesedatawithinanevolutionarycontext.Methods',
u':',
u'placentas',
u'of',
u'two',
u'species',
u'were',
u'investigated',
u'with',
u'histology',
u',',
u'immuno',
u'his',
u'to',
u'chemistry',
u'and',
u'transmission',
u'electron',
u'microscopy',
u'.',
u'r',
u'e',
u's',
u'u',
u'l',
u't',
u's',
u':',
u'remnants',
u'of',
u'the',
u'maternal',
u'vessel',
u'endothelium',
u'were',
u'absent',
u',',
u'resulting',
u'in',
u'a',
u'fully',
u'hae',
u'm',
u'ocho',
u'rial',
u'barrier',
u'throughout',
u'the',
u'placenta',
u'.',
u't',
u'w',
u'o',
u's',
u't',
u'r',
u'u',
u'c',
u't',
u'u',
u'r',
u'a',
u'l',
u'l',
u'y',
u'd',
u'i',
u'f',
u'f',
u'e',
u'r',
u'e',
u'n',
u't',
u'p',
u'a',
u'r',
u't',
u's',
u',',
u'the',
u'vil',
u'lou',
u's',
u'and',
u'tra',
u'be',
u'cula',
u'rare',
u'as',
u'were',
u'complex',
u'and',
u'intermingled',
u'.',
u'i',
u'n',
u'p',
u'a',
u'r',
u't',
u'i',
u'c',
u'u',
u'l',
u'a',
u'r',
u',',
u'the',
u'tra',
u'be',
u'cula',
u'e',
u'which',
u'consisted',
u'of',
u'cellular',
u',',
u'pro',
u'life',
u'rat',
u'ive',
u'troph',
u'oblast',
u',',
u'associated',
u'with',
u'connective',
u'tissue',
u',',
u'wereattachedtothedecidua.Thevillicontainedfetalcapillariesandhypertrophiedmesenchymalcellsthatoccurednearthesurfaceneartheendofgestation.Thesurfaceofthevilliconsistedofflat',
u',',
u'syncytial',
u'troph',
u'oblast',
u',',
u'interspersed',
u'with',
u'pro',
u'life',
u'rat',
u'ive',
u'troph',
u'oblast',
u'cells',
u'.',
u'c',
u'o',
u'n',
u'c',
u'l',
u'u',
u's',
u'i',
u'o',
u'n',
u's',
u':',
u'based',
u'on',
u'fundamental',
u'differences',
u'between',
u'anteaters',
u'and',
u'armadillos',
u',',
u'weinferredthatplacentalevolutionwasmorecomplexthanpreviouslythought.Thehaemochorialpatternofanteaterswaslikelyanancientconditionofxenarthrans.Consequently',
u',',
u'vil',
u'lou',
u's',
u'placenta',
u'tion',
u'maybe',
u'attributed',
u',',
u'atleastinpart',
u',',
u'by',
u'convergent',
u'evolution',
u',',
u'but',
u'was',
u'also',
u'characterized',
u'by',
u'some',
u'features',
u'that',
u'were',
u'widespread',
u'among',
u'xenarthrans',
u'.',
u'k',
u'e',
u'y',
u'w',
u'o',
u'r',
u'd',
u's',
u':',
u'Evolution',
u',',
u'Vermilingua',
u',',
u'Trophoblast',
u',',
u'inter',
u'hae',
u'mal',
u'barrier',
u',',
u'vil',
u'lou',
u's',
u'placenta',
u'background',
u'xenarthra',
u'is',
u'a',
u'group',
u'of',
u'eutherian',
u'mammals',
u'that',
u'evolved',
u'in',
u'south',
u'america',
u'since',
u'the',
u'mid',
u'paleocene',
u'and',
u'subs',
u'e',
u'-',
u'q',
u'u',
u'e',
u'n',
u't',
u'l',
u'y',
u'r',
u'a',
u'd',
u'i',
u'a',
u't',
u'e',
u'd',
u's',
u'u',
u'c',
u'c',
u'e',
u's',
u's',
u'f',
u'u',
u'l',
u'l',
u'y',
u'[',
u'1-3',
u']',
u'.Threedistinctgroupsevolved',
u':',
u'cingulata',
u'comprises',
u'armadillos',
u'(',
u'Dasypodidae',
u')',
u',',
u'pilosa',
u'include',
u'sloths',
u'(',
u'brady',
u'podi',
u'dae',
u'and',
u'mega',
u'lo',
u'nyc',
u'hida',
u'e',
u')',
u'andanteaters',
u'(',
u'Vermilingua',
u':',
u'myr',
u'me',
u'cop',
u'hag',
u'i',
u'dae',
u'and',
u'cy',
u'clop',
u'edi',
u'dae',
u')',
u'[',
u'4-6',
u']',
u'.Thelatterhadaspecialized',
u',',
u'elon-gatedrostrum',
u',',
u'prominent',
u'claws',
u'and',
u'long',
u'gestation',
u'periods',
u';',
u'they',
u'were',
u'solitary',
u',',
u'crepuscular',
u'and',
u'inhabited',
u'grasslands',
u'and',
u'other',
u'habitats',
u'of',
u'central',
u'south',
u'america',
u'[',
u'7-10',
u']',
u'.XenarthrarepresentsasupraordinalcladeofEutheria.SincetheyareseriouscandidatesforbeingbasaltoEutheria',
u'[',
u'11-13',
u']',
u',',
u'their',
u'character',
u'conditions',
u'influence',
u'perceptions',
u'of',
u'eutherian',
u'evolution',
u'[',
u'14',
u']',
u'.Inparticular',
u',',
u'pla-centalcharactersvaryamongxenarthrans',
u'[',
u'15-19',
u']',
u'.Placen-tationhasbeenwellcharacterizedinarmadillos',
u'[',
u'20-26',
u']',
u';',
u'they',
u'have',
u'vil',
u'lou',
u's',
u'and',
u'hae',
u'm',
u'ocho',
u'rial',
u'placentas',
u'formed',
u'by',
u'a',
u'peculiar',
u',',
u'partly',
u'invasive',
u'interaction',
u'with',
u'maternal',
u'vessels',
u'[',
u'25-27',
u']',
u'.Incontrastslothshavelobulated',
u',',
u'labyrinthine',
u'and',
u'endo',
u'the',
u'li',
u'ocho',
u'rial',
u'placentas',
u'[',
u'28-30',
u']',
u'.Anteatersareregardedasbeingsimilartoarmadillos.Consequently',
u',',
u'anarmadillo-likepatternisregardedtorepresenttheancientconditionofXenarthra',
u',',
u'resultinginevolutionarytransfor-mationsonthestemlineageofsloths',
u'[',
u'31',
u']',
u'.However',
u',',
u'data*Correspondence',
u':',
u'drandrmss',
u'@',
u'aol.com1DepartmentofSurgery',
u',',
u'faculty',
u'of',
u'veterinary',
u'medicine',
u'and',
u'animal',
u'science',
u',',
u'university',
u'of',
u'sao',
u'paulo',
u',',
u'Av.Prof.Dr.OrlandoMarquesdePaiva,87',
u',',
u'cidade',
u'universit',
u'\xe1',
u'r',
u'i',
u'a',
u',',
u'S\xe3oPauloSP',
u',',
u'CEP05508-270',
u',',
u'brazil',
u'full',
u'list',
u'of',
u'author',
u'information',
u'is',
u'available',
u'at',
u'the',
u'end',
u'of',
u'the',
u'article',
u'\xa9',
u'2',
u'0',
u'1',
u'2',
u'm',
u'e',
u's',
u's',
u'e',
u't',
u'a',
u'l',
u'.',
u';',
u'licenseeBioMedCentralLtd.ThisisanOpenAccessarticledistributedunderthetermsoftheCreativeCommonsAttributionLicense',
u'(',
u'http',
u':',
u'//creativecommons.org/licenses/by/2.0',
u')',
u',',
u'which',
u'permits',
u'unrestricted',
u'use',
u',',
u'distribution',
u',',
u'and',
u'reproduction',
u'in',
u'any',
u'medium',
u',',
u'providedtheoriginalworkisproperlycited.Messetal.ReproductiveBiologyandEndocrinology2012,10:102http',
u':',
u'//www.rbej.com/content/10/1/102',
u'on',
u'anteater',
u'placenta',
u'tion',
u'are',
u'limited',
u'to',
u'a',
u'nearly',
u'stage',
u'[',
u'32',
u']',
u'and',
u'delivered',
u'placentas',
u'[',
u'33',
u']',
u'of',
u'the',
u'giant',
u'anteater',
u'myr',
u'me',
u'cop',
u'hag',
u'atri',
u'dactyl',
u'a',
u',',
u'approximately10stagesfromearly-tomid-gestationofthelesseranteaterTamanduatetradactyla',
u'[',
u'34',
u']',
u'aswellasasingle',
u',',
u'latestageofthetwo-toedanteaterCyclopesdidactyla',
u'[',
u'35',
u']',
u'.Importantaspectsareunresolved',
u',',
u'i.e.thedegreeoftrophoblastinvasion',
u',',
u'development',
u'and',
u'fine',
u'structure',
u'of',
u'the',
u'tra',
u'be',
u'cula',
u'rare',
u'a',
u',',
u'contributionoffetalormater-naltissuestothemaswellasthepresenceorabsenceofcellulartrophoblastinthevilliatterm',
u'[',
u'33',
u']',
u'.Theob-jectiveofthepresentstudywastousehistology',
u',',
u'immunohistochemistryandtransmissionelectronmi-croscopytocharacterizesimilaritiesanddifferencesamongxenarthransandtointerpretthesedatainanevolutionarycontext.MethodsTissuecollectionMaterialfromMyrmecophagatridactyla',
u',',
u'acquiredfromaroad-killedanimalinBrazil',
u',',
u'represented',
u'mid',
u'gestation',
u'(',
u'approximately100\u2013110days',
u'[',
u'36,37',
u']',
u')',
u'.ThreedeliveredplacentaswereobtainedfromthebreedinggroupatDortmundZoo',
u',',
u'Germany.Anear-termstagefromTamanduatetradactylathatwasmoreadvancedthanthosedescribedbyBecher',
u'[',
u'34',
u']',
u'was',
u'derived',
u'from',
u'the',
u'zoological',
u'park',
u'in',
u'il',
u'has',
u'olte',
u'ira',
u',',
u'Brazil.Thisre-searchwasapprovedbytheEthicalCommitteeattheFacultyofVeterinaryMedicineandAnimalScienceoftheUniversityofSaoPaulo.HistologyandimmunohistochemistryMaterialforhistology',
u',',
u'fixedin10',
u'%',
u'formalinin0.1MphosphatebufferorBouin\u2019ssolution',
u',',
u'was',
u'embedded',
u'in',
u'para',
u'p',
u'last',
u',',
u'sectionedat5\u03bcminanautomaticmicro-tome',
u'(',
u'LeicaRM2155',
u',',
u'Nussloch',
u',',
u'Germany',
u')',
u',',
u'and',
u'stained',
u'with',
u'hae',
u'mato',
u'xy',
u'lin',
u'and',
u'eos',
u'in',
u',',
u'Masson\u2019stri-chrome',
u',',
u'to',
u'lui',
u'dine',
u'blue',
u'and',
u'the',
u'periodic',
u'acid',
u'schiff',
u're',
u'-',
u'a',
u'c',
u't',
u'i',
u'o',
u'n',
u'(',
u'PAS',
u')',
u'.Immunohistochemistry',
u'(',
u'fordetailssee',
u'[',
u'26,38',
u']',
u')',
u'for',
u'vi',
u'ment',
u'in',
u'was',
u'done',
u'to',
u'detect',
u'mes',
u'enc',
u'hy',
u'mal',
u'cells',
u',',
u'including',
u'remnants',
u'of',
u'the',
u'maternal',
u'endothelium',
u'and',
u'strom',
u'al',
u'decidua',
u'(',
u'mousemonoclonalanti-humanantibody',
u';',
u'RTU-VimV9',
u';',
u'1:300',
u';',
u'Novacastra',
u';',
u'Wetzlar',
u',',
u'Germany',
u')',
u',',
u'\u03b1-smoothmuscleactinthatsimilarlyla-beledvesselwalls',
u'(',
u'1:400',
u';',
u'Clone1A4',
u';',
u'DakoCytoma-tion',
u';',
u'Carpinteria',
u',',
u'California',
u',',
u'USA',
u')',
u',',
u'cyto',
u'keratin',
u'to',
u'identify',
u'epithelial',
u'tissues',
u'including',
u'troph',
u'oblast',
u'(',
u'rabbit',
u'poly',
u'cl',
u'on',
u'al',
u'antibody',
u';',
u'wide',
u'spectrum',
u'screening',
u'n',
u'1',
u'5',
u'1',
u'2',
u';',
u'1:100',
u';',
u'Dako',
u')',
u'and',
u'as',
u'proliferation',
u'marker',
u'a',
u'mouse',
u'mono',
u'cl',
u'on',
u'al',
u'antibody',
u'to',
u'human',
u'anti',
u'-',
u'p',
u'c',
u'n',
u'a',
u'(',
u'prolifera-tioncellnuclearantigen',
u';',
u'clonePC10',
u';',
u'1:300',
u';',
u'Sigma',
u';',
u'St.Louis',
u',',
u'USA',
u')',
u'.Sectionsweresubjectedtoendogen-ousperoxidaseblockage',
u',',
u'non-specificbindingwasblocked',
u'[',
u'38',
u']',
u',',
u'incubated',
u'with',
u'the',
u'primary',
u'antibodies',
u'overnight',
u'at',
u'4',
u'\xb0',
u'c',
u'i',
u'n',
u'a',
u'h',
u'u',
u'm',
u'i',
u'd',
u'c',
u'h',
u'a',
u'm',
u'b',
u'e',
u'r',
u',',
u'andrinsedinPBS.Abiotinylatedsecondaryantibodyandstreptavidin-HRP',
u'(',
u'Dako',
u')',
u'wereappliedfor30mineach',
u',',
u'followedbyrinsingwithPBS.DetectionwasdonewithFastRedTR/NaphtholAS-MX',
u'(',
u'F4523',
u',',
u'Sigma',
u')',
u'or',
u'dab',
u'and',
u'substrate',
u'ch',
u'romo',
u'gen',
u'system',
u'(',
u'Dako',
u')',
u'for2min',
u',',
u'counterstainedwithhaematoxy-linandeosinandmountedinFaramontW',
u'(',
u'Dako',
u')',
u'.Negativecontrolsusedagoatanti-MouseIgG',
u'(',
u'AP308F,1:500',
u';',
u'-ChemiconInternationalTemecula',
u',',
u'California',
u',',
u'USA',
u')',
u'inlieuofprimaryantibody.SlideswereexaminedwithanOlympusBX40microscopewithZeissKS400imageanalysissystem.TransmissionelectronmicroscopySamplesforTEMwerefixedin2.5',
u'%',
u'glut',
u'ar',
u'aldehyde',
u'inca',
u'cody',
u'late',
u'buffer',
u',',
u'post-fixedin2',
u'%',
u'phosphate-bufferedosmiumtetroxideatph7.4for2h',
u',',
u'embed-dedinSpurr\u2019sResinandsectionedwithanauto-maticultramicrotome',
u'(',
u'UltracutR',
u',',
u'Leica',
u')',
u'.Semi-thinsections',
u'(',
u'400nm',
u')',
u'werestainedwithtoluidineblue.Ultrathinsections',
u'(',
u'90nm',
u')',
u'were',
u'contrasted',
u'with',
u'2',
u'%',
u'ur',
u'any',
u'l',
u'acetate',
u'and',
u'0',
u'.',
u'5',
u'%',
u'lead',
u'citrate',
u'and',
u'studied',
u'in',
u'an',
u'electron',
u'microscope',
u'(',
u'Morgagni268D',
u',',
u'FEICom-pany',
u',',
u'TheNetherlands',
u';',
u'mega',
u'view',
u'iii',
u'camera',
...]
In [8]:
# plt.hist([len(f) for f in pdf_text.features.values()[0]], bins=60, alpha=0.3)
plt.hist([len(f) for f in pdf_text.features.values()[1]], bins=60, alpha=0.3)
plt.hist([len(f) for f in pdf_text.features.values()[2]], bins=60, alpha=0.3)
# plt.hist([len(f) for f in pdf_text.features.values()[3]], bins=60, alpha=0.3)
plt.yscale('log')
plt.show()
In [27]:
mean([len(f) for f in pdf_text.features.values()[0]])
Out[27]:
16.144044321329641
In [26]:
mean([len(f) for f in pdf_text.features.values()[2]])
Out[26]:
5.1667772197479387
In [4]:
from math import
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
<ipython-input-4-95671bc508d6> in <module>()
----> 1 from math import avg
ImportError: cannot import name avg
In [ ]:
Content source: diging/tethne-notebooks
Similar notebooks: