Parsing Citations

With AnyStyle.io and Crossref's search api


In [81]:
import pandas as pd

In [136]:
citations = pd.read_csv("cites.csv")
citations


Out[136]:
syllabus note cite
0 berkeley-info202 NaN Glushko, Robert J. (Editor). The Discipline of...
1 berkeley-info202 NaN Kent, William. Data and Reality (3rd Edition) ...
2 berkeley-info202 NaN Bush, Vannevar (1945). As We May Think. The At...
3 berkeley-info202 NaN Borges, Jorge Luis. “The library of Babel (Lin...
4 berkeley-info202 NaN Hearst, Marti. Search User Interfaces, 2009.
5 berkeley-info202 NaN Morville, Peter and Rosenfeld, Louis. Informat...
6 berkeley-info202 NaN NPR. For a More Ordered Life, Organize Like a ...
7 berkeley-info202 NaN Gardiner, Bryan. “How an Army of Sensors Helps...
8 berkeley-info202 NaN Smith, Abby. “Authenticity in perspective.” Au...
9 berkeley-info202 NaN Doctorow, Cory. Metacrap http://www.well.com/~...
10 berkeley-info202 NaN RDF 1.1 Primer http://www.w3.org/TR/2014/NOTE-...
11 berkeley-info202 NaN Harpring, Patricia. “The language of images: e...
12 berkeley-info202 NaN Cuno, James. “How art history is failing at th...
13 berkeley-info202 NaN Naaman, Mor, et al. “Context data in geo-refer...
14 berkeley-info202 NaN Castelluccio, Michael. “The Music Genome Proje...
15 berkeley-info202 NaN Krebs, Valdis. Social Network Analysis: A Brie...
16 berkeley-info202 NaN MacRoberts, Michael and MacRoberts, Barbara. “...
17 berkeley-info202 NaN Berners-Lee, Tim, et al. “The semantic web (Li...
18 berkeley-info202 NaN Heath, Tom and Bizer, Christian. “Linked data:...
19 berkeley-info202 NaN Tavris, Carol. “How Psychiatry Went Crazy (Lin...
20 berkeley-info202 NaN Hoyt, Clark. “Semantic minefields (Links to an...
21 berkeley-info202 NaN Prewitt, Kenneth. “Fix the Census’ Archaic Rac...
22 berkeley-info202 NaN Rosenthal, Arnon, et al. “From semantic integr...
23 berkeley-info202 NaN Glushko, R.J, and McGrath, T. "Describing what...
24 berkeley-info202 NaN Glushko, R.J, and McGrath, T. "Describing what...
25 berkeley-info202 NaN Baron, Richard, et al. “Electronic health reco...
26 berkeley-info202 NaN Manning, Christopher, et al. Introduction to I...
27 berkeley-info202 NaN Dumais, Susan. “Data-driven approaches to info...
28 berkeley-info202 NaN Hearst, Marti A. “‘Natural’ search user interf...
29 berkeley-info202 NaN Feldman, Ronen. “Techniques and applications f...
... ... ... ...
1789 ucla-is270 article Robert Charette, “Why software fails”, IEEE Sp...
1790 ucla-is270 article Joan S. Ash et al., “Some Unintended Consequen...
1791 ucla-is270 article Florence Millerand and Geoffrey Bowker, “Metad...
1792 ucla-is270 book Janet Abbate, “The Internet in the Area of Int...
1793 ucla-is270 book Urs von Burg, The Triumph of the Ethernet, Sta...
1794 ucla-is270 article Bob Briscoe, “Flow rate fairness: dismantling ...
1795 ucla-is270 article S. Floyd & M. Allman, Comments on the Usefulne...
1796 ucla-is270 article Laura Tull, “Library Systems and Unicode: A Re...
1797 ucla-is270 article Jonathan E. Nuechterlein and Philip J. Weiser,...
1798 ucla-is270 book Varian, Hal R. "Economics of information techn...
1799 ucla-is270 article Tristan Henderson, Jon Crowcroft, & Saleem Bha...
1800 ucla-is270 article Vaughan, Jason, “A library's integrated online...
1801 ucla-is270 article Paul A. David, “The Dynamo and the Computer: A...
1802 ucla-is270 article Joyojeet Pal et al., “The Case of the Occasion...
1803 ucla-is270 web Longstaff, P. H., “Networked Industries: Patte...
1804 ucla-is270 article Paul Ganley, Ben Allgrove, “Net neutrality: A ...
1805 ucla-is270 web Edward W. Felten, Nuts and Bolts of Network Ne...
1806 ucla-is270 article Jeffrey James, “Technological blending in the ...
1807 ucla-is270 book Gerald W. Brock, The Second Information Revolu...
1808 ucla-is270 article Jonathan L. Zitrain, “The Generative Internet”...
1809 ucla-is270 article Geoffrey A. Fowler and Ben Worthen, “The Inter...
1810 ucla-is270 article Ian Foster, “The Grid: Computing without Bound...
1811 ucla-is270 article David Talbot, “Security in the Ether: Informat...
1812 ucla-is270 article McDowell, J.C., Downloading the sky”, Spectrum...
1813 ucla-is270 article Special Report: “A world of connections”, The ...
1814 ucla-is270 article Anderson, D. P., et al. 2002. “SETI@home: an e...
1815 ucla-is270 article Bakhtiar Mikhak et al., “To Mindstorms and Bey...
1816 ucla-is270 article Donald E. Knuth, “Algorithms”, Scientific Amer...
1817 ucla-is270 article Ron Eglash, Audrey Bennett, Casey O’Donnell, S...
1818 ucla-is270 article Mike Eisenberg, Ann Nishioka Eisenberg, “Shop ...

1819 rows × 3 columns


In [86]:
citations.iloc[0]


Out[86]:
syllabus                                     berkeley-info202
note                                                      NaN
cite        Glushko, Robert J. (Editor). The Discipline of...
Name: 0, dtype: object

In [87]:
len(citations)


Out[87]:
1822

ok, we got a pile of citations. But they aren't in shape. When we look at the cites, they are a collection of 1,505 strings, this isn't very useful for doing data analysis. We need to get them into shape, that is, we need to break them up into their component parts.


In [91]:
citations.iloc[0:5]


Out[91]:
syllabus note cite
0 berkeley-info202 NaN Glushko, Robert J. (Editor). The Discipline of...
1 berkeley-info202 NaN Kent, William. Data and Reality (3rd Edition) ...
2 berkeley-info202 NaN Bush, Vannevar (1945). As We May Think. The At...
3 berkeley-info202 NaN Borges, Jorge Luis. “The library of Babel (Lin...
4 berkeley-info202 NaN Hearst, Marti. Search User Interfaces, 2009.

Note, these citations are not always formatted in the same way, for example, lets looks at some from a different part of the piles.


In [90]:
citations.iloc[390:395]


Out[90]:
syllabus note cite
390 indiana-z501 article Dempsey, Lorcan, Malpas, Constance, and Lavoie...
391 indiana-z501 article Levine‐Clark, Michael. “Access to Everything: ...
392 indiana-z501 article Downey, Kay, Zhang, Yin, Urbano, Cristobal, an...
393 indiana-z501 article Cassell, K. A., & Hiremath, U. (2013). Introdu...
394 indiana-z501 article Janes, J. (2003). Reference, digital and other...

Parsing citaitons is a whole area of research to be discussed at another time. I am going to use AnyStyle.io to try and parse these citations because it has a nicely designed API.


In [131]:
import requests
import os
import json
import numpy as np
import time

In [56]:
# get the API key for AnyStyle.io from a text file in this directory
with open('anystyle_key.txt','r') as f:
    api_key = f.read()

In [135]:
# I want to figure out what cite is causing the error

parsed_cites = []

for cite in list(segment['cite']):
   

    
    payload = {"format": "json",
               "access_token": api_key,
               "references": cite}
    headers = {"Content-Type": "application/json;charset=UTF-8"}
    #print("Payload Build, requesting")
    
    r = requests.post("http://anystyle.io/parse/references",
                  headers=headers,
                  data=json.dumps(payload))
    #print("Got response", r)
    if r.status_code == 400:
        print(cite)
    
    #parsed_cites.append(r.json())


nan
nan

In [137]:
parsed_cites = []

for segment in np.array_split(citations,5):
    print("Segment Length: ",len(segment))
    cite_pile = list(segment['cite'])

    
    payload = {"format": "json",
               "access_token": api_key,
               "references": cite_pile}
    headers = {"Content-Type": "application/json;charset=UTF-8"}
    print("Payload Build, requesting")
    
    r = requests.post("http://anystyle.io/parse/references",
                  headers=headers,
                  data=json.dumps(payload))
    print("Got response", r)
    parsed_cites.append(r.json())


Segment Length:  364
Payload Build, requesting
Got response <Response [200]>
Segment Length:  364
Payload Build, requesting
Got response <Response [200]>
Segment Length:  364
Payload Build, requesting
Got response <Response [200]>
Segment Length:  364
Payload Build, requesting
Got response <Response [200]>
Segment Length:  363
Payload Build, requesting
Got response <Response [200]>

In [138]:
print(len(parsed_cites))


5

In [142]:
parsed_cites_master = [cite for cites in parsed_cites for cite in cites]

In [143]:
parsed_cites_master[0:10]


Out[143]:
[{'date': '2014',
  'editor': 'Glushko, Robert J.',
  'language': 'en',
  'publisher': "O'Reilly Media",
  'title': 'The Discipline of Organizing (http://shop.oreilly.com/product/0636920034629.do)',
  'type': 'book'},
 {'author': 'Kent, William',
  'date': '2012',
  'edition': '3rd Edition) (http://books.google.com/books?id=7z57tgAACAAJ',
  'language': 'et',
  'publisher': 'Technics Publications',
  'title': 'Data and Reality',
  'type': 'book'},
 {'author': 'Bush, Vannevar',
  'date': '1945-07',
  'journal': 'The Atlantic Magazine',
  'language': 'en',
  'title': 'As We May Think',
  'type': 'article'},
 {'author': 'Borges, Jorge Luis',
  'date': '1998',
  'language': 'en',
  'publisher': 'Collected Fictions',
  'title': 'The library of Babel (Links to an external site.).',
  'type': 'book'},
 {'author': 'Hearst, Marti',
  'date': '2009',
  'language': 'en',
  'title': 'Search User Interfaces',
  'type': 'misc'},
 {'author': 'Morville, Peter and Rosenfeld, Louis',
  'date': '2006',
  'language': 'en',
  'publisher': 'Third Edition',
  'title': 'Information Architecture for the World Wide Web',
  'type': 'book'},
 {'author': 'N.P.R.',
  'date': '2014',
  'language': 'nl',
  'title': 'For a More Ordered Life, Organize Like a Chef',
  'type': 'misc'},
 {'author': 'Gardiner, Bryan',
  'date': '2013',
  'language': 'en',
  'publisher': 'Wired',
  'title': 'How an Army of Sensors Helps Us Track Tsunamis and Score Parking Spots (Links to an external site.).',
  'type': 'book'},
 {'author': 'Smith, Abby',
  'date': '2000',
  'language': 'en',
  'title': '“Authenticity in perspective.” Authenticity in a digital environment',
  'type': 'misc'},
 {'author': 'Doctorow, Cory',
  'language': 'fr',
  'title': 'Metacrap',
  'type': 'misc',
  'url': 'http://www.well.com/'}]

Sweet!


In [144]:
with open("parsed_cites.json",'w') as f:
    print(json.dumps(parsed_cites_master, indent=4), file=f )

In [145]:
df_citations = pd.DataFrame(parsed_cites_master)
df_citations


Out[145]:
accessed author authority booktitle citation_number date edition editor genre isbn ... unmatched-editor unmatched-genre unmatched-journal unmatched-pages unmatched-publisher unmatched-unknown unmatched-url unmatched-volume url volume
0 NaN NaN NaN NaN NaN 2014 NaN Glushko, Robert J. NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1 NaN Kent, William NaN NaN NaN 2012 3rd Edition) (http://books.google.com/books?id... NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 NaN Bush, Vannevar NaN NaN NaN 1945-07 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
3 NaN Borges, Jorge Luis NaN NaN NaN 1998 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
4 NaN Hearst, Marti NaN NaN NaN 2009 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
5 NaN Morville, Peter and Rosenfeld, Louis NaN NaN NaN 2006 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
6 NaN N.P.R. NaN NaN NaN 2014 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
7 NaN Gardiner, Bryan NaN NaN NaN 2013 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
8 NaN Smith, Abby NaN NaN NaN 2000 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
9 NaN Doctorow, Cory NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN http://www.well.com/ NaN
10 NaN NaN NaN NaN RDF NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN http://www.w3.org/TR/2014/NOTE-rdf11-primer-20... NaN
11 NaN Harpring, Patricia NaN Introduction to Art Image Access: Issues, Tool... NaN 2002 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
12 NaN Cuno, James NaN NaN NaN 2012 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
13 NaN Naaman, Mor NaN NaN NaN 2004 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
14 NaN Castelluccio, Michael NaN NaN NaN 2006 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
15 NaN Krebs, Valdis NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
16 NaN MacRoberts, Michael and MacRoberts, Barbara NaN NaN NaN 1996 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
17 NaN Berners-Lee, Tim NaN NaN NaN 2001 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
18 NaN Heath, Tom and Bizer, Christian NaN NaN NaN 2011 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 1
19 NaN Tavris, Carol NaN NaN NaN 2013 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
20 NaN Hoyt, Clark NaN NaN NaN 2010 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
21 NaN Prewitt, Kenneth NaN NaN NaN 2013 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
22 NaN Rosenthal, Arnon NaN NaN NaN 2004 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
23 NaN Glushko, R.J. and McGrath, T. NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
24 NaN Glushko, R.J. and McGrath, T. NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 4
25 NaN Baron, Richard NaN NaN NaN 2005 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
26 NaN Manning, Christopher NaN NaN NaN 2009 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
27 NaN Dumais, Susan NaN NaN NaN 2003 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
28 NaN Hearst, Marti A. NaN NaN NaN 2011 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
29 NaN Feldman, Ronen NaN NaN NaN 2013 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1789 NaN Charette, Robert NaN NaN NaN 2005-09 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 42
1790 NaN Ash, Joan S. NaN NaN NaN 2004 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 11
1791 NaN Millerand, Florence and Bowker, Geoffrey NaN Standards and their Stories: How Quantifying, ... NaN 2008 NaN Star, Susan Leigh NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1792 NaN Abbate, Janet NaN NaN NaN 1999 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1793 NaN von Burg, Urs NaN NaN NaN 2001 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1794 NaN Briscoe, Bob NaN NaN NaN 2007-03 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 37
1795 NaN Floyd, S. and Allman, M. NaN NaN NaN 2008-07 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1796 NaN Tull, Laura NaN NaN NaN 2002-12 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 21
1797 NaN Jonathan E. Nuechterlein and Philip J. Weiser NaN Digital Crossroads: American Telecommunication... NaN 2005 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1798 NaN Varian, Hal R. University of California, Berkeley NaN NaN 2001 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1799 NaN Henderson, Tristan and Crowcroft, Jon and Bhat... NaN NaN NaN 2001-09 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 5
1800 NaN Vaughan, Jason NaN NaN NaN 2004-06 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 2
1801 NaN David, Paul A. NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 80
1802 NaN Pal, Joyojeet NaN NaN NaN 2009 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 1
1803 NaN Longstaff, P.H. NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN http://pirp.harvard.edu/pubs_pdf/longsta NaN
1804 NaN NaN NaN NaN NaN 2006 NaN Ganley, Paul and Ben NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 22
1805 NaN Felten, Edward W. NaN NaN NaN 2006-07-06 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1806 NaN James, Jeffrey NaN Telecommunications Policy NaN 2005-05 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 29
1807 NaN Brock, Gerald W. NaN NaN NaN 2003 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1808 NaN Zitrain, Jonathan L. NaN NaN NaN 1974 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 119
1809 NaN NaN NaN NaN NaN 2009-03-26 NaN Fowler, Geoffrey A. and Worthen, Ben NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1810 NaN Foster, Ian NaN NaN NaN 2003-04 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 288
1811 NaN Talbot, David NaN NaN NaN 2010 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1812 NaN McDowell, J.C. NaN NaN NaN 2004-08 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN Page(s): NaN 41
1813 NaN NaN NaN NaN NaN 2007-04 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1814 NaN Anderson, D.P. NaN NaN NaN 2002-11 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 45
1815 NaN Mikhak, Bakhtiar NaN NaN NaN 2000-03 NaN Allison Druin, published Morgan Kaufman and NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
1816 NaN Donald E. Knuth NaN NaN NaN 1977-04 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 236
1817 NaN Ron Eglash, Audrey Bennett, Casey O’Donnell, S... NaN NaN NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN 108
1818 NaN Eisenberg, Mike and Eisenberg, Ann Nishioka NaN Journal of Interactive Media in Education 98(8) NaN NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

1819 rows × 36 columns


In [146]:
df_citations.to_csv("parsed_cites.csv")

In [ ]: