In [1]:
import org.apache.spark.rdd._
import org.archive.archivespark._
import org.archive.archivespark.implicits._
import org.archive.archivespark.enrich.functions._
import org.archive.archivespark.specific.warc.implicits._
import org.archive.archivespark.specific.warc.specs._
import org.archive.archivespark.specific.warc.enrichfunctions._
import org.archive.archivespark.specific.warc.tempas._
import org.archive.archivespark.specific.books.enrichfuncs._
import edu.harvard.countway.mhl.archivespark._
import edu.harvard.countway.mhl.archivespark.search._
In [2]:
val cdxPath = "/data/BigData-20171212025659/*.gz"
val warcPath = "/data/BigData-20171212025659"
val rdd = ArchiveSpark.hdfs(cdxPath, warcPath)(sc)
In [3]:
rdd.peekJson
Out[3]:
{
"record":{
"redirectUrl":"-",
"timestamp":"20171212025659",
"digest":"af048dfce896122ef79342779cffa00b813d4b7f",
"originalUrl":"http://cci.drexel.edu/bigdata/bigdata2017/",
"surtUrl":"edu,drexel,cci)/bigdata/bigdata2017",
"mime":"text/html",
"compressedSize":1942,
"meta":"-",
"status":200
}
}
In [4]:
val rdd = ArchiveSpark.load(WarcCdxHdfsSpec(cdxPath, warcPath))
In [5]:
rdd.peekJson
Out[5]:
{
"record":{
"redirectUrl":"-",
"timestamp":"20171212025659",
"digest":"af048dfce896122ef79342779cffa00b813d4b7f",
"originalUrl":"http://cci.drexel.edu/bigdata/bigdata2017/",
"surtUrl":"edu,drexel,cci)/bigdata/bigdata2017",
"mime":"text/html",
"compressedSize":1942,
"meta":"-",
"status":200
}
}
In [6]:
rdd.count
Out[6]:
49
In [7]:
val pages = rdd.filter(r => r.mime == "text/html" && r.status == 200)
In [8]:
pages.count
Out[8]:
14
In [9]:
pages.enrich(Html.first("title")).peekJson
Out[9]:
{
"record":{
"redirectUrl":"-",
"timestamp":"20171212025659",
"digest":"af048dfce896122ef79342779cffa00b813d4b7f",
"originalUrl":"http://cci.drexel.edu/bigdata/bigdata2017/",
"surtUrl":"edu,drexel,cci)/bigdata/bigdata2017",
"mime":"text/html",
"compressedSize":1942,
"meta":"-",
"status":200
},
"payload":{
"string":{
"html":{
"title":"<title>2017 IEEE International Conference on Big Data </title>"
}
}
}
}
In [10]:
val Title = HtmlText.of(Html.first("title"))
In [11]:
pages.enrich(Title).peekJson
Out[11]:
{
"record":{
"redirectUrl":"-",
"timestamp":"20171212025659",
"digest":"af048dfce896122ef79342779cffa00b813d4b7f",
"originalUrl":"http://cci.drexel.edu/bigdata/bigdata2017/",
"surtUrl":"edu,drexel,cci)/bigdata/bigdata2017",
"mime":"text/html",
"compressedSize":1942,
"meta":"-",
"status":200
},
"payload":{
"string":{
"html":{
"title":{
"text":"2017 IEEE International Conference on Big Data"
}
}
}
}
}
In [12]:
print(pages.enrich(Entities).peekJson)
{
"record":{
"redirectUrl":"-",
"timestamp":"20171212025659",
"digest":"af048dfce896122ef79342779cffa00b813d4b7f",
"originalUrl":"http://cci.drexel.edu/bigdata/bigdata2017/",
"surtUrl":"edu,drexel,cci)/bigdata/bigdata2017",
"mime":"text/html",
"compressedSize":1942,
"meta":"-",
"status":200
},
"payload":{
"string":{
"html":{
"body":{
"text":{
"entities":{
"persons":[
],
"organizations":[
"USA",
"Accepted",
"Online",
"Program",
"Workshops",
"Discussion",
"Forum",
"Papers",
"Organization",
"Big",
"Schedule",
"Committee",
"Data",
"Homepage"
],
"locations":[
"Boston",
"MA",
"USA"
],
"dates":[
"2017"
]
}
}
}
}
}
}
}
In [13]:
val wayback = ArchiveSpark.load(WaybackSpec("https://bigdata.ieee.org", from = 2015, to = 2017, pages = 1))
In [14]:
print(wayback.enrich(Title).enrich(Entities).peekJson)
{
"record":{
"redirectUrl":"-",
"timestamp":"20150110055735",
"digest":"RYDMJYJBQQXAYWKLCSYNSX6QXEQ3VENJ",
"originalUrl":"http://bigdata.ieee.org:80/",
"surtUrl":"org,ieee,bigdata)/",
"mime":"text/html",
"compressedSize":6214,
"meta":"-",
"status":200
},
"payload":{
"string":{
"html":{
"title":{
"text":"IEEE Big Data"
},
"body":{
"text":{
"entities":{
"persons":[
],
"organizations":[
"BDIW",
"Newsweek",
"Company",
"Publications",
"InformationWeek",
"Manufacturing",
"&",
"Revolutionizing",
"Devices",
"The",
"Presentations",
"Smart",
"Machine",
"Conferences",
"McKinsey",
"Big",
"New",
"Education",
"Institute",
"Data",
"Time",
"Technology"
],
"locations":[
"New",
"Jersey"
],
"dates":[
"2015"
]
}
}
}
}
}
}
}
Tempas (Temporal Archive Search): http://tempas.L3S.de/v2
Tempas2ArchiveSpark Data Specification: https://github.com/helgeho/Tempas2ArchiveSpark
In [15]:
val tempas = ArchiveSpark.load(TempasWaybackSpec("big data", from = 2010, to = 2013, pages = 1, resultsPerPage = 10))
In [16]:
print(tempas.enrich(Title).enrich(Entities).peekJson)
{
"record":{
"url":"http://de.wikipedia.org/wiki/big_data",
"year":2013
},
"payload":{
"string":{
"html":{
"title":{
"text":"Big Data â\u0080\u0093 Wikipedia"
},
"body":{
"text":{
"entities":{
"persons":[
"Wettbewerbsvorteilen",
"aktuellen",
"Seite",
"Durch",
"Erkennen",
"Webstatistiken",
"Erlangung",
"Kommunikationsbereitschaft",
"Daten",
"in",
"Datenmengen",
"Volumen",
"Tausenden",
"Erzeugung",
"Bei",
"Schneller",
"Schaffung",
"Sozialforscherin",
"Grundprinzipien",
"Buch",
"Entwicklung",
"Thilo",
"Lage",
"der",
"Seiteninformationen",
"Statistische",
"Klaus",
"Geologie",
"Nach",
"Spalten",
"eine",
"Meine",
"Interdependenzen",
"Visualisierung",
"von",
"MapReduce-Ansatz",
"Schutz",
"Doppeltes",
"Juli",
"Einsatz",
"Chris",
"Manhart",
"Datensatzes",
"Hilf",
"Grundrechte",
"Das",
"Verarbeitung",
"Zeitnahe",
"Boyd",
"Kurze",
"zur",
"Anpassung",
"Antwortzeiten",
"Marktforschung",
"Anderson",
"Berechnungen",
"Weg",
"Datenschutz",
"Visualisierungsprogramme",
"Interpretationen",
"Korrelationen",
"B.",
"Entdeckung",
"z.",
"Einsparungspotentialen",
"Werkzeuge",
"Benutzerkonto",
"Danah",
"Generierung",
"Ein",
"Verletzung",
"Datenvolumen",
"Fragen",
"Erfassungen",
"Wissenschaft",
"Mikrofonen",
"Datenschutzbeauftragte",
"Kritik",
"Weichert",
"Diese",
"Klimaforschung",
"Bilder",
"Auswertung",
"Prozessoren"
],
"organizations":[
"Aufbau",
"Wikipedia",
"Letzte",
"Svenska",
"Datenwachstum",
"Einzelnachweise",
"Inhaltsverzeichnis",
"der",
"Nederlands",
"Inc.",
"Neuen",
"Beispiele",
"Facebook",
"Artikel",
"Wikimedia",
"Polski",
"Autorenportal",
"Foundation",
"Hilfe",
"Modells",
"Big",
"Vertrieb",
"Aster",
"Marke",
"Data",
"Kritik"
],
"locations":[
"Kameras",
"Genetik",
"Informationen",
"Statistik",
"Logdateien",
"Web-Zugriffen"
],
"dates":[
"Feb.",
"2013",
"2011",
"2008",
"2012",
"2010",
"November",
"April"
]
}
}
}
}
}
}
}
MHLonArchiveSpark Data Specification: https://github.com/helgeho/MHLonArchiveSpark
In [17]:
val query = MhlSearchOptions(query = "polio", collections = MhlCollections.Statemedicalsocietyjournals)
val mhl = ArchiveSpark.load(MhlSearchSpec(query))
In [18]:
mhl.peekJson
Out[18]:
{
"record":{
"id":"journal4190miss",
"title":"Journal of the Missouri State Medical Association",
"author":[
"Missouri State Medical Association"
],
"date":"1908",
"subject":[
"Medicine;Periodicals;Missouri"
],
"language":[
"eng"
],
"mediatype":[
"texts"
],
"collection":[
"francisacountwaylibrary",
"statemedicalsocietyjournals",
"medicalheritagelibrary",
"americana"
],
"description":[
"Title from cover",
"Published by: Missouri State Medical Association, <1910>-1952",
"Only 6 nos. issued in v. 11"
],
"score":0.0047816974
}
}
In [19]:
val Snippet = FirstLines(100)
In [20]:
print(mhl.enrich(Snippet).peekJson)
{
"record":{
"id":"journal4190miss",
"title":"Journal of the Missouri State Medical Association",
"author":[
"Missouri State Medical Association"
],
"date":"1908",
"subject":[
"Medicine;Periodicals;Missouri"
],
"language":[
"eng"
],
"mediatype":[
"texts"
],
"collection":[
"francisacountwaylibrary",
"statemedicalsocietyjournals",
"medicalheritagelibrary",
"americana"
],
"description":[
"Title from cover",
"Published by: Missouri State Medical Association, <1910>-1952",
"Only 6 nos. issued in v. 11"
],
"score":0.0047816974
},
"text":{
"first-100-lines":"\n\nBoston \n\nMedical Library \n8 The Fenway. \n\n\n\n\n\nJOURNAL \n\n\nMissouri State \n\n\nMedical Association \n\n\nVOLUME FOUR \nJULY. 1907 -JUNE. 1908 \n\n\nPUBLISHERS; \n\nMEDICAL PRESS COMPAI^Y \n\n\nST. LOUIS, MO. \n\n\nOCT 19 1909 \n\n\n\n\n\nj \n\n\"l \n\n\n! \n\nI \n\ni \n\n\nPCTi 9 1909 \ni. F.B; \n\n\n\n\ni). \n\n\n\nJOURN \nMEDICA \n\n\nR1 STATE \nlATION \n\n\nVolume IV \n\n\nNumber 1 \n\n\nORIGINAL ARTICLES \n\nvS \n\nV ■ \n\nTUBERCULOSIS A COMMUNXCABLE DISEASE.* \n\nBY J. M. ALLEN j M. D. \n\nPhthisis pulmonalis has existed in the past history of man to a \npoint where the memory runneth not to the contrary. Thousands of \nImages have been written on this subject. Numerous plausible the- \nories have been presented as to its etiology, pathology and treatment, \nin which we find scarcely a grain of truth. \n\nPossibly the most accurate description up to his time was given \nby Leannec of Paris. Later, Louis of Paris gave a description of its \npathology which was possibly equal to any we have now. In his ac- \ncuracy of pathology, he pointed out the fact that the most frequent \npoint of attack in the lung was its apex, without being able to give a \nreason. \n\nNow we know the reason to be the lessened amount of blood cir- \nculating in this ])ortion of the lung as compared to other portions. \nTherefore, this portion of lung\u2019s powers of resistance is greatly de- "
}
}
In [21]:
print(wayback.enrich(Snippet.of(StringContent)).peekJson)
{
"record":{
"redirectUrl":"-",
"timestamp":"20150110055735",
"digest":"RYDMJYJBQQXAYWKLCSYNSX6QXEQ3VENJ",
"originalUrl":"http://bigdata.ieee.org:80/",
"surtUrl":"org,ieee,bigdata)/",
"mime":"text/html",
"compressedSize":6214,
"meta":"-",
"status":200
},
"payload":{
"string":{
"first-100-lines":"<?xml version=\"1.0\" encoding=\"utf-8\"?><!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\r\n<html xmlns=\"http://www.w3.org/1999/xhtml\" xml:lang=\"en-gb\" lang=\"en-gb\" dir=\"ltr\" >\r\n<head>\r\n <meta http-equiv=\"X-UA-Compatible\" content=\"IE=8\" />\n <link rel=\"stylesheet\" href=\"/templates/ieeetechnicalactivitiestemplate/css/template_css.php\" type=\"text/css\" media=\"all\" />\r\n <link rel=\"stylesheet\" href=\"/templates/ieeetechnicalactivitiestemplate/css/print.css\" type=\"text/css\" media=\"print\" />\r\n <base href=\"http://bigdata.ieee.org/\" />\n <meta http-equiv=\"content-type\" content=\"text/html; charset=utf-8\" />\n <meta name=\"robots\" content=\"index, follow\" />\n <meta name=\"keywords\" content=\"Data, Big, Ieee, \" />\n <meta name=\"description\" content=\"IEEE Big Data...\" />\n <meta name=\"generator\" content=\"IEEE Content Management\" />\n <title>IEEE Big Data</title>\n <link href=\"/favicon.ico\" rel=\"shortcut icon\" type=\"image/x-icon\" />\n <link rel=\"stylesheet\" href=\"/modules/mod_IEEEContentModule/css/styles.css\" type=\"text/css\" />\n <script type=\"text/javascript\" src=\"/media/system/js/mootools.js\"></script>\n <script type=\"text/javascript\" src=\"/media/system/js/caption.js\"></script>\n <script type=\"text/javascript\" src=\"/ieeescripts/ieeejquery.js\"></script>\n <script type=\"text/javascript\" src=\"/ieeescripts/ieeejquery.cycle.min.js\"></script>\n\r\n\r\n<!-- Custom Styles and CSS Overrides -->\r\n <link rel=\"stylesheet\" href=\"/templates/ieeetechnicalactivitiestemplate/css/template_custom.php\" type=\"text/css\" media=\"all\" />\n\r\n <!-- Script Modules -->\r\n <!--***** Google Analytics *****-->\n <script type=\"text/javascript\">\n\n var _gaq = _gaq || [];\n _gaq.push(['_setAccount', 'UA-5565007-50']);\n _gaq.push(['_setCustomVar',1,'User Segment: anonymous','/', 3]);\n_gaq.push(['_trackPageview']);\n\n (function() {\n var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;\n ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';\n var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);\n })();\n\n </script>\n <!--***** Track outbound and file links *****-->\n <script type=\"text/javascript\">\n\tieeejquery(document).ready(function($) {\n\t\t $(\".jcepopup\").each( function() {\n\t\t $(this).attr(\"onclick\",\"javascript: _gaq.push(['_trackPageview', '\"+$(this).attr(\"href\")+\"'],['_setCustomVar',1,'User Segment: anonymous','\"+$(this).attr(\"href\")+\"', 3]);\");\n\n\t\t });\n\n\t\t$(\"a\").each(function() {\n\t\t\tif($(this).attr(\"href\")) {\n\t\t\t\tif( $(this).attr(\"href\").match(/images\\/files/) ) {\n\t\t \t\t\t$(this).attr(\"onclick\",\"javascript: _gaq.push(['_trackPageview', '\"+$(this).attr(\"href\")+\"'],['_setCustomVar',1,'User Segment: anonymous','\"+$(this).attr(\"href\")+\"', 3]);\");\n\t\t\t\t}\n\t\t\t}\n\t\t});\n\n\t});\n </script>\n\n\r\n</head>\r\n<body>\r\n<!-- Global IEEE Header -->\r\n<div id=\"global-hd-container\" class=\"hide-for-print\">\r\n\t<div id=\"global-hd\">\r\n\t\t<div id=\"util-left\">\r\n\t\t\t<a href=\"http://www.ieee.org/\" class=\"first\">IEEE.org</a>\r\n\t\t\t|\r\n\t\t\t<a href=\"http://ieeexplore.ieee.org/\">IEEE <em>Xplore</em> Digital Library</a>\r\n\t\t\t|\r\n\t\t\t<a href=\"http://standards.ieee.org/\">IEEE Standards</a>\r\n\t\t\t|\r\n\t\t\t<a href=\"http://spectrum.ieee.org/\">IEEE Spectrum</a>\r\n\t\t\t|\r\n\t\t\t<a href=\"http://www.ieee.org/sitemap\" class=\"last\">More Sites</a>\r\n\t\t</div>\r\n\t\t<div id=\"util-right\">\r\n\t\t\t\r\n<div id=\"sign_in\">\r\n\t<a href=\"/home/member-sign-in-form.html?q=signingin\">Sign in</a>\r\n</div>\r\n\r\n\t\t</div>\r\n\t</div>\r\n</div>\r\n\r\n<!--***** Banner / Branding *****-->\r\n<div id=\"banner\"><div id=\"ieee_mb\"><a href=\"http://www.ieee.org/\" title=\"Go to IEEE Home\"><img src=\"/images/files/template/images/ieee_logo_mb_1.png\" alt=\"IEEE Home\"/></a></div><div id=\"join\"></div>\n<img id=\"bannerImage\" src=\"/templates/ieeetechnicalactivitiestemplate/images/banner_image_default.png\" alt=\"IEEE Big Data\" usemap=\"#bannerImageMap\"/><div id=\"bannerText\"><a href=\"/\">IEEE Big Data</a></div></div>\r\n\r\n<!-- Search and Social -->\r\n<div id=\"search_and_social\" class=\"hide-for-print\">\r\n\t<div id=\"search\">\r\n\t\t<form action=\"index.php\" method=\"post\">\r\n\t<div id=\"search-content\"><label for=\"searchbox\">Search IEEE Big Data</label></div>\r\n\t<div class=\"left\"><input type=\"text\" name=\"searchword\" maxlength=\"100\" size=\"25\" id=\"searchbox\" value=\"\"/></div>\r\n\t<div class=\"left\"><input type=\"submit\" id=\"searchbutton\" name=\"searchbutton\" value=\"Search\" title=\"Search\" /></div>\r\n\t<input type=\"hidden\" name=\"task\" value=\"search\"/>\r\n\t<input type=\"hidden\" name=\"searchphrase\" value=\"any\"/>\r\n\t<input type=\"hidden\" name=\"ordering\" value=\"popular\"/>\r"
}
}
}
In [22]:
print(wayback.enrich(Snippet.of(HtmlText)).peekJson)
{
"record":{
"redirectUrl":"-",
"timestamp":"20150110055735",
"digest":"RYDMJYJBQQXAYWKLCSYNSX6QXEQ3VENJ",
"originalUrl":"http://bigdata.ieee.org:80/",
"surtUrl":"org,ieee,bigdata)/",
"mime":"text/html",
"compressedSize":6214,
"meta":"-",
"status":200
},
"payload":{
"string":{
"html":{
"body":{
"text":{
"first-100-lines":"IEEE.org | IEEE Xplore Digital Library | IEEE Standards | IEEE Spectrum | More Sites Sign in IEEE Big Data Search IEEE Big Data Follow: Home About What's New Conferences Publications Education /*.slideshowControlsTop_28{ border: 0px solid #BDBDBD; border-bottom: 1px solid #BDBDBD; padding: 1px 0px; background-color: #6b1f73; background-image: url('./modules/mod_IEEEImageRotator/images/control_bkgd.png'); height: 20px; margin: 0px auto; width: 100%; line-height: 20px; } .slidePager_28 a{ color: #CCCCCC; padding-top: 1px; display: block; background-image: url('./modules/mod_IEEEImageRotator/images/pager.png'); background-repeat: no-repeat; float: left; font-weight: bold; font-size: .9em; padding: 0px; height: 20px; width: 25px; text-indent: 6px; text-decoration: none; } .slidePager_28 a.activeSlide{ background-image:url('./modules/mod_IEEEImageRotator/images/pager_active.png'); }*/ /* modification for dots */ .slidePagerDot_28{ width:100%; float:left; text-align:center; vertical-align:bottom; margin: 4px; } .slidePagerDot_28 a{ padding-top: 1px; /* display: block; */ /* float: left; */ font-weight: bold; font-size: 1.25em; color:#CCCCCC; /* padding: 3px; */ margin: 6px 6px; height: 20px; width: 25px; text-indent: 6px; text-decoration: none; } .slidePagerDot_28 a.activeSlide{ color:#6b1f73; } /* end modification for dots */ .slideImage_28{ width: 100%; top: 0; left: 0; height: 239px; border: 0; } .slide_28{ height: 268px; width: 100%; } .captionContent_28{ width: auto; height: 100%; border: 0px; padding: 0px; } .slideCaptionBottom_28{ background-image: url('./modules/mod_IEEEImageRotator/images/caption_bkgd.png'); position: absolute; left: 0; border-style: solid; border-color: #CDCCCD; bottom: 0; border-width: 1px 0px 0px 0px; height: 28px; color: #333333; width: 100%; overflow: hidden; } /* Cycle / Slide Show Module Styles */ .slideshowContainer_28{ background-color: #ededed; border-style: solid; border-color: #bdbcbd; margin: 0px auto; height:268px; width: 100%; } .slidePager_28,.slideNext_28, .slidePause_28, .slidePrev_28{ cursor: pointer; height: 20px; } .slidePager_28{ float: right; } .slideNext_28, .slidePause_28, .slidePrev_28{ float: left; } .slideImage_28{height: 100% !important;} .slideCaptionBottom_28{display: none !important;} BDIW Presentations Big Data & Smart Devices IEEE Transactions on Big Data CFP eLearning Videos HIPT ieeejquery(document).ready(function($) { // var el = '#slideshowPager2_28'; $('#slideshow2_28').cycle({ fx: 'fade', speed: 750, timeout: 6000, next: '#slideshowNext2_28', prev: '#slideshowPrev2_28', pager: '#slideshowPager2_28', pagerAnchorBuilder: function (idx, slide) { return '\u2022'; }, pause: 1 }); }); $('#slideshowPause2_28').click(function() { var src = ieeejquery(this).attr('src'); if (src == './modules/mod_IEEEImageRotator/images/pager_pause.png') { ieeejquery('#slideshow2_28').cycle('pause'); ieeejquery(this).attr('src','./modules/mod_IEEEImageRotator/images/pager_play.png'); ieeejquery(this).attr('alt','Play'); } else if (src == './modules/mod_IEEEImageRotator/images/pager_play.png') { ieeejquery('#slideshow2_28').cycle('resume', true); ieeejquery(this).attr('src','./modules/mod_IEEEImageRotator/images/pager_pause.png'); ieeejquery(this).attr('alt','Pause'); } }); What's New Four Things Big Data Needs for the Holidays With the ceremonial hauling away of the turkey carcass completed, that can mean only one thing: time to start thinking about the holidays. (Yes, in this regard I'm way behind the retail industry, which has had Christmas decorations up since before Halloween.) Big data is a hot technology right now, so what gifts could it and its practitioners possibly use to make it even hotter in 2015? Turns out, there's a lot. Read more at Forbes. Feature Article What Does Big Data Mean for Marketers? ABig Data is the next big thing. You probably hear that a lot lately. For marketers, Big Data means big strides, big success, and big money. But like all significant technological breakthroughs, Big Data must be introduced in bite-sized morsels9 Read More at Business 2 Community. Technology Spotlight Ten Ways Big Data Is Revolutionizing Manufacturing McKinsey & Company recently published How Big Data Can Improve Manufacturing which provides insightful analysis of how big data and advanced analytics can streamline biopharmaceutical, chemical and discrete manufacturing. The article highlights how manufacturers in process-based industries are using advanced analytics to increase yields and reduce costs. Manufacturers have an abundance of operational and shop floor data that is being used for tracking today. The McKinsey article shows through several examples how big data and advanced analytics applications and platforms can deliver operational insights as well. Read more at Forbes. Useful Links Inside the Technology Time Machine (The Institute) Meet Fortune's 2014 Big Data All-Stars (Fortune) New Jersey Universities Meet to Discuss Big Data (The Institute) How to Explain Big Data to a Fifth Grader (InformationWeek) Can Big Data Cure Cancer? (Fortune) 'Big Data' Will Change How You Play, See the Doctor, Even Eat (Newsweek) Â Home | Sitemap | Contact Big Data | Accessibility | Privacy & Opting Out of Cookies | Terms & Conditions | Nondiscrimination Policy IEEE Big Data © Copyright 2015 IEEE - All rights reserved. Use of this Web site signifies your agreement to the IEEE Terms and Conditions. A not-for-profit organization, IEEE is the world's largest professional association for the advancement of technology."
}
}
}
}
}
}
In [23]:
print(tempas.enrich(Snippet.of(HtmlText)).peekJson)
{
"record":{
"url":"http://de.wikipedia.org/wiki/big_data",
"year":2013
},
"payload":{
"string":{
"html":{
"body":{
"text":{
"first-100-lines":"Big Data aus Wikipedia, der freien Enzyklopädie Wechseln zu: Navigation, Suche Dieser Artikel wurde wegen inhaltlicher Mängel auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen, und beteilige dich an der Diskussion! (+) Begründung: --Crazy1880 08:16, 21. Feb. 2011 (CET) Als Big Data werden besonders groÃ\u009fe Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken und Datenmanagement-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind dabei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von groÃ\u009fen Datenmengen. Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes und Exabytes. Nach aktuellen Berechnungen verdoppelt sich das weltweite Datenvolumen alle 2 Jahre[1]. Diese Entwicklung wird vor allem getrieben durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbindungen (CDR) und Web-Zugriffen (Logdateien), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Big Data fallen auch in der Finanzindustrie an (Finanz-Transaktionen, Börsendaten), sowie im Energiesektor (Verbrauchsdaten) und im Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls groÃ\u009fe Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik. Der IT-Branchenverband Bitkom hat Big Data als einen Trend im Jahr 2012 bezeichnet.[2] Inhaltsverzeichnis 1 Beispiele 2 Verarbeitung von Big Data 3 Kritik 4 Einzelnachweise 5 Siehe auch 6 Weblinks Beispiele [Bearbeiten] Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. Beispiele sind: Zeitnahe Auswertung von Webstatistiken und Anpassung von Online-WerbemaÃ\u009fnahmen Bessere, schnellere Marktforschung Entdeckung von UnregelmäÃ\u009figkeiten bei Finanztransaktionen (Fraud-Detection) Einführung und Optimierung einer intelligenten Energieverbrauchssteuerung (Smart Metering) Erkennen von Interdependenzen in der medizinischen Behandlung Realtime-Cross- und Upselling im E-Commerce und stationären Vertrieb Aufbau flexibler Billingsysteme in der Telekommunikation Verarbeitung von Big Data [Bearbeiten] Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart groÃ\u009fe Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Dabei gibt es folgende Herausforderungen: Verarbeitung vieler Datensätze Verarbeitung vieler Spalten innerhalb eines Datensatzes Schneller Import groÃ\u009fer Datenmengen Sofortige Abfrage importierter Daten (Realtime-Processing) Kurze Antwortzeiten auch bei komplexen Abfragen Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries) Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der bei Open-Source-Software (Apache Hadoop und MongoDB), sowie bei einigen kommerziellen Produkten (Aster Data, Greenplum u. a.) zum Einsatz kommt. Kritik [Bearbeiten] Kritik gibt es an \"Big Data\" vor allem dahingehend, dass die Datenerhebung und -auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten, diese Daten zu verarbeiten, begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd:[3] GröÃ\u009fere Datenmengen müssten nicht qualitativ bessere Daten sein Nicht alle Daten seien gleich erzeugt \"Was\" und \"Warum\" seien zwei unterschiedliche Fragen Bei Interpretationen sei Vorsicht geboten Nur weil es verfügbar ist, sei es nicht ethisch So ermittelte ein Forscher beispielsweise, dass Nutzer eines sozialen Netzes nicht mehr als 150 Freundschaften pflegen würden â\u0080\u0093 was jedoch lediglich eine technische Begrenzung des Netzwerkes war.[3] Und sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen â\u0080\u0093 der Begriff eines \"Freundes\" auf Facebook gibt lediglich eine Kommunikationsbereitschaft an. Ein anderer kritischer Ansatz setzt sich mit der Frage auseinander, ob Big Data das Ende aller Theorie bedeutet. Chris Anderson, Chefredakteur bei WIRED beschrieb 2008 das Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse lebender und nicht lebender Systeme. Korrelationen werden wichtiger als kausale Erklärungsansätze, die sich oft erst später bewahrheiten oder falsifizieren lassen.[4] Der schleswig-holsteinische Datenschutzbeauftragte Thilo Weichert warnt: \"Big Data eröffnet Möglichkeiten des informationellen Machtmissbrauchs durch Manipulation, Diskriminierung und informationelle ökonomische Ausbeutung â\u0080\u0093 verbunden mit der Verletzung der Grundrechte der Menschen\" [5][6] Einzelnachweise [Bearbeiten] â\u0086\u0091 Klaus Manhart: IDC-Studie zum Datenwachstum - Doppeltes Datenvolumen alle zwei Jahre. In: CIO. 12. Juli 2011, abgerufen am 11. Januar 2013. â\u0086\u0091 Trendkongress: Big Data, wenig Schutz. Abgerufen am 27. November 2012. â\u0086\u0091 a b Danah Boyd: Privacy and Publicity in the Context of Big Data. In: WWW 2010 conference. 29. April 2010, abgerufen am 18. April 2011 (html, englisch, Keynote WWW 2010). â\u0086\u0091 Siehe auch: Chris Anderson in WIRED und cum hoc ergo propter hoc â\u0086\u0091 Weichert fordert Hinterfragung und Erforschung von â\u0080\u009eBig Dataâ\u0080\u009c. 18. März 2013, abgerufen am 21. März 2013. â\u0086\u0091 Big Data: Sowohl Gefahr für die Demokratie als auch ökonomische Chance. 20. März 2013, abgerufen am 21. März 2013. Siehe auch [Bearbeiten] unstrukturierte Daten Data-Mining Data-Warehouse Weblinks [Bearbeiten] Artikel auf heise online über den Umgang mit Big Data Von â\u0080\u009e http://de.wikipedia.org/w/index.php?title=Big_Data&oldid=118427506â\u0080\u009c Kategorie: Angewandte Informatik Wartungskategorie: Wikipedia:Qualitätssicherung Informatik Navigationsmenü Meine Werkzeuge Benutzerkonto anlegen Anmelden Namensräume Artikel Diskussion Varianten Ansichten Lesen Bearbeiten Versionsgeschichte Aktionen Suche Navigation Hauptseite Themenportale Von A bis Z Zufälliger Artikel Mitmachen Artikel verbessern Neuen Artikel anlegen Autorenportal Hilfe Letzte Ã\u0084nderungen Kontakt Spenden Drucken/exportieren Buch erstellen Als PDF herunterladen Druckversion Werkzeuge Links auf diese Seite Ã\u0084nderungen an verlinkten Seiten Spezialseiten Permanenter Link Seiteninformationen Seite zitieren In anderen Sprachen اÙ\u0084عربÙ\u008aØ© Bosanski Ä\u008cesky Dansk English Español Ù\u0081ارسÛ\u008c Français ×¢×\u0091ר×\u0099ת Italiano æ\u0097¥æ\u009c¬èª\u009e í\u0095\u009cêµì\u0096´ Nederlands Polski Português RomânÄ\u0083 Ð Ñ\u0083Ñ\u0081Ñ\u0081кий Svenska à¹\u0084à¸\u0097ย Türkçe ТаÑ\u0082аÑ\u0080Ñ\u0087а/tatarça ä¸æ\u0096\u0087 Links bearbeiten Diese Seite wurde zuletzt am 12. Mai 2013 um 12:21 Uhr geändert. Abrufstatistik Der Text ist unter der Lizenz â\u0080\u009eCreative Commons Attribution/Share Alikeâ\u0080\u009c verfügbar; Informationen zum Lizenzstatus eingebundener Mediendateien (etwa Bilder oder Videos) können im Regelfall durch Anklicken dieser abgerufen werden. Möglicherweise unterliegen die Inhalte jeweils zusätzlichen Bedingungen. Durch die Nutzung dieser Website erklärst du dich mit den Nutzungsbedingungen und der Datenschutzrichtlinie einverstanden. Wikipedia® ist eine eingetragene Marke der Wikimedia Foundation Inc. Datenschutz Ã\u009cber Wikipedia Impressum Mobile Ansicht jQuery.ready(); if(window.mw){ mw.loader.state({\"site\":\"loading\",\"user\":\"ready\",\"user.groups\":\"ready\"}); } if(window.mw){ mw.loader.load([\"mobile.desktop\",\"mediawiki.action.view.postEdit\",\"mediawiki.user\",\"mediawiki.page.ready\",\"mediawiki.searchSuggest\",\"mediawiki.hidpi\",\"ext.gadget.WikiMiniAtlas\",\"ext.gadget.CommonsDirekt\",\"mw.MwEmbedSupport.style\",\"ext.vector.collapsibleNav\",\"ext.vector.collapsibleTabs\",\"ext.articleFeedbackv5.startup\",\"ext.navigationTiming\",\"mw.PopUpMediaTransform\",\"ext.flaggedRevs.advanced\",\"skins.vector.js\"],null,true); }"
}
}
}
}
}
}
In [24]:
val SnippetEntities = Entities.of(Snippet)
In [25]:
print(mhl.enrich(SnippetEntities).peekJson)
{
"record":{
"id":"journal4190miss",
"title":"Journal of the Missouri State Medical Association",
"author":[
"Missouri State Medical Association"
],
"date":"1908",
"subject":[
"Medicine;Periodicals;Missouri"
],
"language":[
"eng"
],
"mediatype":[
"texts"
],
"collection":[
"francisacountwaylibrary",
"statemedicalsocietyjournals",
"medicalheritagelibrary",
"americana"
],
"description":[
"Title from cover",
"Published by: Missouri State Medical Association, <1910>-1952",
"Only 6 nos. issued in v. 11"
],
"score":0.0047816974
},
"text":{
"first-100-lines":{
"entities":{
"persons":[
"Louis",
"D.",
"M.",
"Leannec",
"ALLEN",
"J.",
"Phthisis"
],
"organizations":[
"Boston",
"MEDICA",
"Medical",
"Library",
"JOURN"
],
"locations":[
"MO.",
"Paris"
],
"dates":[
"JULY",
"1907",
"JUNE",
"1909"
]
}
}
}
}
In [26]:
val locations: RDD[String] = mhl.flatMapValues(SnippetEntities, "locations")
In [27]:
locations.take(10).foreach(println)
MO.
Paris
MINNESOTA
WANGENSTEEN
Minnesota
SOUTH
Cioloii
NORTH
United
DAKOTA
In [28]:
val symptomSet = Seq("extremity", "neck", "vomiting", "fever", "headache", "irritability", "abdominal", "lethargy")
In [29]:
val symptoms = LowerCase.map("symptoms") {text: String => symptomSet.filter(text.contains)}
In [30]:
val enriched = mhl.enrich(symptoms)
In [31]:
print(enriched.peekJson)
{
"record":{
"id":"journal4190miss",
"title":"Journal of the Missouri State Medical Association",
"author":[
"Missouri State Medical Association"
],
"date":"1908",
"subject":[
"Medicine;Periodicals;Missouri"
],
"language":[
"eng"
],
"mediatype":[
"texts"
],
"collection":[
"francisacountwaylibrary",
"statemedicalsocietyjournals",
"medicalheritagelibrary",
"americana"
],
"description":[
"Title from cover",
"Published by: Missouri State Medical Association, <1910>-1952",
"Only 6 nos. issued in v. 11"
],
"score":0.0047816974
},
"text":{
"lowercase":{
"symptoms":[
"extremity",
"neck",
"vomiting",
"fever",
"headache",
"irritability",
"abdominal"
]
}
}
}
In [32]:
val symptomCounts = enriched.flatMapValues(symptoms).countByValue
In [33]:
symptomCounts.foreach(println)
(extremity,1942)
(neck,2039)
(vomiting,2037)
(fever,2047)
(headache,2042)
(irritability,1939)
(abdominal,2042)
(lethargy,1529)
Content source: helgeho/ArchiveSpark
Similar notebooks: