web-scraper



In [92]:
#-*- coding: utf-8 -*-

#https://www.heise.de/thema/https
from bs4 import BeautifulSoup as bs
import requests
import re

In [107]:
def get_html(url):
    
    page = requests.get(url)
    return page.text

def scrape_heisede_https_headers():
    
    output_list = []
    url = 'https://www.heise.de/thema/https'
    soup = bs(get_html(url), 'html.parser')
    further = True
    l = []
    while further:
        for header in soup.find('div', {'class': 'keywordliste'}).find_all('header'):
            if header.text.encode('utf8') != 'Alle Beiträge zu: https':
                l.append(header.text.encode('utf8'))
        next_page = soup.find('a', {'class': 'seite_weiter'})
        further = False
        further = not next_page is None
        if further:
            next_page_url = 'https://www.heise.de' + next_page['href']
            soup = bs(get_html(next_page_url), 'html.parser')
    type(l[0])
    return l

In [115]:
def count_words(l):
    #Count the words in a list l
    d = dict()
    for item in l:item.
        for word in split(' '):
            word = word.strip(';.: ')
            if word in d:
                d[word] += 1
            else:
                d[word] = 1
    
    return d

In [116]:
l = scrape_heisede_https_headers()
print l


['Zertifikate: Mozilla testet Ausstieg aus dem SSL-Widerrufs-Konzept OCSP\n                 ', 'Bahn beseitigt DNS-Fehler: Paypal wieder \xc3\xbcber WIFIonICE benutzbar\n                 ', 'Malware mit Apple-Entwicklerzertifikat spioniert HTTPS-Traffic aus\n                 ', 'Android O verbietet TLS Version Fallback\n                 ', 'Pornhub und YouPorn verschl\xc3\xbcsseln mit HTTPS\n                 ', 'Neuer IETF-Standard: Alten Webverkehr wenigstens verschl\xc3\xbcsseln\n                 ', 'US-CERT warnt vor HTTPS-Inspektion\n                 ', 'Unsicheres Log-in-Feld: Webseiten-Betreiber beschwert sich bei Firefox \xc3\xbcber Warnung\n                 ', 'Online-Gl\xc3\xbccksspiel: Schweiz f\xc3\xbchrt trotz viel Kritik Netzsperren ein\n                 ', 'Sicherheitsforscher an AV-Hersteller: "Finger weg von HTTPS"\n                 ', 'Symantec schlampt erneut mit TLS-Zertifikaten\n                 ', 'heise online: HTTPS auch f\xc3\xbcr Mobilger\xc3\xa4te\n                 ', 'HTTPS-Zwang f\xc3\xbcr Apps: Apple verl\xc3\xa4ngert Deadline\n                 ', 'WordPress will 2017 HTTPS-Ausbau vorantreiben\n                 ', 'SourceForge bietet optional HTTPS f\xc3\xbcr Projektseiten\n                 ', 'Verschl\xc3\xbcsselung: heise online und Heise-Onlinedienste stellen komplett auf HTTPS um\n                 ', 'Admins aufgepasst: SHA1-Zertifikate vor dem endg\xc3\xbcltigen Aus \n                 ', 'Zertifikats-Klau: Fatale Sehschw\xc3\xa4che bei Comodo\n                 ', 'Sicher surfen im Gratis-WLAN\n                 ', 'HTTPS-Verschl\xc3\xbcsselung im Web erreicht erstmals 50 Prozent\n                 ', 'Verschl\xc3\xbcsselung: heise online und Heise-Onlinedienste per HTTPS erreichbar\n                 ', 'Verschl\xc3\xbcsselung bei heise online\n                 ', "Let's Encrypt: Firefox soll Root-Zertifikat bald von Haus aus vertrauen\n                 ", 'HEIST: Wiederbelebter Angriff auf HTTPS vorgestellt\n                 ', 'Gratis-CA StartEncrypt beginnt mit Sicherheitsproblemen\n                 ', "F\xc3\xbcnf Millionen Zertifikate: Let's Encrypt w\xc3\xa4chst rasant\n                 ", 'Apple erzwingt HTTPS in Apps\n                 ', 'Ministerium f\xc3\xbcr digitale Infrastruktur pfuscht beim eigenen Web-Server\n                 ', "Let's Encrypt: Kostenlose SSL-Verschl\xc3\xbcsselung bei Wordpress\n                 ", 'HTTPS: 77 Prozent aller Google-Anfragen verschl\xc3\xbcsselt\n                 ', 'In eigener Sache: Pilotprojekt HTTPS\n                 ', 'Chrome DevTools helfen bei der \xc3\x9cberpr\xc3\xbcfung des HTTPS-Status\n                 ', "Audit und Web-Client: Kritik an SSL/TLS-Zertifizierungsstelle Let's Encrypt\n                 ", 'Patenttroll: CryptoPeak verklagt HTTPS-Nutzer wegen Patentverletzung\n                 ', "Let's Encrypt: Ab dem 3. Dezember Gratis-SSL-Zertifikate f\xc3\xbcr alle\n                 ", 'Symantec hantiert mit falschem Google-Zertifikat\n                 ', "Erstes Zertifikat von Let's Encrypt zum Test bereit\n                 ", 'Denic will Webangebote komplett verschl\xc3\xbcsseln\n                 ', 'Nach Erpressungsversuch: Webhoster 1blu tauscht tausende SSL-Zertifikate\n                 ', 'l+f: https-fuer-Fortgeschrittene\n                 ', 'Washington Post stellt Website auf HTTPS um\n                 ', 'Android-Apps: Passwort-Schlamperei verbreitet\n                 ', 'Reddit und Bing k\xc3\xbcnftig nur noch verschl\xc3\xbcsselt\n                 ', 'Wikipedia schaltet auf verschl\xc3\xbcsselte Verbindung um\n                 ', 'Microsoft pusht HTTPS beim Internet Explorer und Edge-Webbrowser\n                 ', 'Apple will HTTP-Verbindungen aufs Abstellgleis schicken\n                 ', 'USA: Regierungs-Webseiten m\xc3\xbcssen auf HTTPS umstellen\n                 ', "Let's Encrypt: Meilenstein zu kostenlosen SSL-Zertifikaten f\xc3\xbcr alle\n                 ", 'Barracuda Web Filter untergr\xc3\xa4bt Sicherheit von SSL-Verbindungen\n                 ', 'Mozilla will HTTP ausrangieren\n                 ', 'Netflix: Videos \xc3\xbcber HTTPS und neutrale Netze\n                 ', 'l+f: Abgelaufenes SSL-Zertifikat bei Visa\n                 ', 'Freak Attack: SSL-Verschl\xc3\xbcsselung von Millionen Webseiten angreifbar\n                 ', 'Sicherheits-Tool PrivDog telefoniert nach Hause - unverschl\xc3\xbcsselt\n                 ', 'Google schickt Botnetze auf Schwachstellensuche\n                 ', 'Paypal-Phisher missbrauchen kostenlose SSL-Zertifikate von Cloudflare\n                 ', 'Security-Funktion HSTS als Supercookie\n                 ', 'Chromium-Team will HTTP als unsicher markieren\n                 ', 'Meta-Hack st\xc3\xb6rt hunderte Medien-Webseiten\n                 ', 'Klartext soll aus dem Internet verschwinden\n                 ', 'Download-Sicherheit: Blackberry muss App-Store nachbessern\n                 ', 'Firefox soll falsche SSL-Zertifikate enttarnen\n                 ', 'HTTPS-Verschl\xc3\xbcsselung verbessert Google-Ranking\n                 ', 'Mozilla zuk\xc3\xbcnftig mit zentralen Sperrlisten\n                 ', 'Mozilla entschlackt Zertifikats-\xc3\x9cberpr\xc3\xbcfung\n                 ', 'Heartbleed und das Sperrproblem von SSL\n                 ', 'HTTPS entschl\xc3\xbcsseln\n                 ', 'Yahoo Mail aktiviert HTTPS f\xc3\xbcr alle Nutzer\n                 ', 'Die NSA-Aff\xc3\xa4re und die Internet-Konzerne: "Den Unternehmen ist Datenschutz egal"\n                 ', 'Wen interessiert schon die Privatsph\xc3\xa4re der Nutzer?\n                 ', 'NSA-Aff\xc3\xa4re: US-amerikanische IT-Unternehmen setzen zunehmend auf Verschl\xc3\xbcsselung\n                 ', 'IETF: Streit um sicheres HTTP 2.0 neu entbrannt\n                 ', 'Yahoo: HTTPS-Verschl\xc3\xbcsselung wird Anfang 2014 Standard\n                 ', 'Verschl\xc3\xbcsselung im Web: TLS soll sicherer werden\n                 ', 'lost+found: Was von der Woche \xc3\xbcbrig blieb\n                 ', 'Facebook: HTTPS nun f\xc3\xbcr alle\n                 ', 'Vorsicht beim Skypen - Microsoft liest mit\n                 ', 'Fotoklau und Spion-Funktion: Hintert\xc3\xbcr zu vernetzten Kameras\n                 ', 'Nokia: Ja, wir entschl\xc3\xbcsseln HTTPS - aber wir spitzeln nicht\n                 ', 'Yahoo zieht nach - Nutzer k\xc3\xb6nnen HTTPS aktivieren\n                 ', 'Fatale Panne bei Zertifikatsherausgeber T\xc3\xbcrktrust\n                 ', '29C3: "Das SSL-System ist grundlegend defekt - und jemand muss es reparieren"\n                 ', 'HTTP Strict Transport Security als Internet-Standard\n                 ', 'Facebook setzt auf HTTPS f\xc3\xbcr alle Nutzer\n                 ', 'Firefox macht es HTTPS-Lauschern k\xc3\xbcnftig schwerer\n                 ', 'HTTPS Everywhere unterst\xc3\xbctzt mehr Websites\n                 ', 'L\xc3\xbccke in SSL-Verschl\xc3\xbcsselung kaum ausnutzbar\n                 ', 'Webserver Nginx in stabiler Version 1.2.0 ver\xc3\xb6ffentlicht\n                 ', 'Chrome warnt vor g\xc3\xbcltigen SSL-Zertifikaten\n                 ', 'Mozilla fordert sch\xc3\xa4rfere Kontrollen von Sub-CAs\n                 ', 'HTTPS Everywhere jetzt auch f\xc3\xbcr Chrome\n                 ', 'Twitter verschl\xc3\xbcsselt standardm\xc3\xa4\xc3\x9fig\n                 ', 'Windows-Webserver mit Javascript, IPv6 und SSL\n                 ', 'Trustwave verkaufte Man-in-the-Middle-Zertifikat\n                 ', 'Google will Online-Zertifikats-Check abschaffen\n                 ', 'Neues Tool: Webcheck \xc3\xbcberpr\xc3\xbcft Webserver\n                 ', 'EU-Beh\xc3\xb6rde f\xc3\xbcr IT-Sicherheit kritisiert Zertifizierungsstellen\n                 ', 'Google-Forscher schlagen Ausweg aus dem SSL-Dilemma vor\n                 ', 'Die Frist ist um: Facebook-Apps nur noch mit OAuth 2.0 und \xc3\xbcber HTTPS\n                 ', 'Tool soll SSL-Cookies in zehn Minuten knacken\n                 ', 'CA-Hack: Auch Anonymisierungs-Projekt TOR im Visier der Angreifer\n                 ', 'HTTPS Everywhere ausgebaut\n                 ', 'Google macht Schluss mit unsicheren Inhalten auf sicheren Seiten\n                 ', 'Der "ehrliche Achmed" bittet um Vertrauen\n                 ', 'Zwei weitere Comodo-SSL-Registrare gehackt\n                 ', 'Safari-Anwender durch kompromittierte Zertifikate gef\xc3\xa4hrdet\n                 ', 'Twitter jetzt vollst\xc3\xa4ndig mit HTTPS\n                 ', 'Facebooks kruder https-Workaround\n                 ', 'Mehr Verschl\xc3\xbcsselung!\n                 ', 'Firefox-Erweiterung klaut Sitzungen bei Facebook, Twitter und Co.\n                 ', 'Automatische Webverschl\xc3\xbcsselung f\xc3\xbcr (fast) \xc3\xbcberall\n                 ', 'L\xc3\xbccke betrifft alle g\xc3\xa4ngigen Browser [Update]\n                 ', 'Sicherheits-Appliance \xc3\xbcberpr\xc3\xbcft HTTPS\n                 ', 'Verschl\xc3\xbcsselter Dateitransfer f\xc3\xbcr Windows\n                 ', 'Unsichere Updates via InstallShield Update Agent\n                 ', 'Anmeldeprobleme mit Firefox und NoScript [Update]\n                 ']

In [112]:
d = count_words(l)

In [117]:
sorted(d.items(), key=lambda t: t[1])


Out[117]:
[('erzwingt', 1),
 ('HTTPS:', 1),
 ('nachbessern\n', 1),
 ('Web-Client:', 1),
 ('Standard\n', 1),
 ('Facebook', 1),
 ('Bahn', 1),
 ('tausende', 1),
 ('unverschl\xc3\xbcsselt\n', 1),
 ('Pornhub', 1),
 ('sch\xc3\xa4rfere', 1),
 ('nicht\n', 1),
 ('SourceForge', 1),
 ('aktivieren\n', 1),
 ('Gratis-SSL-Zertifikate', 1),
 ('Zertifizierungsstellen\n', 1),
 ('F\xc3\xbcnf', 1),
 ('g\xc3\xa4ngigen', 1),
 ('Google-Forscher', 1),
 ('wenigstens', 1),
 ('unsicher', 1),
 ('vor\n', 1),
 ('Wordpress\n', 1),
 ('Webverkehr', 1),
 ('beseitigt', 1),
 ('schlampt', 1),
 ('CryptoPeak', 1),
 ('Netzsperren', 1),
 ('Inhalten', 1),
 ('reparieren"\n', 1),
 ('Web:', 1),
 ('Regierungs-Webseiten', 1),
 ('IETF:', 1),
 ('Privatsph\xc3\xa4re', 1),
 ('Ausstieg', 1),
 ('lost+found:', 1),
 ('aktiviert', 1),
 ('EU-Beh\xc3\xb6rde', 1),
 ('erreicht', 1),
 ('surfen', 1),
 ('NoScript', 1),
 ('stellt', 1),
 ('Paypal-Phisher', 1),
 ('DNS-Fehler:', 1),
 ('3.', 1),
 ('(fast)', 1),
 ('Unternehmen', 1),
 ('via', 1),
 ('Zwei', 1),
 ('Frist', 1),
 ('HEIST:', 1),
 ('Aus', 1),
 ('Ausweg', 1),
 ('aufs', 1),
 ('vertrauen\n', 1),
 ('ausnutzbar\n', 1),
 ('Explorer', 1),
 ('Kostenlose', 1),
 ('HTTPS-Status\n', 1),
 ('Visier', 1),
 ('testet', 1),
 ('Yahoo:', 1),
 ('Google-Ranking\n', 1),
 ('Angriff', 1),
 ('Patentverletzung\n', 1),
 ('IT-Sicherheit', 1),
 ('Anonymisierungs-Projekt', 1),
 ('Abstellgleis', 1),
 ('verschl\xc3\xbcsseln', 1),
 ('Unsichere', 1),
 ('online\n', 1),
 ('Browser', 1),
 ('Videos', 1),
 ('m\xc3\xbcssen', 1),
 ('des', 1),
 ('trotz', 1),
 ('angreifbar\n', 1),
 ('entbrannt\n', 1),
 ('standardm\xc3\xa4\xc3\x9fig\n', 1),
 ('wieder', 1),
 ('Nutzer', 1),
 ('verl\xc3\xa4ngert', 1),
 ('\xc3\xbcbrig', 1),
 ('sicheren', 1),
 ('um:', 1),
 ('mehr', 1),
 ('CA-Hack:', 1),
 ('Der', 1),
 ('Webseiten', 1),
 ('Erpressungsversuch:', 1),
 ('"Finger', 1),
 ('Botnetze', 1),
 ('Blackberry', 1),
 ('OAuth', 1),
 ('Achmed"', 1),
 ('Denic', 1),
 ('Sicherheitsforscher', 1),
 ('abschaffen\n', 1),
 ('USA:', 1),
 ('WordPress', 1),
 ('Webcheck', 1),
 ('Alten', 1),
 ('Supercookie\n', 1),
 ('SSL-Verbindungen\n', 1),
 ('st\xc3\xb6rt', 1),
 ('schicken\n', 1),
 ('Neuer', 1),
 ('Nginx', 1),
 ('Dezember', 1),
 ('Nokia:', 1),
 ('2014', 1),
 ('2017', 1),
 ('HTTPS-Ausbau', 1),
 ('Projektseiten\n', 1),
 ('Ja,', 1),
 ('das', 1),
 ('Freak', 1),
 ('Woche', 1),
 ('Zertifikatsherausgeber', 1),
 ('grundlegend', 1),
 ('Zertifikats-Klau:', 1),
 ('Transport', 1),
 ('Javascript,', 1),
 ('SSL-Zertifikat', 1),
 ('Man-in-the-Middle-Zertifikat\n', 1),
 ('Washington', 1),
 ('Schluss', 1),
 ('wegen', 1),
 ('Prozent', 1),
 ('erstmals', 1),
 ('NSA-Aff\xc3\xa4re', 1),
 ('unsicheren', 1),
 ('Barracuda', 1),
 ('Zertifikate', 1),
 ('Trustwave', 1),
 ('Panne', 1),
 ('Sicherheits-Tool', 1),
 ('kaum', 1),
 ('US-amerikanische', 1),
 ('zehn', 1),
 ('Anfang', 1),
 ('Security', 1),
 ('entschl\xc3\xbcsseln\n', 1),
 ('k\xc3\xb6nnen', 1),
 ('verschl\xc3\xbcsselte', 1),
 ('Sache:', 1),
 ('Security-Funktion', 1),
 ('Patenttroll:', 1),
 ('IPv6', 1),
 ('Internet-Standard\n', 1),
 ('HTTPS-Zwang', 1),
 ('Facebook:', 1),
 ('Facebook-Apps', 1),
 ('Facebook,', 1),
 ('Website', 1),
 ('YouPorn', 1),
 ('schlagen', 1),
 ('App-Store', 1),
 ('Post', 1),
 ('spitzeln', 1),
 ('verbreitet\n', 1),
 ('1blu', 1),
 ('Bing', 1),
 ('Facebooks', 1),
 ('Google-Anfragen', 1),
 ('Gratis-CA', 1),
 ('Hause', 1),
 ('schon', 1),
 ('verbietet', 1),
 ('Comodo\n', 1),
 ('Edge-Webbrowser\n', 1),
 ('\xc3\x9cberpr\xc3\xbcfung', 1),
 ('digitale', 1),
 ('telefoniert', 1),
 ('zunehmend', 1),
 ('Attack:', 1),
 ('Malware', 1),
 ('aller', 1),
 ('HSTS', 1),
 ('Infrastruktur', 1),
 ('HTTPS-Inspektion\n', 1),
 ('Mail', 1),
 ('Paypal', 1),
 ('Webserver', 1),
 ('enttarnen\n', 1),
 ('Log-in-Feld:', 1),
 ('Apple-Entwicklerzertifikat', 1),
 ('Fotoklau', 1),
 ('TOR', 1),
 ('kostenlose', 1),
 ('77', 1),
 ('jemand', 1),
 ('"ehrliche', 1),
 ('Sicherheit', 1),
 ('1.2.0', 1),
 ('Wiederbelebter', 1),
 ('markieren\n', 1),
 ('werden\n', 1),
 ('egal"\n', 1),
 ('ausrangieren\n', 1),
 ('Automatische', 1),
 ('verklagt', 1),
 ('SSL-System', 1),
 ('Mehr', 1),
 ('Nutzer?\n', 1),
 ('benutzbar\n', 1),
 ('Wen', 1),
 ('liest', 1),
 ('Unsicheres', 1),
 ('Verbindung', 1),
 ('Test', 1),
 ('weitere', 1),
 ('setzt', 1),
 ('Reddit', 1),
 ('Chrome\n', 1),
 ('Windows-Webserver', 1),
 ('Update', 1),
 ('kompromittierte', 1),
 ('Minuten', 1),
 ('\xc3\xbcberall\n', 1),
 ('ver\xc3\xb6ffentlicht\n', 1),
 ('kritisiert', 1),
 ('Gratis-WLAN\n', 1),
 ('WIFIonICE', 1),
 ('Google-Zertifikat\n', 1),
 ('neu', 1),
 ('viel', 1),
 ('SSL/TLS-Zertifizierungsstelle', 1),
 ('bereit\n', 1),
 ('T\xc3\xbcrktrust\n', 1),
 ('Zertifikats-\xc3\x9cberpr\xc3\xbcfung\n', 1),
 ('setzen', 1),
 ('Sicherheits-Appliance', 1),
 ('stabiler', 1),
 ('Wikipedia', 1),
 ('nun', 1),
 ('HTTPS-Nutzer', 1),
 ('Android', 1),
 ('Mobilger\xc3\xa4te\n', 1),
 ('wird', 1),
 ('f\xc3\xbchrt', 1),
 ('Tool', 1),
 ('Sicher', 1),
 ('Vertrauen\n', 1),
 ('vollst\xc3\xa4ndig', 1),
 ('Online-Gl\xc3\xbccksspiel:', 1),
 ('optional', 1),
 ('Verschl\xc3\xbcsselung\n', 1),
 ('bittet', 1),
 ('US-CERT', 1),
 ('Admins', 1),
 ('vernetzten', 1),
 ('Online-Zertifikats-Check', 1),
 ('spioniert', 1),
 ('Medien-Webseiten\n', 1),
 ('InstallShield', 1),
 ('DevTools', 1),
 ('HTTPS"\n', 1),
 ('g\xc3\xbcltigen', 1),
 ('Neues', 1),
 ('Heartbleed', 1),
 ('Auch', 1),
 ('betrifft', 1),
 ('Updates', 1),
 ('Sicherheitsproblemen\n', 1),
 ('Web-Server\n', 1),
 ('Schweiz', 1),
 ('NSA-Aff\xc3\xa4re:', 1),
 ('Abgelaufenes', 1),
 ('Dateitransfer', 1),
 ('Encrypt\n', 1),
 ('Webangebote', 1),
 ('Erstes', 1),
 ('Ministerium', 1),
 ('Kontrollen', 1),
 ('klaut', 1),
 ('Nach', 1),
 ('https-Workaround\n', 1),
 ('Netze\n', 1),
 ('Cloudflare\n', 1),
 ('Webseiten-Betreiber', 1),
 ('verbessert', 1),
 ('Datenschutz', 1),
 ('Pilotprojekt', 1),
 ('sicheres', 1),
 ('sicherer', 1),
 ('Verschl\xc3\xbcsselung!\n', 1),
 ('Root-Zertifikat', 1),
 ('Strict', 1),
 ('Comodo-SSL-Registrare', 1),
 ('zieht', 1),
 ('"Den', 1),
 ('unterst\xc3\xbctzt', 1),
 ('Kameras\n', 1),
 ('SHA1-Zertifikate', 1),
 ('Seiten\n', 1),
 ('Tool:', 1),
 ('knacken\n', 1),
 ('durch', 1),
 ('Hintert\xc3\xbcr', 1),
 ('bald', 1),
 ('OCSP\n', 1),
 ('SSL-Zertifikaten\n', 1),
 ('kostenlosen', 1),
 ('fordert', 1),
 ('vorgestellt\n', 1),
 ('stellen', 1),
 ('In', 1),
 ('zentralen', 1),
 ('eigenen', 1),
 ('Streit', 1),
 ('TLS-Zertifikaten\n', 1),
 ('Agent\n', 1),
 ('bietet', 1),
 ('eigener', 1),
 ('weg', 1),
 ('Klartext', 1),
 ('Anmeldeprobleme', 1),
 ('vorantreiben\n', 1),
 ('Sub-CAs\n', 1),
 ('Verschl\xc3\xbcsselter', 1),
 ('https-fuer-Fortgeschrittene\n', 1),
 ('schaltet', 1),
 ('entschlackt', 1),
 ('SSL-Widerrufs-Konzept', 1),
 ('defekt', 1),
 ('AV-Hersteller:', 1),
 ('50', 1),
 ('ausgebaut\n', 1),
 ('verkaufte', 1),
 ('Fallback\n', 1),
 ('Deadline\n', 1),
 ('IETF-Standard:', 1),
 ('IT-Unternehmen', 1),
 ('w\xc3\xa4chst', 1),
 ('HTTPS-Traffic', 1),
 ('Sehschw\xc3\xa4che', 1),
 ('zuk\xc3\xbcnftig', 1),
 ('"Das', 1),
 ('tauscht', 1),
 ('Was', 1),
 ('per', 1),
 ('schwerer\n', 1),
 ('mit\n', 1),
 ('Webverschl\xc3\xbcsselung', 1),
 ('kruder', 1),
 ('hantiert', 1),
 ('Internet-Konzerne:', 1),
 ('untergr\xc3\xa4bt', 1),
 ('O', 1),
 ('umstellen\n', 1),
 ('aus\n', 1),
 ('aufgepasst:', 1),
 ('interessiert', 1),
 ('HTTPS-Lauschern', 1),
 ('erneut', 1),
 ('Meilenstein', 1),
 ('missbrauchen', 1),
 ('Sperrproblem', 1),
 ('blieb\n', 1),
 ('zum', 1),
 ('SSL-Cookies', 1),
 ('aber', 1),
 ('\n', 1),
 ('SSL-Dilemma', 1),
 ('Windows\n', 1),
 ('pusht', 1),
 ('Vorsicht', 1),
 ('Sitzungen', 1),
 ('hunderte', 1),
 ('SSL-Zertifikate\n', 1),
 ('29C3:', 1),
 ('beginnt', 1),
 ('helfen', 1),
 ('SSL-Zertifikaten', 1),
 ('Warnung\n', 1),
 ('Filter', 1),
 ('Zertifikat', 1),
 ('Meta-Hack', 1),
 ('falschem', 1),
 ('gehackt\n', 1),
 ('Sperrlisten\n', 1),
 ('schickt', 1),
 ('Visa\n', 1),
 ('Download-Sicherheit:', 1),
 ('Netflix:', 1),
 ('online:', 1),
 ('ein\n', 1),
 ('Android-Apps:', 1),
 ('entschl\xc3\xbcsseln', 1),
 ('Safari-Anwender', 1),
 ('falsche', 1),
 ('Apps\n', 1),
 ('endg\xc3\xbcltigen', 1),
 ('beschwert', 1),
 ('Schwachstellensuche\n', 1),
 ('Apps:', 1),
 ('Haus', 1),
 ('PrivDog', 1),
 ('Chromium-Team', 1),
 ('sich', 1),
 ('HTTP-Verbindungen', 1),
 ('Firefox-Erweiterung', 1),
 ('Passwort-Schlamperei', 1),
 ('Skypen', 1),
 ('Audit', 1),
 ('verschwinden\n', 1),
 ('verschl\xc3\xbcsselt', 1),
 ('Co.\n', 1),
 ('StartEncrypt', 1),
 ('Prozent\n', 1),
 ('Ab', 1),
 ('Websites\n', 1),
 ('Spion-Funktion:', 1),
 ('neutrale', 1),
 ('rasant\n', 1),
 ('Webserver\n', 1),
 ('pfuscht', 1),
 ('Webhoster', 1),
 ('erreichbar\n', 1),
 ('gef\xc3\xa4hrdet\n', 1),
 ('Angreifer\n', 1),
 ('Chrome', 2),
 ('SSL\n', 2),
 ('macht', 2),
 ('die', 2),
 ('warnt', 2),
 ('Version', 2),
 ('k\xc3\xbcnftig', 2),
 ('Kritik', 2),
 ('Millionen', 2),
 ('wir', 2),
 ('Microsoft', 2),
 ('muss', 2),
 ('noch', 2),
 ('\xc3\xbcberpr\xc3\xbcft', 2),
 ('SSL-Zertifikate', 2),
 ('verschl\xc3\xbcsselt\n', 2),
 ('es', 2),
 ('auch', 2),
 ('nach', 2),
 ('TLS', 2),
 ('zu', 2),
 ('online', 2),
 ('Web', 2),
 ('verschl\xc3\xbcsseln\n', 2),
 ('Nutzer\n', 2),
 ('2.0', 2),
 ('Verschl\xc3\xbcsselung:', 2),
 ('Zertifikate:', 2),
 ('Yahoo', 2),
 ('l+f:', 2),
 ('Die', 2),
 ('jetzt', 2),
 ('L\xc3\xbccke', 2),
 ('komplett', 2),
 ('Internet', 2),
 ('Symantec', 2),
 ('um', 2),
 ('Encrypt', 2),
 ('an', 2),
 ('nur', 2),
 ('Verschl\xc3\xbcsselung', 2),
 ('Fatale', 2),
 ('[Update]\n', 2),
 ('Heise-Onlinedienste', 2),
 ('als', 3),
 ('Apple', 3),
 ('alle', 3),
 ('beim', 3),
 ('Everywhere', 3),
 ('ist', 3),
 ('Google', 3),
 ('alle\n', 3),
 ('Twitter', 3),
 ('vor', 3),
 ('um\n', 3),
 ('SSL-Verschl\xc3\xbcsselung', 3),
 ('HTTPS-Verschl\xc3\xbcsselung', 3),
 ('aus', 4),
 ('heise', 4),
 ('HTTP', 4),
 ('der', 4),
 ('\xc3\xbcber', 4),
 ('Encrypt:', 4),
 ('im', 4),
 ('in', 4),
 ('HTTPS\n', 5),
 ('dem', 5),
 ('Mozilla', 5),
 ('-', 5),
 ('soll', 5),
 ('Firefox', 5),
 ('will', 6),
 ("Let's", 7),
 ('bei', 8),
 ('auf', 9),
 ('von', 9),
 ('mit', 11),
 ('f\xc3\xbcr', 13),
 ('und', 15),
 ('HTTPS', 19),
 ('', 1972)]

In [118]:
a = 'asdasd;. '

In [123]:



---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-123-a206338c86d4> in <module>()
----> 1 a.strip(';','.')

TypeError: strip() takes at most 1 argument (2 given)

In [54]:
site = get_html('https://www.heise.de/thema/https')

In [55]:
'<a class="seite_weiter"' in site


Out[55]:
False

In [64]:
soup.find('a', {'class': 'seite_weiter'})['href']


Out[64]:
u'/thema/https?seite=1'