Web Scraping


In [ ]:
import requests

In [ ]:
req = requests.get("http://pythonscraping.com/pages/page1.html")

In [ ]:
print(req.text)

In [ ]:
from bs4 import BeautifulSoup

In [ ]:
bs = BeautifulSoup(req.text, "html.parser")

In [ ]:
print(bs)

In [ ]:
type(bs.h1)

In [ ]:
bs.h1

In [ ]:
bs.h1.string

In [ ]:
req = requests.get("http://pythonscraping.com/pages/page1.html")

In [ ]:
req.status_code

Exercício - Crie uma função chamada recuperarTitulo(url), que deverá retornar o titulo da URL (página) passada por parâmetro. Lembre-se de tratar os erros necessários.


In [ ]:
import requests
from requests.exceptions import ConnectionError
from bs4 import BeautifulSoup

In [ ]:
def recuperarTitulo(url):
    # seu código aqui

Teste a função com as seguintes URLs:


In [ ]:
recuperarTitulo("http://pythonscrapingxxx.com/pages/page1.html")

In [ ]:
recuperarTitulo("http://pythonscraping.com/pages/page12.html")

In [ ]:
recuperarTitulo("http://pythonscraping.com/pages/page1.html")