抓網頁

  • 導入urlopen 並且找到 help 文件

In [ ]:

  • 用 urlopen 打開 https://www.wikipedia.org/ 並且讀入網頁內容
  • 將內內容用 utf-8解碼
  • 把解碼過得內容,用 HTML 來展示
  • 用 .getheaders() 看一下 header
  • 用 .close() 來關閉 response
  • 使用 context manager 的方式來打開網頁
    with urlopen(...) as response:
      response.xxxx
    

In [ ]:
from IPython.display import HTML

解析日期

  • 試著跑一下 redatetime 解析檔名日期的方式

In [ ]:
fn = "M06A_20170213.tar.gz"

BS4

  • 導入 bs4 並找到 help 文件
  • 建立 soup 來分析 https://www.wikipedia.org/
  • 找出所有的 div, a
  • 找出維基百科所有的「語言」

In [ ]: