此筆記本目的是讓大家有個概念，了解如何使用Python爬蟲。

所需套件：bs4, selenium, pandas, lxml。

另外，我們還需要瀏覽器chromedriver。



In [ ]:

    
from bs4 import BeautifulSoup
from selenium import webdriver
import pandas as pd



In [ ]:

    
urlMain="http://www.cacanews.com/cat91/92?sort=quality" # 想從這裡抓資料
urlLogin='http://www.cacanews.com/site/login' # 要先登入才能抓到我們想要的資料



In [ ]:

    
browser=webdriver.Chrome("/Users/chweng/Desktop/chromedriver")



In [ ]:

    
chromePath="/Users/chweng/Desktop/chromedriver"
browser=webdriver.Chrome(chromePath) # 開啟測試用的chrome瀏覽器
browser.get(urlLogin) # 以瀏覽器進入登入帳號的頁面



In [ ]:

    
# 找到帳密輸入區塊的ID後，輸入帳密

emailID=browser.find_element_by_id("LoginForm_username")
emailID.send_keys("chihung@honghutech.com") # 輸入帳號

passwd=browser.find_element_by_id("LoginForm_password")
passwd.send_keys("tmp12345") # 輸入密碼

# 找到登入按鈕，並按下登入按鈕以登入頁面
signin=browser.find_element_by_class_name('btn-primary')
signin.click() # 登入頁面



In [ ]:

    
# 登入完畢後，即可去目標頁面爬取我們想要的資料

browser.get(urlMain)
webText=browser.page_source # 得到網頁原始碼
soup=BeautifulSoup(webText,'lxml') # 將網頁原始碼交給Beautifulsoup解析



In [ ]:

    
# 已經得到目標頁面原始碼。故可以先將測試用瀏覽器關閉
browser.quit()



In [ ]:

    
# 找到名稱為h3, 並且class是media-head開頭的 HTML tag
divs=soup.select('h3[class^="media-head"]')



In [ ]:

    
# 將標題，和該標題發佈的日期存成兩個清單
titles=[]
dates=[]
for div in divs:
    titles.append(div.text.split(divs[0].span.text)[1].strip())
    dates.append(div.next_sibling.next_sibling.text.split("|")[1].strip())



In [ ]:

    
# 將清單轉存Pandas資料表，以利之後的資料處理
df=pd.DataFrame({"title":titles,"dates":dates})



In [ ]:

    
df



In [ ]:

    
# 將爬取得來的資料轉成csv檔案儲存
df.to_csv("content_farm_example.csv")