In [3]:
import requests
from bs4 import BeautifulSoup as bs

a=[]
url="http://zh.pttpedia.wikia.com/wiki/PTT%E6%94%BF%E6%B2%BB%E4%BA%BA%E7%89%A9%E7%B6%BD%E8%99%9F%E5%88%97%E8%A1%A8"
res = requests.get(url)
soup = bs(res.text)
sort = soup.select("td")
#print sort[0].txt,sort[1].txt
for i in range(0,148,2):
    dic={'name':sort[i].text,'nickname':sort[i+1].text}
    a.append(dic)


C:\Users\king4647\Anaconda2\lib\site-packages\bs4\__init__.py:166: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

To get rid of this warning, change this:

 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))

In [5]:
for i in a:
    print i["name"].strip()+"|0x0080|101"


馬英九|0x0080|101
陳水扁|0x0080|101
李登輝|0x0080|101
吳敦義|0x0080|101
呂秀蓮|0x0080|101
陳菊|0x0080|101
蔡英文|0x0080|101
蘇貞昌|0x0080|101
吳伯雄|0x0080|101
郝柏村|0x0080|101
連戰|0x0080|101
胡志強|0x0080|101
金溥聰|0x0080|101
江宜樺|0x0080|101
宋楚瑜|0x0080|101
王金平|0x0080|101
邱毅|0x0080|101
謝長廷|0x0080|101
郝龍斌|0x0080|101
洪秀柱|0x0080|101
連勝文|0x0080|101
朱立倫|0x0080|101
賴清德|0x0080|101
林益世|0x0080|101
劉憶如|0x0080|101
賴素如|0x0080|101
陳以真|0x0080|101
劉政鴻|0x0080|101
傅崐萁|0x0080|101
吳志揚|0x0080|101
吳育昇|0x0080|101
段宜康|0x0080|101
陳文茜|0x0080|101
吳淑珍|0x0080|101
馬以南|0x0080|101
丁守中|0x0080|101
蔡正元|0x0080|101
羅淑蕾|0x0080|101
張慶忠|0x0080|101
柯文哲|0x0080|101
紀國棟|0x0080|101
王世堅|0x0080|101
陳致中|0x0080|101
黃秀霜|0x0080|101
楊秋興|0x0080|101
陳為廷|0x0080|101
高嘉瑜|0x0080|101
游錫堃|0x0080|101
林佳龍|0x0080|101
鄭文燦|0x0080|101
陳明義|0x0080|101
王如玄|0x0080|101
戴伯特|0x0080|101
王浩宇|0x0080|101
陳建仁|0x0080|101
徐欣瑩|0x0080|101
王郁琦|0x0080|101
莊國榮|0x0080|101
馬鶴凌|0x0080|101
杜正勝|0x0080|101
蔣介石|0x0080|101
顏清標|0x0080|101
黃國昌|0x0080|101
林昶佐|0x0080|101
洪慈庸|0x0080|101
劉建國|0x0080|101
蕭美琴|0x0080|101
周美青|0x0080|101
蔣萬安|0x0080|101
龍應台|0x0080|101
姚文智|0x0080|101
黃敏惠|0x0080|101
翁啟惠|0x0080|101
羅瑩雪|0x0080|101

In [14]:
import requests
from bs4 import BeautifulSoup as bs

a=[]
url="http://zh.pttpedia.wikia.com/wiki/PTT%E8%97%9D%E4%BA%BA%E7%B6%BD%E8%99%9F%E5%88%97%E8%A1%A8"
res = requests.get(url)
soup = bs(res.text)
sort = soup.select("#mw-content-text li")
#print sort[0].txt,sort[1].txt
for i in sort:
    print i.text.strip()[0:3]+"|0x0080|101"


蔡依林|0x0080|101
楊丞琳|0x0080|101
陳建州|0x0080|101
劉德華|0x0080|101
黎明:|0x0080|101
成龍:|0x0080|101
阮經天|0x0080|101
田馥甄|0x0080|101
楊謹華|0x0080|101
周杰倫|0x0080|101
五月天|0x0080|101
邱淑貞|0x0080|101
利菁:|0x0080|101
王偉忠|0x0080|101
郭釆潔|0x0080|101
羅志祥|0x0080|101
陳妍希|0x0080|101
吳亞馨|0x0080|101
任賢齊|0x0080|101
余祥銓|0x0080|101
柯以柔|0x0080|101
小S:|0x0080|101
閃靈樂|0x0080|101
劉寶傑|0x0080|101
陳揮文|0x0080|101
鄭弘儀|0x0080|101
張友驊|0x0080|101
李蒨蓉|0x0080|101
朱學恒|0x0080|101
麥特戴|0x0080|101
李奧納|0x0080|101
宋芸樺|0x0080|101
唐湘龍|0x0080|101
李富城|0x0080|101
黃士修|0x0080|101

In [15]:
import requests
from bs4 import BeautifulSoup as bs

a=[]
url="http://zh.pttpedia.wikia.com/wiki/PTT%E9%81%8B%E5%8B%95%E5%93%A1%E7%B6%BD%E8%99%9F%E5%88%97%E8%A1%A8"
res = requests.get(url)
soup = bs(res.text)
sort = soup.select("#mw-content-text li")
#print sort[0].txt,sort[1].txt
for i in sort:
    print i.text.strip()[0:3]+"|0x0080|101"


羅敏卿|0x0080|101
陳政賢|0x0080|101
陳俊秀|0x0080|101
吳復連|0x0080|101
洪一中|0x0080|101
陳金鋒|0x0080|101
陳連宏|0x0080|101
許銘倢|0x0080|101
許銘傑|0x0080|101
林泓育|0x0080|101
郭泓志|0x0080|101
林岳平|0x0080|101
黃浩然|0x0080|101
林柏佑|0x0080|101
羅錦龍|0x0080|101
王勝偉|0x0080|101
劉芙豪|0x0080|101
潘武雄|0x0080|101
曾琮萱|0x0080|101
潘威倫|0x0080|101
高建三|0x0080|101
彭政閔|0x0080|101
林益全|0x0080|101
王溢正|0x0080|101
王鏡銘|0x0080|101
陳瑞振|0x0080|101
陳瑞昌|0x0080|101
賴鴻誠|0x0080|101
陳鴻文|0x0080|101
劉時豪|0x0080|101
葉竹軒|0x0080|101
郭嚴文|0x0080|101
江承峰|0x0080|101
傅于剛|0x0080|101
陽冠威|0x0080|101
鄭達鴻|0x0080|101
羅嘉仁|0x0080|101
林瑋恩|0x0080|101
林智勝|0x0080|101
林智平|0x0080|101
張泰山|0x0080|101
唐肇廷|0x0080|101
高國輝|0x0080|101
羅國華|0x0080|101
詹智堯|0x0080|101
陳雁風|0x0080|101
官大元|0x0080|101
陳冠任|0x0080|101
鍾承祐|0x0080|101
余德龍|0x0080|101
郭修延|0x0080|101
藍寅倫|0x0080|101
林其緯|0x0080|101
陳俊輝|0x0080|101
高志綱|0x0080|101
陳鏞基|0x0080|101
陳江和|0x0080|101
張正偉|0x0080|101
陳禹勳|0x0080|101
林恩宇|0x0080|101
高國慶|0x0080|101
鄧志偉|0x0080|101
葉君璋|0x0080|101
鄭兆行|0x0080|101
林英傑|0x0080|101
郭岱詠|0x0080|101
郭岱琦|0x0080|101
周思齊|0x0080|101
蔣智賢|0x0080|101
張建銘|0x0080|101
許基宏|0x0080|101
李風華|0x0080|101
張志強|0x0080|101
黃志龍|0x0080|101
曾豪駒|0x0080|101
蔡建偉|0x0080|101
黃龍義|0x0080|101
許鋒賓|0x0080|101
蔡仲南|0x0080|101
曾華偉|0x0080|101
簡富智|0x0080|101
江柏青|0x0080|101
王峻杰|0x0080|101
許竹見|0x0080|101
黃甘霖|0x0080|101
潘忠韋|0x0080|101
張家浩|0x0080|101
曾智偵|0x0080|101
石志偉|0x0080|101
林彥鋒|0x0080|101
林鴻遠|0x0080|101
黃仕豪|0x0080|101
倪福德|0x0080|101
李明進|0x0080|101
陳致遠|0x0080|101
曹錦輝|0x0080|101
蔡豐安|0x0080|101
許文雄|0x0080|101
林哲瑄|0x0080|101
陳家駒|0x0080|101
華納:|0x0080|101
許閔嵐|0x0080|101
王建民|0x0080|101
陳偉殷|0x0080|101
Ker|0x0080|101
Tim|0x0080|101
Kri|0x0080|101
Der|0x0080|101
Dav|0x0080|101
Joh|0x0080|101
And|0x0080|101
Cue|0x0080|101
Kob|0x0080|101
易建聯|0x0080|101
林書豪|0x0080|101
LeB|0x0080|101
Dan|0x0080|101
Dwi|0x0080|101
Cha|0x0080|101
Rus|0x0080|101
Joa|0x0080|101
Gia|0x0080|101
Bra|0x0080|101
Luo|0x0080|101
DeM|0x0080|101

In [19]:
import requests
from bs4 import BeautifulSoup as bs

a=[]
url="https://www.hbrtaiwan.com/event/2016twceo/ceoList.php"
res = requests.get(url)
soup = bs(res.text)
sort = soup.select("h2")
#print sort[0].txt,sort[1].txt
for i in sort[0:50]:
    print i.text.strip()+"|0x0080|101"


郭台銘|0x0080|101
張忠謀|0x0080|101
施崇棠|0x0080|101
洪水樹|0x0080|101
蔡明介|0x0080|101
林恩平|0x0080|101
洪鎮海|0x0080|101
王秋雄|0x0080|101
劉克振|0x0080|101
杜書伍|0x0080|101
蘇純興|0x0080|101
劉金標|0x0080|101
何泰舜|0x0080|101
蔡明忠|0x0080|101
徐旭東|0x0080|101
辜成允|0x0080|101
高啟全|0x0080|101
蔡篤恭|0x0080|101
蔡明興|0x0080|101
林文伯|0x0080|101
張虔生|0x0080|101
王雪紅|0x0080|101
黃偉祥|0x0080|101
許崑泰|0x0080|101
李志村|0x0080|101
卓永財|0x0080|101
周理平|0x0080|101
王文淵|0x0080|101
王景春|0x0080|101
嚴凱泰|0x0080|101
蔡宏圖|0x0080|101
束崇萬|0x0080|101
曹德風|0x0080|101
余俊彥|0x0080|101
吳一揆|0x0080|101
徐旭東|0x0080|101
海英俊|0x0080|101
黃欽明|0x0080|101
林孝信|0x0080|101
徐旭東|0x0080|101
周俊吉|0x0080|101
王銘陽|0x0080|101
蔡友才|0x0080|101
曾崧柱|0x0080|101
黃男州|0x0080|101
童子賢|0x0080|101
楊銀明|0x0080|101
吳東亮|0x0080|101
戴誠志|0x0080|101
林明儒|0x0080|101

In [ ]: