Untuk mendapatkan artikel berita, yang paling mudah adalah mengambil kumpulan atau list yang sudah ada pada Google News. Untuk kasus ini, kita akan mengambil isi dari beberapa media online di Indonesia pada umumnya untuk memdapatkan Corpus Indonesian News
Berikut ini link untuk Google News Indonesia https://news.google.com/?authuser=0&ned=en_id
install bs4 menggunakan pip
$ pip install bs4
Collecting bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1
In [1]:
from bs4 import BeautifulSoup
import requests
import time
import datetime
google_news = '''https://news.google.com/?authuser=0&ned=en_id'''
def scrape_news_summaries():
news_summaries = []
time.sleep(2) # setting sleep 2 detik
r = requests.get(str(google_news))
content = r.text
soup = BeautifulSoup(content, "html.parser")
st_divs = soup.find_all("a", {"class": "article",'href':True})
for st_div in st_divs:
news_summaries.append(st_div['href'])
return news_summaries
In [2]:
%time links = scrape_news_summaries()
In [3]:
from pprint import pprint
In [4]:
pprint(links[:10])
Masih terdapat beberapa link yang redudant, maka kita harus menghilangkan menjadi unique
In [5]:
links_unique = list(set(links))
In [6]:
pprint(links_unique[:10])
In [7]:
f = open('list_links_google_news_indonesia.txt','w')
In [8]:
f.write(str(links_unique))
f.close()
Sekarang kita sudah mendapatkan unique links dari Google News Indonesia.
Semoga bermanfaat