import requests
rating_pages = []
for year in range(2010, 2013):
for month in range(1, 13):
for weekIndex in range(0, 5):
url = "https://workey.codeit.kr/ratings/index?year={}&month={}&weekIndex={}".format(year, month, weekIndex)
response = requests.get(url)
rating_pages.append(response.text)
# 테스트 코드
print(len(rating_pages)) # 가져온 총 페이지 수
print(rating_pages[0]) # 첫 번째 페이지의 HTML 코드
이전 영상에서는 웹 크롤링에 대해 알아봤습니다. 웹 크롤링은 체계적으로 웹사이트들을 돌아다니는 것을 뜻하는데요. 웹(web)을 기어 다닌다(crawl)고 해서 웹 크롤링(web crawling)이라고 부릅니다.
웹 크롤링은 보통 구글, 네이버 같은 검색 엔진들이 많이 사용하는데요, 아래와 같이 서로 연결된 URL을 수집하고, 인덱싱(키워드를 통해 URL을 검색할 수 있게 해 주는 작업)하기 위해서 사용합니다.
그런데 많은 사람들은 웹사이트를 돌아다니면서 웹사이트의 데이터를 수집하는 작업, 예를 들어 온라인 쇼핑몰에서 상품 정보를 수집한다든가, 유튜브 영상의 댓글을 수집한다든가, 어떤 블로그의 내용을 수집한다든가, 이런 작업들도 웹 크롤링이라고 하는데, 사실 이건 웹 스크래핑(web scraping)에 더 가깝습니다.
웹(web)에서 데이터를 긁어온다(scrape)고 해서 웹 스크래핑(web scraping)이라고 하는 거죠.
이번 웹 자동화 토픽에서는 항상 두 용어를 구분해 가면서 사용할 테니까, 서로 헷갈리지 마세요!
웹 크롤링(web crawling): 수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것. 보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.