웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑,

하루조각 2023. 3. 25. 18:48

2023. 3. 25. 18:48

이전 영상에서는 웹 크롤링에 대해 알아봤습니다. 웹 크롤링은 체계적으로 웹사이트들을 돌아다니는 것을 뜻하는데요. 웹(web)을 기어 다닌다(crawl)고 해서 웹 크롤링(web crawling)이라고 부릅니다.

웹 크롤링은 보통 구글, 네이버 같은 검색 엔진들이 많이 사용하는데요, 아래와 같이 서로 연결된 URL을 수집하고, 인덱싱(키워드를 통해 URL을 검색할 수 있게 해 주는 작업)하기 위해서 사용합니다.

그런데 많은 사람들은 웹사이트를 돌아다니면서 웹사이트의 데이터를 수집하는 작업, 예를 들어 온라인 쇼핑몰에서 상품 정보를 수집한다든가, 유튜브 영상의 댓글을 수집한다든가, 어떤 블로그의 내용을 수집한다든가, 이런 작업들도 웹 크롤링이라고 하는데, 사실 이건 웹 스크래핑(web scraping)에 더 가깝습니다.

웹(web)에서 데이터를 긁어온다(scrape)고 해서 웹 스크래핑(web scraping)이라고 하는 거죠.

이번 웹 자동화 토픽에서는 항상 두 용어를 구분해 가면서 사용할 테니까, 서로 헷갈리지 마세요!

웹 크롤링(web crawling): 수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것. 보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.

웹 스크래핑(web scraping): 웹사이트에서 필요한 데이터를 긁어오는 것.

저작자표시 (새창열림)

'자동제어 > Python for robotics' 카테고리의 다른 글

requests (0)	2023.03.29
.sort_values(), .drop(), plot() (0)	2023.03.25
iqr (0)	2023.03.25
.isnull(), .sum(), .dropna(inplace=True) (0)	2023.03.24
merge (0)	2023.03.24

하루기록

웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑,

'자동제어 > Python for robotics' 카테고리의 다른 글

+ Recent posts

티스토리툴바