import requests

rating_pages = []

for year in range(2010, 2013):
    for month in range(1, 13):
        for weekIndex in range(0, 5):
            url = "https://workey.codeit.kr/ratings/index?year={}&month={}&weekIndex={}".format(year, month, weekIndex)
            response = requests.get(url)
            rating_pages.append(response.text)

# 테스트 코드
print(len(rating_pages)) # 가져온 총 페이지 수 
print(rating_pages[0]) # 첫 번째 페이지의 HTML 코드

'자동제어 > Python for robotics' 카테고리의 다른 글

웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑,  (0) 2023.03.25
.sort_values(), .drop(), plot()  (0) 2023.03.25
iqr  (0) 2023.03.25
.isnull(), .sum(), .dropna(inplace=True)  (0) 2023.03.24
merge  (0) 2023.03.24

이전 영상에서는 웹 크롤링에 대해 알아봤습니다. 웹 크롤링은 체계적으로 웹사이트들을 돌아다니는 것을 뜻하는데요. 웹(web)을 기어 다닌다(crawl)고 해서 웹 크롤링(web crawling)이라고 부릅니다.

웹 크롤링은 보통 구글, 네이버 같은 검색 엔진들이 많이 사용하는데요, 아래와 같이 서로 연결된 URL을 수집하고, 인덱싱(키워드를 통해 URL을 검색할 수 있게 해 주는 작업)하기 위해서 사용합니다.

 

그런데 많은 사람들은 웹사이트를 돌아다니면서 웹사이트의 데이터를 수집하는 작업, 예를 들어 온라인 쇼핑몰에서 상품 정보를 수집한다든가, 유튜브 영상의 댓글을 수집한다든가, 어떤 블로그의 내용을 수집한다든가, 이런 작업들도 웹 크롤링이라고 하는데, 사실 이건 웹 스크래핑(web scraping)에 더 가깝습니다.

웹(web)에서 데이터를 긁어온다(scrape)고 해서 웹 스크래핑(web scraping)이라고 하는 거죠.

이번 웹 자동화 토픽에서는 항상 두 용어를 구분해 가면서 사용할 테니까, 서로 헷갈리지 마세요!

웹 크롤링(web crawling): 수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것. 보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.

웹 스크래핑(web scraping): 웹사이트에서 필요한 데이터를 긁어오는 것.

'자동제어 > Python for robotics' 카테고리의 다른 글

requests  (0) 2023.03.29
.sort_values(), .drop(), plot()  (0) 2023.03.25
iqr  (0) 2023.03.25
.isnull(), .sum(), .dropna(inplace=True)  (0) 2023.03.24
merge  (0) 2023.03.24
%matplotlib inline
import pandas as pd

df = pd.read_csv('data/movie_metadata.csv')

# 여기에 코드를 작성하세요
drop_index = df.sort_values(by = 'budget', ascending = False).head(15).index
df.drop(drop_index, inplace=True)
df.plot(kind='scatter', x='budget', y='imdb_score')

 

'자동제어 > Python for robotics' 카테고리의 다른 글

requests  (0) 2023.03.29
웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑,  (0) 2023.03.25
iqr  (0) 2023.03.25
.isnull(), .sum(), .dropna(inplace=True)  (0) 2023.03.24
merge  (0) 2023.03.24

%matplotlib inline
import pandas as pd

df = pd.read_csv('data/movie_metadata.csv')

# 여기에 코드를 작성하세요
df.head()
q1 = df['budget'].quantile(0.25)
q3 = df['budget'].quantile(0.75)
iqr = q3-q1
condition = df['budget'] > q3 + 5 * iqr

df.drop(df[condition].index, inplace = True)
df.plot(kind = 'scatter', x = 'budget', y = 'imdb_score')
import pandas as pd

df = pd.read_csv('data/steam_1.csv')

# 여기에 코드를 작성하세요
df.isnull().sum()
df.dropna(inplace=True)
# 테스트 코드
df

 

'자동제어 > Python for robotics' 카테고리의 다른 글

.sort_values(), .drop(), plot()  (0) 2023.03.25
iqr  (0) 2023.03.25
merge  (0) 2023.03.24
groupby(), .sort_values(by=),  (0) 2023.03.24
.map(), .rename(column={}, inplace = True)  (0) 2023.03.21

+ Recent posts