'분류 전체보기' 카테고리의 글 목록 (2 Page)

기록

requests 2023.03.29
웹의 발전(CSS, JavaScript, 서버, 클라이언트, request, response) 2023.03.25
웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑, 2023.03.25
.sort_values(), .drop(), plot() 2023.03.25
iqr 2023.03.25
.isnull(), .sum(), .dropna(inplace=True) 2023.03.24

requests

하루조각 2023. 3. 29. 11:40

2023. 3. 29. 11:40

import requests

rating_pages = []

for year in range(2010, 2013):
    for month in range(1, 13):
        for weekIndex in range(0, 5):
            url = "https://workey.codeit.kr/ratings/index?year={}&month={}&weekIndex={}".format(year, month, weekIndex)
            response = requests.get(url)
            rating_pages.append(response.text)

# 테스트 코드
print(len(rating_pages)) # 가져온 총 페이지 수 
print(rating_pages[0]) # 첫 번째 페이지의 HTML 코드

'자동제어 > Python for robotics' 카테고리의 다른 글

웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑, (0)	2023.03.25
.sort_values(), .drop(), plot() (0)	2023.03.25
iqr (0)	2023.03.25
.isnull(), .sum(), .dropna(inplace=True) (0)	2023.03.24
merge (0)	2023.03.24

웹의 발전(CSS, JavaScript, 서버, 클라이언트, request, response)

하루조각 2023. 3. 25. 21:16

2023. 3. 25. 21:16

저작자표시 (새창열림)

웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑,

하루조각 2023. 3. 25. 18:48

2023. 3. 25. 18:48

이전 영상에서는 웹 크롤링에 대해 알아봤습니다. 웹 크롤링은 체계적으로 웹사이트들을 돌아다니는 것을 뜻하는데요. 웹(web)을 기어 다닌다(crawl)고 해서 웹 크롤링(web crawling)이라고 부릅니다.

웹 크롤링은 보통 구글, 네이버 같은 검색 엔진들이 많이 사용하는데요, 아래와 같이 서로 연결된 URL을 수집하고, 인덱싱(키워드를 통해 URL을 검색할 수 있게 해 주는 작업)하기 위해서 사용합니다.

그런데 많은 사람들은 웹사이트를 돌아다니면서 웹사이트의 데이터를 수집하는 작업, 예를 들어 온라인 쇼핑몰에서 상품 정보를 수집한다든가, 유튜브 영상의 댓글을 수집한다든가, 어떤 블로그의 내용을 수집한다든가, 이런 작업들도 웹 크롤링이라고 하는데, 사실 이건 웹 스크래핑(web scraping)에 더 가깝습니다.

웹(web)에서 데이터를 긁어온다(scrape)고 해서 웹 스크래핑(web scraping)이라고 하는 거죠.

이번 웹 자동화 토픽에서는 항상 두 용어를 구분해 가면서 사용할 테니까, 서로 헷갈리지 마세요!

웹 크롤링(web crawling): 수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것. 보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.

웹 스크래핑(web scraping): 웹사이트에서 필요한 데이터를 긁어오는 것.

저작자표시 (새창열림)

'자동제어 > Python for robotics' 카테고리의 다른 글

requests (0)	2023.03.29
.sort_values(), .drop(), plot() (0)	2023.03.25
iqr (0)	2023.03.25
.isnull(), .sum(), .dropna(inplace=True) (0)	2023.03.24
merge (0)	2023.03.24

.sort_values(), .drop(), plot()

하루조각 2023. 3. 25. 18:39

2023. 3. 25. 18:39

%matplotlib inline
import pandas as pd

df = pd.read_csv('data/movie_metadata.csv')

# 여기에 코드를 작성하세요
drop_index = df.sort_values(by = 'budget', ascending = False).head(15).index
df.drop(drop_index, inplace=True)
df.plot(kind='scatter', x='budget', y='imdb_score')

저작자표시 (새창열림)

'자동제어 > Python for robotics' 카테고리의 다른 글

requests (0)	2023.03.29
웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑, (0)	2023.03.25
iqr (0)	2023.03.25
.isnull(), .sum(), .dropna(inplace=True) (0)	2023.03.24
merge (0)	2023.03.24

iqr

하루조각 2023. 3. 25. 12:37

2023. 3. 25. 12:37

%matplotlib inline
import pandas as pd

df = pd.read_csv('data/movie_metadata.csv')

# 여기에 코드를 작성하세요
df.head()
q1 = df['budget'].quantile(0.25)
q3 = df['budget'].quantile(0.75)
iqr = q3-q1
condition = df['budget'] > q3 + 5 * iqr

df.drop(df[condition].index, inplace = True)
df.plot(kind = 'scatter', x = 'budget', y = 'imdb_score')

저작자표시 (새창열림)

'자동제어 > Python for robotics' 카테고리의 다른 글

웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑, (0)	2023.03.25
.sort_values(), .drop(), plot() (0)	2023.03.25
.isnull(), .sum(), .dropna(inplace=True) (0)	2023.03.24
merge (0)	2023.03.24
groupby(), .sort_values(by=), (0)	2023.03.24

.isnull(), .sum(), .dropna(inplace=True)

하루조각 2023. 3. 24. 15:23

2023. 3. 24. 15:23

import pandas as pd

df = pd.read_csv('data/steam_1.csv')

# 여기에 코드를 작성하세요
df.isnull().sum()
df.dropna(inplace=True)
# 테스트 코드
df

저작자표시 (새창열림)

'자동제어 > Python for robotics' 카테고리의 다른 글

.sort_values(), .drop(), plot() (0)	2023.03.25
iqr (0)	2023.03.25
merge (0)	2023.03.24
groupby(), .sort_values(by=), (0)	2023.03.24
.map(), .rename(column={}, inplace = True) (0)	2023.03.21

PREV 이전 1 2 3 4 5 ···20 NEXT 다음

하루기록

기록

requests

'자동제어 > Python for robotics' 카테고리의 다른 글

웹의 발전(CSS, JavaScript, 서버, 클라이언트, request, response)

웹의 확장(HyperText, URL, 웹크롤링, 웹스크래핑,

'자동제어 > Python for robotics' 카테고리의 다른 글

.sort_values(), .drop(), plot()

'자동제어 > Python for robotics' 카테고리의 다른 글

iqr

'자동제어 > Python for robotics' 카테고리의 다른 글

.isnull(), .sum(), .dropna(inplace=True)

'자동제어 > Python for robotics' 카테고리의 다른 글

+ Recent posts

티스토리툴바