웹 크롤링

웹 상에서 웹 페이지를 탐색하고, 필요한 정보를 수집하는 프로세스

•

파이썬 관련 라이브러리 : urllib, requests

관련 라이브러리를 사용해서, 웹 페이지 코드를 가져오고 그 코드를 구문 분석하여 필요한 정보를 추출합니다.

웹 스크래핑

웹 페이지에서 원하는 데이터를 추출하거나 가져오는 과정

•

파이썬 관련 라이브러리 : BeatifulSoup

urllib

URL 관련 파이썬 표준 라이브러리

•

모듈

모듈	설명
request	요청 관련 기능
response	응답 관련 기능
parse	URL 문자열을 파싱하는 기능
error	request 모듈에 의해 발생하는 예외 클래스 제공
robotparser	robots.txt 파일을 구문 분석하는 기능 제공

urllib 패키지

urllib.requests 모듈

URL 문자열을 가지고 HTTP 요청을 수행

•

요청 방식을 GET, POST 방식으로 지정한 URL 에 요청하기

import urllib.request
res = urllib.request.urlopen(" [URL] ")              # GET 요청
res = urllib.request.urlopen(" [URL] ", data=xxx)    # POST 요청
Python
복사

•

request 객체를 사용하여 요청하기

import urllib.request

url = "https://~~~.com"  # 요청을 보낼 URL

request = urllib.request.Request(url, method="메소드방식")  # GET, POST, PUT, DELETE 등
response = urllib.request.urlopen(request)  # 요청 보내기
result = response.read()                    # 응답 데이터 읽기

print(result)  # 응답 데이터 출력
Python
복사

예시 코드

•

네이버 메인 페이지를 요청하고, 1000 byte  만 출력하기

•

개인 홈페이지에 요청을 보내고, 응답 내용과 응답 헤더 확인하기

•

이미지 url 주소 요청하고, 이미지 파일을 저장하기

네이버 메인 페이지를 요청하고, 1000 byte 만 출력하기

import urllib.request
res = urllib.request.urlopen("http://www.naver.com/")
print(type(res))
print(res.status)
print("NAVER 웹페이지의 소스 내용----------------------------------------------------------------")
print(res.read(1000).decode('utf-8'))
Python
복사

•

res.status : 응답 상태코드

•

res.read() : 응답 페이지를 디코딩하지 않고 바이너리 텍스트로 가져온다

•

res.read().decode(’utf-8’)  : 응답 페이지를 UTF-8 문자셋으로 디코딩한다.

•

res.read(1000).decode(’utf-8’) : 응답 페이지를 1000 바이트만 가져온다

개인 홈페이지에 요청을 보내고, 응답 내용과 응답 헤더 확인하기

import urllib.request
res = urllib.request.urlopen("https://xn--pe5b27r.com/")
print("[ header 정보 ]----------")
res_header = res.getheaders()
for s in res_header :
    print(s)
print("[ body 내용 ]-----------")
print(res.read().decode('utf-8'))
Python
복사

이미지 url 주소 요청하고, 이미지 파일을 저장하기

import requests
from PIL import Image
from io import BytesIO

r = requests.get('이미지 url 주소')
i = Image.open(BytesIO(r.content))
print(type(i))
i.save("./파일명.jpg")
Python
복사

저장한 이미지 열어보기

from PIL import Image
img = Image.open(fileanme) 
img.show()
Python
복사

BeautifulSoup

HTML, XML (마크업 문서) “웹 페이지 코드”에서 데이터를 추출하기 위한 파이썬 라이브러리

웹페이지 코드로부터 필요한 정보를 추출

HTML, XML 파일의 내용을 읽어드려서 변환을 해야한다.

파싱 (Parsing)

: 특정 문법 또는 형식에 맞게 구문을 해석하고 분석하는 도구를 이용하여 변환하는 과정

HTML 파싱 과정

BeautifulSoup 모듈 import

BeautifulSoup 객체 생성

인자1 : HTML

인자2 : parser 객체

HTML 코드를 사용할 수 있는 객체가 생성되고, BeautifulSoup 통해 접근 가능

BeautifulSoup 모듈 import

from bs4 import BeautifulSoup
Python
복사

BeautifulSoup 객체 생성

인자1 : HTML

인자2 : parser 객체

bs = BeautifulSoup( html, 'html.parser' )
Python
복사

HTML 코드를 사용할 수 있는 객체가 생성되고, BeautifulSoup 통해 접근 가능

태그 접근

Python
복사

•

예시

◦

bs.div

◦

bs.h1

◦

bs.p

태그명 추출

bs.태그명.name
Python
복사

태그 속성 추출

bs.태그명['속성명']
bs.태그명.attrs
Python
복사

태그 컨텐츠 추출

bs.태그명.string
bs.태그명.text
bs.태그명.contents
bs.태그명.get_text()
Python
복사

부모 태그

bs.태그명.parent
Python
복사

자식 태그

bs.태그명.children
Python
복사

형제 태그

bs.태그명.next_sibling
bs.태그명.next_siblings
bs.태그명.previous_sibling
bs.태그명.previous_siblings
Python
복사

자손 태그

bs.태그명.descendants
Python
복사

웹 스크래핑 실습

•

BeautifulSoup 모듈 import 하고, 객체 생성하기

•

태그, 태그명, 속성값 접근하기

영화제목 가져오기

# 라이브러리 설치
# 터미널 >
# pip install requests
# pip install beautifulsoup4
# pip install lxml
 
import requests
from bs4 import BeautifulSoup

# 특정 사이트의 html 가져오기
url = "https://movie.naver.com/movie/bi/mi/basic.naver?code=74977"
html = requests.get(url)

# print(html)

# html 분석
soup = BeautifulSoup(html.text, 'lxml')

# 영화 제목
h3 = soup.find('h3', class_='h_movie')
a = h3.find('a')
text = a.get_text()
# print(h3)
# print(a)
print(text)
Python
복사

뉴스 기사 가져오기

# 웹 크롤링
# pip install requests
# pip install beautifulsoup4
# pip install lxml

# import : 모듈, 패키지를 포함하는 키워드
import requests
from bs4 import BeautifulSoup
           
# 'User-Agent' 헤더 추가 (사용자 정보)
# http://m.avalon.co.kr/check.html    <- 여기서 복사
headers = {
    'User-Agent' : ('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'),
}
           
url = "https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=105"
html = requests.get(url, headers=headers)

print(html)


# html 분석
soup = BeautifulSoup(html.text, 'lxml')

# # 선택자로 지정해서 태그 가져오기
newsList = soup.select('.sh_item')

# 뉴스 제목
# 기사내용
# 신문사
# --------------
# 제목 (신문사) 
# : 기사내용
# --------------
for news in newsList:
    title = news.select('.sh_text_headline')[0].get_text()
    company = news.select('.sh_text_press')[0].get_text()
    content = news.select('.sh_text_lede')[0].get_text()
    
    print('----------------------------')
    print('{} ({})'.format(title, company))
    print(' : {}'.format(content))
    print('----------------------------')
    
    # 위의 형식으로 출력해보세요...
    # print(news)
   
Python
복사