본문 바로가기

Python/Python으로 웹 스크래퍼 만들기6

[SCRAPPER Clone] 2. Extracting Indeed Pages from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, 'html.parser') soup은 추출하는 역할을 할거다. soup.find_all('a') 2020. 9. 2.
[SCRAPPER Clone] 1. requests 설치 web scraping은 웹 상의 데이터를 추출하는 것을 말한다. url의 제목과 상단 첫 이미지를 가져와서 페이스북 preview를 보여준다. 이런걸 scraping이라고 하는데 이것말고도 더 다양하게 쓰일 수 있다. 예를들어 웹사이트에서 휴대폰을 구매하려고 한다고 가정하자. 마켓컬리, ssg, 아마존 이 세 가지 사이트에서 구매를 하려고 고려중이다. 이때 파이썬 스크립트를 만들어서 매 10초마다 매일 그 세 가지 웹사이트에서 휴대폰을 찾아서 웹사이트에 올라온 가격과 할인 등을 파이썬 web scraping으로 알아볼 수 있다. 원하는 정보를 추출할 수 있다. 저명한 여러 언론사에서 정보를 아침마다 scraping 할 수도 있다. < What are We .. 2020. 8. 31.
[Python] 3. Conditionals / Modules 만약 b의 타입이 Number라면 a + b 를 return 할것이고, 그게 아니면 None을 return 해주도록 작성해보겠다. for문에 대해서 알아보자. for문은 loop를 돌면서 튜플, 리스트, 스트링의 각각을 가리킨다. (string도 이론적으로는 배열이다.) for loop를 break 해준거다. for문은 자주 사용하게 될거다. 예를 들어, 데이터가 있는데 이걸 순서대로 처리해줘야 할 때 쓰일 수 있다. stack overflow 그리고 indeed 웹사이트에서 채용정보를 가져와서 엑셀 시트에 카테고리별, 직업별로 값을 넣어줘서 값을 찾기 쉽게 해줄수가 있다. 파이썬에는 module이라는 게 내장되어 있다. 프로그램에 import해서 사용할 수 있다. import만 해주면 모듈이 제공하는 .. 2020. 8. 31.
[Python] 2. Function / Returns / Keyworded Arguments Python에는 이미 작성된 function들이 있고 언제든 사용가능하다. 자바스크립트처럼 중괄호로 함수의 시작과 끝을 판단하지 않는다. 띄어쓰기에 주의해서 함수를 작성해야 된다. who에는 유효한 타입이기만 하다면 내가 원하는 뭐든 넣을 수 있다. 연산자 % : 나머지 // : 몫 이런 경우 인자가 부족해서 에러가 발생할것이다. 원한다면 아래와 같이 default 값을 추가할 수 있다. p_result는 그냥 결과를 콘솔에 print 했을 뿐이다. program 입장에서 봤을때 이건 아무것도 아니다. return은 값을 반환하기도 하고 function을 종료하기도 한다. 하나의 function안에서 두 개의 값을 두 번에 나눠서 return하거나 할 수 없다. 오직 한 번에 한개만 return할 수 있.. 2020. 8. 30.