반응형

Data Engineering/Crawling 15

[Crawling] 네이버 OPEN-API를 이용한 네이버 뉴스 크롤링

이전 포스팅에서 신청했던 네이버 OPEN-API를 이용하여 네이버 뉴스를 크롤링해보겠습니다. 네이버 OPEN-API를 이용하여 네이버 뉴스를 크롤링 네이버 검색 API 호출 예제를 활용하였습니다.(https://developers.naver.com/docs/search/blog/) ID와 Password는 네이버 OPEN-API홈페이지에서 확인 가능합니다. id = pwd= url = 'https://openapi.naver.com/v1/search/news.json?query={}' 검색할 키워드를 입력받습니다. import requests import pandas as pd from pprint import pprint keyword = input('검색 키워드:') headers를 작성합니다. 네이..

[Crawling] 네이버 개발자 API 가입

이번 포스팅에서는 네이버 관련 서비스 크롤링을 위해 네이버 개발자 API에 가입하는 방법을 알아보겠습니다.메인화면https://developers.naver.com/main/Application > 애플리케이션 등록 (내 애플리케이션-등록된 것 확인)-Product > API 소개 : 네이버 개발자 API 가 제공하는 API 확인Open API 이용신청애플리케이션 등록 – 네이버 API를 사용할 App등록•어플리케이션이름: 아래 규칙에 맞게 적당히 넣는다•사용 API: 사용할 API 선택•검색 선택•사용환경•WEB 설정 선택•웹 서비스 url : 우리가 오픈 api를 사용할 site를 입력하는데 로컬환경에서 할 것이므로 http://localhost 를 입력Document – API 설명서•상단의 Doc..

[Crawling] Daum 뉴스기사 크롤링

Daum 뉴스기사 요청 url확인 요청 -> 응답 응답문자열에서 정보 추출(BS) 조회할 항목들의 selector title : h3.tit_view #h3의 tit_view 클래스 reporter : span.info_view span.txt_info: nth-child(1) #span.txt_info의 첫번째 자식 태그 date : span.info_view span.txt_info : nth-child(2) #span.txt_info의 두번째 자식 태그 content : div#harmonyContainer #div의 harmonyContainer ID CF) 클래스는 h3.xxx 처럼 '.'을 사용해서 묶고 ID는 div#xxx 처럼 '#'으로 엮는다 url = "ht..

[Crawling] Request/Urllib

urllib 패키지를 이용한 URL 다루기 urllib 패키지 URL 작업을 위한 여러 모듈을 모은 패키지 주요모듈 urllib.request: URL을 열고 요청을 위한 모듈 urllib.parse: URL 구문 분석을 위한 모듈 urllib.robotparser: robots.txt 파일을 구문 분석하기 위한 모듈 URL (Uniform Resource Locator) 이란 - 네트워크 상의 자원(html문서, 이미지 등등) 이 어디에 있는지 그 위치를 식별하기 위한 규약 - 인터넷상의 웹페이지등을 찾기 위한 주소를 말한다. URL의 구성요소 - 구문 - ` scheme:[//[user:password@]host[:port]][/]path[?query][#fragment]` 스키마(schema): 통..

[Crawling] BeautifulSoup

▣ BeautifuSoup - HTML이나 XML 문서 내에서 원하는 정보를 가져오기 위한 파이썬 라이브러리. - 설치 : pip install beautifulsoup4 ▣ 코딩 패턴 1. BeautifulSoup 클래스 import 2. BeautifulSoup 객체 생성 - 생성시 조회할 HTML 문서 전달 3. 문서내에서 필요한 정보 조회 - 태그이름과 태그 속성으로 조회 - css selector를 이용해 조회 - . 표기법을 이용한 탐색(Tree 구조 순서대로 탐색) ▣ 객체 생성 - BeautifulSoup(html str [, 파서]) - 매개변수 1. 정보를 조회할 html을 string으로 전달 2. 파서 - lxml : 매우 빠르다. html, xml 파싱 가능(xml 파싱은 lxml..

반응형