프로젝트 정리/실시간 검색어 프로젝트

#4 Crwaling and Robots.txt

https://searchadvisor.naver.com/guide/seo-basic-robots

 

robots.txt 설정하기

robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따

searchadvisor.naver.com

 

네이버 랭킹 뉴스 크롤링을 진행중에 한글이 깨지는 현상이 발생하여 검색하다가

Robots.txt라는 크롤링에 대한 접근 권한에 대한 문서를 찾았다.

 

What is Robots.txt?

https://developers.google.com/search/docs/advanced/robots/intro?hl=ko 

 

robots.txt 소개 및 가이드 | Google 검색 센터  |  Google Developers

robots.txt는 크롤러 트래픽을 관리하는 데 사용됩니다. robots.txt 소개 가이드에서 robots.txt 파일의 정의와 사용 방법을 알아보세요.

developers.google.com

https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80

 

로봇 배제 표준 - 위키백과, 우리 모두의 백과사전

로봇 배제 표준(robots exclusion standard), 로봇 배제 프로토콜(robots exclusion protocol)은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 일반적으로 접근 제한에 대한 설명을 robots.txt에 기

ko.wikipedia.org

 

 

 

https://news.naver.com/robots.txt

https://www.google.co.kr/robots.txt

https://www.daum.net/robots.txt

https://www.nate.com/robots.txt

https://zum.com/robots.txt

 

 

모든 문서 차단 (다음)

User-agent: *
Disallow: /

모든 문서에 대해 접근을 차단하고, 첫 페이지에 대해서만 허가

User-agent: *
Disallow: /
Allow : /$

네이버 메인화면, 네이트 메인화면, 줌 메인화면

Yeti라는 봇에게 /main/imagemontage라는 디렉토리만 허용 나머지 모든 문서 차단
User-agent: Yeti
Allow: /main/imagemontage
Disallow: /
User-agent: *
Disallow: /
(네이버 뉴스)

구글은 복잡하므로 링크를 활용

첫 화면에 대한 크롤링이 가능한 네이버, 네이트, 줌의 메인화면을 크롤링하고

구글 트렌드는 api나 rss를 활용하여 데이터를 얻어야겠다. (감옥가긴 싫으니...)

 

 

그리고 검색을 거듭하다가 예전에 보았던 관련 포스팅을 보아서 링크를 남겨두려고 한다. (문제시 말씀해주세요 ㅠㅠ)

https://velog.io/@mowinckel/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-I

 

🖨 '웹 크롤러' 좀 그만 만들어라

아무튼 그만 만들어라.

velog.io

https://velog.io/@c_hyun403/Python-WEB-CRAWLING

 

Python : WEB CRAWLING

web crawling : 자동적으로 화면에 있는 data를 가져오는 것 (실시간 연동, 자동으로 업데이트 됨)web scrapping : 자동화 X / scrapping 하는 시점에서의 데이터만 갖고오기!=> 두 가지 모두 웹 사이트를 분석

velog.io

https://kk-7790.tistory.com/44

 

파이썬에서 말하는 크롤링이란?

파이썬을 배우면서 모듈을 사용해 처음 만들어본 것이 크롤링 이다. 여기서 말하는 크롤링 이란?  - 수많은 정보를 활용하고 분석하기 쉽게 데이터를 수집하는 행위  - 웹페이지에서 원하는 데

kk-7790.tistory.com