https://searchadvisor.naver.com/guide/seo-basic-robots
네이버 랭킹 뉴스 크롤링을 진행중에 한글이 깨지는 현상이 발생하여 검색하다가
Robots.txt라는 크롤링에 대한 접근 권한에 대한 문서를 찾았다.
What is Robots.txt?
https://developers.google.com/search/docs/advanced/robots/intro?hl=ko
https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87_%EB%B0%B0%EC%A0%9C_%ED%91%9C%EC%A4%80
https://news.naver.com/robots.txt
https://www.google.co.kr/robots.txt
https://www.daum.net/robots.txt
https://www.nate.com/robots.txt
모든 문서 차단 (다음)
User-agent: *
Disallow: /
모든 문서에 대해 접근을 차단하고, 첫 페이지에 대해서만 허가
User-agent: *
Disallow: /
Allow : /$
네이버 메인화면, 네이트 메인화면, 줌 메인화면
Yeti라는 봇에게 /main/imagemontage라는 디렉토리만 허용 나머지 모든 문서 차단
User-agent: Yeti
Allow: /main/imagemontage
Disallow: /
User-agent: *
Disallow: /
(네이버 뉴스)
구글은 복잡하므로 링크를 활용
첫 화면에 대한 크롤링이 가능한 네이버, 네이트, 줌의 메인화면을 크롤링하고
구글 트렌드는 api나 rss를 활용하여 데이터를 얻어야겠다. (감옥가긴 싫으니...)
그리고 검색을 거듭하다가 예전에 보았던 관련 포스팅을 보아서 링크를 남겨두려고 한다. (문제시 말씀해주세요 ㅠㅠ)
https://velog.io/@mowinckel/%EC%9B%B9-%ED%81%AC%EB%A1%A4%EB%A7%81-I
https://velog.io/@c_hyun403/Python-WEB-CRAWLING
https://kk-7790.tistory.com/44
'프로젝트 정리 > 실시간 검색어 프로젝트' 카테고리의 다른 글
#6 Spring Security Guide (공식문서 보고 따라하기) (0) | 2021.09.01 |
---|---|
#5 프로젝트 구상 및 기획 ver.2 (0) | 2021.08.26 |
#3 Practice Jsoup (0) | 2021.08.25 |
#2 프로젝트 생성 (0) | 2021.08.25 |
#1 국내 핫이슈 프로젝트 구상 및 기획 (0) | 2021.05.19 |