내가 하고자 하는 프로젝트는 포털사이트의 뉴스 혹은 실시간 검색어로 보여주는 부분을 정보 수집
상위 인기 검색어를 추려서 일단 저장하고
각 포털 사이트에서 얻은 데이터로 중복되는 키워드 등으로 우선순위를 정하고
1위부터 10위까지 사용자에게 제공하는 것을 목표로 한다.
그러나 검색을 하다보니 robots.txt라는 크롤링에 대한 접근 권한에 대한 정보를 알게 되었고
이를 기반으로 최대한 법에 저촉 되지 않는 방향으로 프로젝트를 완성하고 싶다.
(상업적으로 발전시켜보고 싶기에)
기본적으로 포털사이트는 크롤링에 엄격한 편인데
네이버, 네이트, 줌 은 메인 페이지의 크롤링을 허용하고 나머지는 불허
다음은 메인페이지를 포함 하위 모든 디렉토리에 대한 크롤링을 불허
구글은 구글 트렌드를 활용하려고 했는데 트렌드 자체는 크롤링이 불가능 하지만
rss나 구독등이 있어서 그것을 활용하면 괜찮을 것 같다.
1차적인 정보 수집은
구글 트렌드의 rss로 일별 인기 급상승 검색어를 가져오고,
네이트는 biz. 인기검색어를 줌은 이슈 검색어를 가져오려고 한다.
+ 네이트와 줌의 검색창 하단에 있는 (검색키워드) (guide_query)도 가져온다.
2차적으로 각 포털 사이트에서 가져온 순위별 검색어로 정리하고
해당 순위를 우선적으로 두되 중복적인 키워드의 순위를 높이는 방식으로 정리
그리고 네이버 검색 api의 news에서 정리된 키워드 들을 검색하여 높은 count로 다시 순위 부여
다음은 검색 api는 news탭은 존재하지 않지만 웹 문서를 검색하는 것이니 여기서도 total_count로 순위 부여
이 과정을 통해 1위부터 10위까지의 실시간 검색어를 추려서
rank, title, original_link, content, date 정도의 row를 만들어 보는게 어떨까 싶은게 지금까지 사고의 흐름이다.
구체적인 작업은 하면서 생각해 보고 당장은 데이터를 가져오는 작업과 이를 보여줄 사이트를 bootstrap으로 만들자.
'프로젝트 정리 > 실시간 검색어 프로젝트' 카테고리의 다른 글
#7 Selenium with java (0) | 2021.09.01 |
---|---|
#6 Spring Security Guide (공식문서 보고 따라하기) (0) | 2021.09.01 |
#4 Crwaling and Robots.txt (0) | 2021.08.26 |
#3 Practice Jsoup (0) | 2021.08.25 |
#2 프로젝트 생성 (0) | 2021.08.25 |