프로젝트 정리/실시간 검색어 프로젝트

    #8 Selenium으로 Nate 크롤링하기

    https://stackoverflow.com/questions/10720325/selenium-webdriver-wait-for-complex-page-with-javascript-to-load Selenium WebDriver: Wait for complex page with JavaScript to load I have a web application to test with Selenium. There is a lot of JavaScript running on page load. This JavaScript code is not so well written but I can't change anything. So waiting for an element... stackoverflow.com 현재 ..

    #7 Selenium with java

    왜 셀레니움을 사용하는가? 웹 크롤링 도중 JSOUP라이브러리로는 동적 데이터를 수집할 수 없어서 Selenium을 사용하여 접근하려고 한다. 그렇다면 셀레니움은 무엇인가 1. 셀레니움이란 무엇인가? https://www.selenium.dev/ Selenium Selenium automates browsers. That's it! www.selenium.dev 셀레니움 공식사이트에서 나오는 소개글은 Selenium is a suite of tools for automating web browsers. '웹 브라우저들을 자동화 시키는 도구 모음이다.' 라고 소개하고 있다. https://www.tutorialcup.com/ko/testing/selenium-tutorial/selenium.htm 셀레늄이..

    #6 Spring Security Guide (공식문서 보고 따라하기)

    https://spring.io/guides/gs/securing-web/ Securing a Web Application this guide is designed to get you productive as quickly as possible and using the latest Spring project releases and techniques as recommended by the Spring team spring.io 백기선님의 스프링과 JPA 기반 웹 어플리케이션 개발이란 강의를 샀는데 학습을 잘 안하고 있다. 이 프로젝트를 진행하며 강의에 나온 내용을 적용시켜가면서 개발하고자 하여 스프링 시큐리티를 사용하려고 한다. 그렇지만 강의를 봐도 스프링 시큐리티에 대해 잘 모르겠다. 역시 공식문서를 ..

    #5 프로젝트 구상 및 기획 ver.2

    내가 하고자 하는 프로젝트는 포털사이트의 뉴스 혹은 실시간 검색어로 보여주는 부분을 정보 수집 상위 인기 검색어를 추려서 일단 저장하고 각 포털 사이트에서 얻은 데이터로 중복되는 키워드 등으로 우선순위를 정하고 1위부터 10위까지 사용자에게 제공하는 것을 목표로 한다. 그러나 검색을 하다보니 robots.txt라는 크롤링에 대한 접근 권한에 대한 정보를 알게 되었고 이를 기반으로 최대한 법에 저촉 되지 않는 방향으로 프로젝트를 완성하고 싶다. (상업적으로 발전시켜보고 싶기에) 기본적으로 포털사이트는 크롤링에 엄격한 편인데 네이버, 네이트, 줌 은 메인 페이지의 크롤링을 허용하고 나머지는 불허 다음은 메인페이지를 포함 하위 모든 디렉토리에 대한 크롤링을 불허 구글은 구글 트렌드를 활용하려고 했는데 트렌드 ..

    #4 Crwaling and Robots.txt

    https://searchadvisor.naver.com/guide/seo-basic-robots robots.txt 설정하기 robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따 searchadvisor.naver.com 네이버 랭킹 뉴스 크롤링을 진행중에 한글이 깨지는 현상이 발생하여 검색하다가 Robots.txt라는 크롤링에 대한 접근 권한에 대한 문서를 찾았다. What is Robots.txt? https://developers.google.com/search/docs/advanced/robots/intro?hl=ko robots.txt 소개 및..

    #3 Practice Jsoup

    파이썬의 beatifulsoup4로 하려다가 자바유저니 안 써본 jsoup을 활용하여 크롤링 하려고 한다. 일단 공식 사이트에 들어가보자. https://jsoup.org/ jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety jsoup: Java HTML Parser jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS s..