임승현

Merge branch 'feature/CGV_Crawling' into 'master'

Feature/cgv crawling

First Merge from feature/CGV_Crawling to master

See merge request !16
# Default ignored files
/shelf/
/workspace.xml
# Editor-based HTTP Client requests
/httpRequests/
# Datasource local storage ignored files
/dataSources/
/dataSources.local.xml
<component name="libraryTable">
<library name="jsoup-1.15.1">
<CLASSES>
<root url="jar://$PROJECT_DIR$/jsoup-1.15.1.jar!/" />
</CLASSES>
<JAVADOC />
<SOURCES />
</library>
</component>
\ No newline at end of file
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="ProjectRootManager" version="2" languageLevel="JDK_15" default="true" project-jdk-name="15" project-jdk-type="JavaSDK">
<output url="file://$PROJECT_DIR$/out" />
</component>
</project>
\ No newline at end of file
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="ProjectModuleManager">
<modules>
<module fileurl="file://$PROJECT_DIR$/WebCrawling.iml" filepath="$PROJECT_DIR$/WebCrawling.iml" />
</modules>
</component>
</project>
\ No newline at end of file
<?xml version="1.0" encoding="UTF-8"?>
<project version="4">
<component name="VcsDirectoryMappings">
<mapping directory="$PROJECT_DIR$/.." vcs="Git" />
</component>
</project>
\ No newline at end of file
<?xml version="1.0" encoding="UTF-8"?>
<module type="JAVA_MODULE" version="4">
<component name="NewModuleRootManager" inherit-compiler-output="true">
<exclude-output />
<content url="file://$MODULE_DIR$">
<sourceFolder url="file://$MODULE_DIR$/src" isTestSource="false" />
</content>
<orderEntry type="inheritedJdk" />
<orderEntry type="sourceFolder" forTests="false" />
<orderEntry type="library" name="jsoup-1.15.1" level="project" />
</component>
</module>
\ No newline at end of file
This file is too large to display.
No preview for this file type
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.awt.*;
import java.io.*;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.*;
import java.util.List;
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
class CGVMovieInfo { //CGV 영화 정보를 담는 class
private String title; //영화 제목
private int rank; //CGV 내 예매율 순위
private float score; //예매율
private String GoldenEgg; //골든에그 지수
private String movieCode; //CGV 고유 영화코드 - 예매 사이트 연결 시 사용
public CGVMovieInfo(String title, int rank, float score, String GoldenEgg, String movieCode) {
this.title = title;
this.rank = rank;
this.score = score;
this.GoldenEgg = GoldenEgg;
this.movieCode = movieCode;
}
public String getTitle() {
return title;
}
public void setTitle(String title) {
this.title = title;
}
public int getRank() {
return rank;
}
public void setRank(int rank) {
this.rank = rank;
}
public float getScore() {
return score;
}
public void setScore(float score) {
this.score = score;
}
public String getGoldenEgg() {
return GoldenEgg;
}
public void setGoldenEgg(String goldenEgg) {
GoldenEgg = goldenEgg;
}
public String getMovieCode() {
return movieCode;
}
public void setMovieCode(String movieCode) {
this.movieCode = movieCode;
}
public String getLink() {
return String.format("https://www.cgv.co.kr/ticket/?MOVIE_CD=%s&MOVIE_CD_GROUP=%s", this.movieCode, this.movieCode);
}
public void printMovieInfo(){
System.out.println("-------------------------------------------------------");
System.out.println(this.rank + " : " + this.title);
System.out.println("예매율 : " + this.score + "%");
System.out.println("골든에그지수 : " + this.GoldenEgg);
System.out.println("영화코드 : " + this.movieCode);
System.out.println("-------------------------------------------------------");
}
}
public class CGVExample {
public static final String WEB_DRIVER_ID = "webdriver.chrome.driver"; //드라이버 ID
public static final String WEB_DRIVER_PATH = "WebCrawling/chromedriver"; //드라이버 경로
public static void main(String[] args) {
Scanner scanner = new Scanner(System.in);
String url_movies = "https://www.cgv.co.kr/movies/?lt=1&ft=1"; //끝의 쿼리 0은 개봉 전 영화도 포함하는 것. 예매율 순위 가져오기
String url_theaters = "https://www.cgv.co.kr/theaters"; //영화관 정보 가져오는 링크.
String url_ticketing = "https://www.cgv.co.kr/ticket/"; //상영중인 영화 정보 가져오는 링크.
ArrayList<LinkedHashMap<String, String>> theaters = new ArrayList<>(); //지역별 영화관 HashMap(Key: 영화관, value:영화관별 고유코드)으로 이루어진 Arraylist
ArrayList<CGVMovieInfo> Movies = new ArrayList<>(); //CGVMovieInfo 클래스의 인스턴스들을 원소로 가지는 Arraylist
// 여기부터 영화관 및 영화관별 고유코드 가져오는 부분.
try{ //드라이버 설정
System.setProperty(WEB_DRIVER_ID,WEB_DRIVER_PATH);
}catch (Exception e){
e.printStackTrace();
}
ChromeOptions options = new ChromeOptions(); //크롬 설정을 담은 객체 생성
options.addArguments("headless"); //브라우저가 눈에 보이지 않고 컴파일러 내부에서 작동됨.
WebDriver driver_theaters = new ChromeDriver(options); //위에서 설정한 옵션을 파라미터로 넘겨주고, 드라이버 객체 생성.
driver_theaters.get(url_theaters); //WebDriver 객체를 해당 URL로 이동시킨다.
//브라우저 이동시 생기는 로드시간을 기다린다.
//HTTP 응답속도 보다 자바의 컴파일 속도가 더 빠르기 때문에 임의적으로 1초를 대기한다.
try {Thread.sleep(1000);} catch (InterruptedException e) {e.printStackTrace();}
//영화관 및 영화관에 대응되는 영화관별 고유 코드 가져오기.
List<WebElement> area = driver_theaters.findElements(By.className("area"));
for (WebElement elem : area) {
LinkedHashMap<String, String> theaters_info = new LinkedHashMap<>();
List<WebElement> theaters_by_area = elem.findElements(By.tagName("a"));
for (WebElement theater : theaters_by_area) {
String theater_name = theater.getAttribute("title").replace("CGV", "");
String theater_code = theater.getAttribute("href").replaceAll("(.+(?<=theaterCode=))|(.+(?<=theatercode=))", "").substring(0,4);
theaters_info.put(theater_name, theater_code);
}
theaters.add(theaters_info);
}
try {
driver_theaters.close(); //드라이버 연결 해제
driver_theaters.quit(); //프로세스 종료
} catch (Exception e) {
throw new RuntimeException(e.getMessage());
}
//여기부터 예매율 순위 가져오는 부분
Document doc_movies;
try {
doc_movies = Jsoup.connect(url_movies).get();
//예매율 Top19까지의 영화의 정보를 가져옴.
Elements elements1 = doc_movies.select("div.sect-movie-chart");
Iterator<Element> rank = elements1.select("strong.rank").iterator();
Iterator<Element> title = elements1.select("strong.title").iterator();
Iterator<Element> score = elements1.select("strong.percent").iterator();
Iterator<Element> GoldenEgg = elements1.select("span.percent").iterator();
Iterator<Element> link = elements1.select("a.link-reservation").iterator();
//영화 제목, 순위, 예매율, 영화 코드, 골든에그 지수를 가져와 CGVMovieInfo 객체 생성자에 파라미터로 넘겨주고, 인스턴스를 받아옴.
while(title.hasNext()){
String newTitle = title.next().text();
int newRank = Integer.parseInt(rank.next().text().replace("No.",""));
float newScore = Float.parseFloat(score.next().text().replace("예매율", "").replace("%", ""));
String newCode = link.next().attr("href").replaceAll("[^0-9]", "").substring(0,8);
CGVMovieInfo newMovie = new CGVMovieInfo(newTitle, newRank, newScore, GoldenEgg.next().text(), newCode);
Movies.add(newMovie);
}
}catch(IOException e){
e.printStackTrace();
}
for (CGVMovieInfo elem : Movies) {
//elem.printMovieInfo();
System.out.println(elem.getRank() + " : " + elem.getTitle());
}
//영화 이름(Integer 선택지), 영화관 지역 코드, 영화관 이름, 관람 일자 입력 시, (시간 선택 가능한) 예매 사이트로 이동.
System.out.print("예매하고 싶은 영화의 순위를 입력하세요 : ");
int inputRank = scanner.nextInt();
System.out.print("지역 코드를 입력하세요 : ");
int regionCode = scanner.nextInt();
System.out.print("영화관명을 입력하세요 : ");
String theaterName = scanner.next();
String theaterCode = theaters.get(regionCode).get(theaterName);
System.out.print("관람 일자를 입력하세요 : ");
int date = scanner.nextInt();
String otherFormat = String.format("THEATER_CD=%s&PLAY_YMD=%s", theaterCode, date);
url_ticketing += ("?" + otherFormat);
//예매 가능한 영화 리스트를 얻기 위해 빠른 예매 사이트로 이동.
WebDriver driver_ticketing = new ChromeDriver();
driver_ticketing.get(url_ticketing);
try {Thread.sleep(1000);} catch (InterruptedException e) {e.printStackTrace();}
//Frame 전환
WebElement selecting_area = driver_ticketing.switchTo().frame("ticket_iframe").findElement(By.className("theater-area-list"));
List<WebElement> selected_areas_list = selecting_area.findElements(By.cssSelector("ul > li > a > span.name"));
//지역 코드에 맞게 list element click
selected_areas_list.get(regionCode).click();
try {Thread.sleep(1000);} catch (InterruptedException e) {e.printStackTrace();}
//선택한 지역에 대응되는 영화관 정보 가져오기
WebElement selecting_theaters = selecting_area.findElement(By.cssSelector("ul > li.selected > div > ul"));
List<WebElement> selected_theaters_list = selecting_theaters.findElements(By.tagName("li"));
//프로그램 내부에서 가지고 있는 영화관코드와 웹에서 받아온 영화관코드가 일치하는 경우, selected_theaters_list element 클릭
for(WebElement theater_element : selected_theaters_list) {
if(theater_element.getAttribute("theater_cd").equals(theaterCode)){
theater_element.click();
try {Thread.sleep(1000);} catch (InterruptedException e) {e.printStackTrace();}
break;
}
}
//선택한 영화관에서, 선택한 일자에 상영하는 영화 목록 들고오기
WebElement selecting_movies = driver_ticketing.findElement(By.className("movie-select"));
List<WebElement> selected_movies_list = selecting_movies.findElements(By.cssSelector("#movie_list > ul > li"));
LinkedHashMap<String, String> accessible_movies = new LinkedHashMap<>();
//선택불가를 제외한 영화 제목 출력
for(WebElement movie_element : selected_movies_list){
String movie_enabled = movie_element.getAttribute("class");
if(movie_enabled.endsWith("dimmed"))
break;
else{
String title = movie_element.findElement(By.cssSelector("span.text")).getText();
String code = movie_element.getAttribute("movie_cd_group");
accessible_movies.put(title, code);
System.out.println(title + " : " + code);
}
}
try{
driver_ticketing.close(); //드라이버 연결 해제
driver_ticketing.quit(); //프로세스 종료
} catch (Exception e) {
throw new RuntimeException(e.getMessage());
}
try{
Desktop.getDesktop().browse(new URI(Movies.get(inputRank - 1).getLink() + "&" + otherFormat));
}
catch(IndexOutOfBoundsException | URISyntaxException | IOException e){
System.out.println(e.getClass());
}
}
}