ghdms

csv 파일 정리 및 중간보고서 수정

This diff is collapsed. Click to expand it.
1 -명량,"17,615,658"
2 -극한직업,"16,265,855"
3 -신과함께-죄와 벌,"14,411,775"
4 -국제시장,"14,263,940"
5 -베테랑,"13,414,484"
6 -도둑들,"12,984,692"
7 -7번방의 선물,"12,811,714"
8 -암살,"12,706,829"
9 -"광해, 왕이 된 남자","12,324,062"
10 -신과함께-인과 연,"12,276,350"
11 -택시운전사,"12,189,654"
12 -부산행,"11,567,662"
13 -변호인,"11,375,123"
14 -해운대,"11,324,958"
15 -괴물,"10,917,400"
16 -왕의 남자,"10,513,976"
17 -기생충,"10,289,601"
18 -검사외전,"9,707,581"
19 -엑시트,"9,426,131"
20 -설국열차,"9,352,604"
21 -관상,"9,135,806"
22 -해적: 바다로 간 산적,"8,666,208"
23 -수상한 그녀,"8,660,623"
24 -백두산,"8,251,749"
25 -과속스캔들,"8,223,342"
26 -국가대표,"8,035,181"
27 -디워,"7,855,474"
28 -공조,"7,817,654"
29 -히말라야,"7,759,761"
30 -밀정,"7,500,457"
31 -최종병기 활,"7,470,633"
32 -써니,"7,363,139"
33 -1987,"7,232,387"
34 -베를린,"7,166,688"
35 -마스터,"7,150,586"
36 -터널,"7,120,780"
37 -내부자들,"7,073,516"
38 -인천상륙작전,"7,051,237"
39 -럭키,"6,975,631"
40 -은밀하게 위대하게,"6,959,083"
41 -범죄도시,"6,880,546"
42 -곡성,"6,879,989"
43 -화려한 휴가,"6,855,433"
44 -"좋은 놈, 나쁜 놈, 이상한 놈","6,686,075"
45 -늑대소년,"6,655,068"
46 -군함도,"6,592,151"
47 -웰컴 투 동막골,"6,436,900"
48 -사도,"6,247,651"
49 -아저씨,"6,178,665"
50 -미녀는 괴로워,"6,081,480"
51 -전우치,"6,065,474"
52 -연평해전,"6,045,049"
53 -타짜,"5,685,715"
54 -청년경찰,"5,653,444"
55 -숨바꼭질,"5,604,106"
56 -덕혜옹주,"5,599,995"
57 -더 테러 라이브,"5,584,295"
58 -감시자들,"5,509,019"
59 -검은 사제들,"5,443,232"
60 -안시성,"5,441,020"
61 -의형제,"5,416,923"
62 -더 킹,"5,318,007"
63 -완득이,"5,311,353"
64 -완벽한 타인,"5,294,154"
65 -타워,"5,181,244"
66 -투사부일체,"5,074,314"
67 -독전,"5,063,844"
68 -추격자,"5,046,096"
69 -공작,"4,975,517"
70 -바람과 함께 사라지다,"4,909,950"
71 -"님아, 그 강을 건너지 마오","4,802,416"
72 -봉오동 전투,"4,787,538"
73 -조선명탐정 : 각시투구꽃의 비밀,"4,786,259"
74 -군도: 민란의 시대,"4,775,811"
75 -남산의 부장들,"4,750,100"
76 -범죄와의 전쟁: 나쁜놈들 전성시대,"4,720,060"
77 -신세계,"4,684,571"
78 -도가니,"4,662,926"
79 -내 아내의 모든 것,"4,598,985"
80 -판도라,"4,585,116"
81 -나쁜 녀석들: 더 무비,"4,573,902"
82 -가문의 위기(가문의 영광2),"4,529,876"
83 -연가시,"4,516,063"
84 -강철비,"4,452,850"
85 -강철중: 공공의 적 1-1,"4,313,102"
86 -아가씨,"4,288,908"
87 -말아톤,"4,196,859"
88 -용의자,"4,131,338"
89 -건축학개론,"4,113,696"
90 -댄싱퀸,"4,058,225"
91 -7급 공무원,"4,039,891"
92 -우리 생애 최고의 순간,"4,018,872"
93 -꾼,"4,018,341"
94 -타짜-신의 손,"4,015,361"
95 -박수건달,"3,897,969"
96 -조선명탐정 : 사라진 놉의 딸,"3,872,015"
97 -역린,"3,849,700"
98 -남한산성,"3,849,129"
99 -암수살인,"3,789,553"
100 -국가부도의 날,"3,755,233"
101 -쌍화점,"3,749,034"
102 -신기전,"3,728,439"
103 -82년생 김지영,"3,679,019"
104 -귀향,"3,587,252"
105 -신의 한 수,"3,566,852"
106 -태풍,"3,471,150"
107 -부러진 화살,"3,460,212"
108 -끝까지 간다,"3,450,305"
109 -스파이,"3,436,092"
110 -그것만이 내 세상,"3,420,199"
111 -돈,"3,389,125"
112 -악인전,"3,364,712"
113 -이끼,"3,350,311"
114 -한반도,"3,331,593"
115 -포화속으로,"3,330,326"
116 -시동,"3,317,847"
117 -아이 캔 스피크,"3,283,470"
118 -마녀,"3,189,091"
119 -탐정: 리턴즈,"3,152,895"
120 -공공의 적 2,"3,134,424"
121 -퀵,"3,125,069"
122 -친절한 금자씨,"3,122,056"
123 -감기,"3,117,859"
124 -스물,"3,044,859"
125 -거북이 달린다,"3,024,666"
126 -헬로우 고스트,"3,019,960"
127 -하모니,"3,018,154"
128 -오싹한 연애,"3,009,406"
129 -방자전,"2,985,556"
130 -형,"2,982,514"
131 -마더,"2,981,953"
132 -그놈 목소리,"2,972,299"
133 -친구 2,"2,971,475"
134 -식객,"2,965,359"
135 -26년,"2,963,652"
136 -고지전,"2,945,151"
137 -워낭소리,"2,934,883"
138 -프리즌,"2,931,897"
139 -가장 보통의 연애,"2,924,563"
140 -말모이,"2,866,453"
141 -극비수사,"2,860,786"
142 -표적,"2,841,884"
143 -너의 결혼식,"2,820,969"
144 -내가 살인범이다,"2,729,827"
145 -부당거래,"2,723,773"
146 -소원,"2,711,094"
147 -너는 내 운명,"2,701,974"
148 -시라노; 연애조작단,"2,684,798"
149 -곤지암,"2,675,883"
150 -살인자의 기억법,"2,658,589"
151 -마파도,"2,636,857"
152 -후궁 : 제왕의 첩,"2,636,385"
153 -탐정 : 더 비기닝,"2,625,686"
154 -지금 만나러 갑니다,"2,602,273"
155 -가문의 부활 - 가문의 영광3,"2,598,859"
156 -위험한 상견례,"2,595,625"
157 -아수라,"2,594,695"
158 -보안관,"2,588,628"
159 -기술자들,"2,564,340"
160 -굿모닝 프레지던트,"2,554,960"
161 -태극기 휘날리며,"2,545,566"
162 -라스트 갓파더,"2,541,603"
163 -1번가의 기적,"2,535,450"
164 -증인,"2,534,793"
165 -목격자,"2,524,720"
166 -조작된 도시,"2,515,590"
167 -블랙머니,"2,480,145"
168 -반창꼬,"2,475,797"
169 -우리들의 행복한 시간,"2,472,160"
170 -조선명탐정: 흡혈괴마의 비밀,"2,444,136"
171 -화차,"2,436,884"
172 -이웃사람,"2,434,435"
173 -재심,"2,421,197"
174 -히트맨,"2,405,882"
175 -사바하,"2,398,581"
176 -화이: 괴물을 삼킨 아이,"2,394,487"
177 -의뢰인,"2,393,103"
178 -가문의 영광4 - 가문의 수난,"2,368,267"
179 -블라인드,"2,367,942"
180 -박열,"2,359,707"
181 -미인도,"2,342,579"
182 -음란서생,"2,304,368"
183 -내 생애 가장 아름다운 일주일,"2,290,709"
184 -하녀,"2,267,579"
185 -황해,"2,260,512"
186 -7광구,"2,242,510"
187 -타짜: 원 아이드 잭,"2,229,281"
188 -박쥐,"2,208,165"
189 -마당을 나온 암탉,"2,204,374"
190 -악의 연대기,"2,192,525"
191 -강남 1970,"2,192,276"
192 -신의 한 수: 귀수편,"2,159,081"
193 -마이 웨이,"2,142,670"
194 -나의 사랑 나의 신부,"2,141,155"
195 -바르게 살자,"2,135,606"
196 -내 사랑 내 곁에,"2,135,509"
197 -초능력자,"2,130,645"
198 -굿바이 싱글,"2,108,561"
199 -몽타주,"2,095,592"
200 -명당,"2,087,474"
This diff is collapsed. Click to expand it.
...@@ -5,9 +5,14 @@ conn = pymongo.MongoClient("localhost") ...@@ -5,9 +5,14 @@ conn = pymongo.MongoClient("localhost")
5 db = conn.test 5 db = conn.test
6 MOVIE = db.movie 6 MOVIE = db.movie
7 cur = MOVIE.find() 7 cur = MOVIE.find()
8 -audience = {} 8 +audiences = {}
9 +salesPerScreens = []
9 for c in cur: 10 for c in cur:
10 - audience[c["name"]] = c["audience"] 11 + audiences[c["name"]] = c["audiences"]
12 + salesPerScreens.append({"name": c["name"], "value": c["sales"] / c["screens"]})
13 +
14 +salesPerScreensTmp = salesPerScreens[:]
15 +salesPerScreensSorted = sorted(salesPerScreensTmp, key=lambda n: salesPerScreens[salesPerScreens.index(n)]["value"], reverse=True)[:100]
11 16
12 data = { 17 data = {
13 "명량": "최민식,류승룡,조진웅,김명곤,진구,이정현,권율,노민우,이승준,박보검,김원해,이해영,장준녕,김길동,김강일,강태영,박노식,최덕문,조복래,문영동,이주실,주석태,고경표,김태훈,한이진,최창균,신창수,김현태,정재우,김구택,이재구,조하석", 18 "명량": "최민식,류승룡,조진웅,김명곤,진구,이정현,권율,노민우,이승준,박보검,김원해,이해영,장준녕,김길동,김강일,강태영,박노식,최덕문,조복래,문영동,이주실,주석태,고경표,김태훈,한이진,최창균,신창수,김현태,정재우,김구택,이재구,조하석",
...@@ -36,6 +41,7 @@ data = { ...@@ -36,6 +41,7 @@ data = {
36 "백두산": "이병헌,하정우,마동석,전혜진,배수지,이상원,옥자연,한수현,강신철,이경영,조한철,최광일,김시아,임형국,박주환,남성준,서현우,김민식,박지홍,김준원,남문철,박성근", 41 "백두산": "이병헌,하정우,마동석,전혜진,배수지,이상원,옥자연,한수현,강신철,이경영,조한철,최광일,김시아,임형국,박주환,남성준,서현우,김민식,박지홍,김준원,남문철,박성근",
37 "과속스캔들": "차태현,박보영,왕석현,임지규,황우슬혜,임승대,정원중,김기방,박영서", 42 "과속스캔들": "차태현,박보영,왕석현,임지규,황우슬혜,임승대,정원중,김기방,박영서",
38 "국가대표": "하정우,성동일,김지석,김동욱,최재환,이재응,이은성,이한위,이혜숙,김지영,현쥬니,황하나", 43 "국가대표": "하정우,성동일,김지석,김동욱,최재환,이재응,이은성,이한위,이혜숙,김지영,현쥬니,황하나",
44 + #"디워": "", #외국 배우
39 "공조": "현빈,유해진,김주혁,장영남,이해영,윤아,이동휘,공정환,엄효섭,신현빈,박민하,전국환,이이경,박진우,박형수", 45 "공조": "현빈,유해진,김주혁,장영남,이해영,윤아,이동휘,공정환,엄효섭,신현빈,박민하,전국환,이이경,박진우,박형수",
40 "히말라야": "황정민,정우,조성하,김인권,라미란,김원해,이해영,전배수,정규수,성병숙", 46 "히말라야": "황정민,정우,조성하,김인권,라미란,김원해,이해영,전배수,정규수,성병숙",
41 "밀정": "송강호,공유,한지민,엄태구,신성록,허성태,서영주,정유안,이수광,고준,최유화,김동영,곽자형,조영규,이설구,권수현,이환,유상재,한수연,남문철,김수웅,최장원,허형규,백인권,정도원,신성일,김의건", 47 "밀정": "송강호,공유,한지민,엄태구,신성록,허성태,서영주,정유안,이수광,고준,최유화,김동영,곽자형,조영규,이설구,권수현,이환,유상재,한수연,남문철,김수웅,최장원,허형규,백인권,정도원,신성일,김의건",
...@@ -79,7 +85,7 @@ data = { ...@@ -79,7 +85,7 @@ data = {
79 "추격자": "김윤석,하정우,서영희,박효주,김유정,최정우,정인기,구본웅,민경진", 85 "추격자": "김윤석,하정우,서영희,박효주,김유정,최정우,정인기,구본웅,민경진",
80 "공작": "황정민,이성민,조진웅,주지훈,김홍파,정소리,기주봉,김응수,채용,박진영,남문철,최병모,김인우,정기섭,이승준,양현민,허승,엄지만,백승익,권범택,최정인,김소진,박혜영,김지나,곽자형,조주희", 86 "공작": "황정민,이성민,조진웅,주지훈,김홍파,정소리,기주봉,김응수,채용,박진영,남문철,최병모,김인우,정기섭,이승준,양현민,허승,엄지만,백승익,권범택,최정인,김소진,박혜영,김지나,곽자형,조주희",
81 "바람과 함께 사라지다": "차태현,오지호,민효린,성동일,신정근,고창석,송종호,이채영,김길동,김향기,천보근,김구택,독고준", 87 "바람과 함께 사라지다": "차태현,오지호,민효린,성동일,신정근,고창석,송종호,이채영,김길동,김향기,천보근,김구택,독고준",
82 -# "님아, 그 강을 건너지 마오": "", #영화배우가 아님 88 + #"님아, 그 강을 건너지 마오": "", #영화배우가 아님
83 "봉오동 전투": "유해진,류준열,조우진,박지환,최유화,성유빈,이재인,홍상표,원풍연,양현민", 89 "봉오동 전투": "유해진,류준열,조우진,박지환,최유화,성유빈,이재인,홍상표,원풍연,양현민",
84 "조선명탐정 : 각시투구꽃의 비밀": "김명민,한지민,오달수,최무성,우현,이재용,예수정,정인기", 90 "조선명탐정 : 각시투구꽃의 비밀": "김명민,한지민,오달수,최무성,우현,이재용,예수정,정인기",
85 "군도: 민란의 시대": "하정우,강동원,조진웅,마동석,정만식,김성균,주진모,이경영,이성민,윤지혜,김재영,송영창,김병옥,임현성,강현중", 91 "군도: 민란의 시대": "하정우,강동원,조진웅,마동석,정만식,김성균,주진모,이경영,이성민,윤지혜,김재영,송영창,김병옥,임현성,강현중",
...@@ -145,7 +151,7 @@ data = { ...@@ -145,7 +151,7 @@ data = {
145 # "식객": "", 151 # "식객": "",
146 # "26년": "", 152 # "26년": "",
147 # "고지전": "", 153 # "고지전": "",
148 - # "워낭소리": "", 154 + "워낭소리": "",
149 # "프리즌": "", 155 # "프리즌": "",
150 # "가장 보통의 연애": "", 156 # "가장 보통의 연애": "",
151 # "말모이": "", 157 # "말모이": "",
...@@ -155,11 +161,11 @@ data = { ...@@ -155,11 +161,11 @@ data = {
155 # "내가 살인범이다": "", 161 # "내가 살인범이다": "",
156 # "부당거래": "", 162 # "부당거래": "",
157 # "소원": "", 163 # "소원": "",
158 - # "너는 내 운명": "", 164 + "너는 내 운명": "",
159 # "시라노; 연애조작단": "", 165 # "시라노; 연애조작단": "",
160 # "곤지암": "", 166 # "곤지암": "",
161 # "살인자의 기억법": "", 167 # "살인자의 기억법": "",
162 - # "마파도": "", 168 + "마파도": "이정진,이문식,여운계,김수미,김을동,김형자,길해연,오달수,서영희",
163 # "후궁 : 제왕의 첩": "", 169 # "후궁 : 제왕의 첩": "",
164 # "탐정 : 더 비기닝": "", 170 # "탐정 : 더 비기닝": "",
165 # "지금 만나러 갑니다": "", 171 # "지금 만나러 갑니다": "",
...@@ -169,7 +175,7 @@ data = { ...@@ -169,7 +175,7 @@ data = {
169 # "보안관": "", 175 # "보안관": "",
170 # "기술자들": "", 176 # "기술자들": "",
171 # "굿모닝 프레지던트": "", 177 # "굿모닝 프레지던트": "",
172 - # "태극기 휘날리며": "", 178 + "태극기 휘날리며": "장동건,원빈,이은주,공형진,장민호,이영란",
173 # "라스트 갓파더": "", 179 # "라스트 갓파더": "",
174 # "1번가의 기적": "", 180 # "1번가의 기적": "",
175 # "증인": "", 181 # "증인": "",
...@@ -232,6 +238,10 @@ def named_union(graph1, graph2): #두 그래프 합성 ...@@ -232,6 +238,10 @@ def named_union(graph1, graph2): #두 그래프 합성
232 Z.vs["label"] = Z.vs["name"][:] 238 Z.vs["label"] = Z.vs["name"][:]
233 return Z 239 return Z
234 240
241 +for i in range(0, 100):
242 + if(salesPerScreensSorted[i]["name"] not in data):
243 + print(i, salesPerScreensSorted[i])
244 +
235 frequency = {} 245 frequency = {}
236 weight = {} 246 weight = {}
237 keys = [] 247 keys = []
...@@ -263,12 +273,12 @@ for movie in data: ...@@ -263,12 +273,12 @@ for movie in data:
263 join = join[0]+","+join[1] 273 join = join[0]+","+join[1]
264 if(join not in weight): 274 if(join not in weight):
265 weight[join] = { 275 weight[join] = {
266 - "audience": audience[movie], 276 + "audiences": audiences[movie],
267 "count": 1 277 "count": 1
268 } 278 }
269 keys.append(join) 279 keys.append(join)
270 else: 280 else:
271 - weight[join]["audience"] += audience[movie] 281 + weight[join]["audiences"] += audiences[movie]
272 weight[join]["count"] += 1 282 weight[join]["count"] += 1
273 283
274 topten = sorted(keys, key=lambda n: weight[n]["count"], reverse=True)[:10] 284 topten = sorted(keys, key=lambda n: weight[n]["count"], reverse=True)[:10]
......
...@@ -6,9 +6,12 @@ db = conn.test ...@@ -6,9 +6,12 @@ db = conn.test
6 MOVIE = db.movie 6 MOVIE = db.movie
7 MOVIE.delete_many({}) #reset 7 MOVIE.delete_many({}) #reset
8 8
9 -csvfile = open('kobis2.csv', mode='r') 9 +csvfile = open('C:\\Users\\ghdms\\2014104137\\소스코드\\kobis1.csv', mode='r')
10 reader = list(csv.reader(csvfile)) 10 reader = list(csv.reader(csvfile))
11 for row in reader: 11 for row in reader:
12 - num = int(row[1].replace(",", "")) 12 + name = row[1]
13 - print(num) 13 + for i in range(2, 6):
14 - MOVIE.insert_one({"name": row[0], "audience": num}) 14 + row[i] = row[i].replace(",", "")
15 + sales, audiences, screens, plays = int(row[2]), int(row[3]), int(row[4]), int(row[5])
16 + print(name, sales, audiences, screens, plays)
17 + MOVIE.insert_one({"name": name, "sales": sales, "audiences": audiences, "screens": screens, "plays": plays})
...\ No newline at end of file ...\ No newline at end of file
......