양지수

hannanum delte number_x

No preview for this file type
No preview for this file type
No preview for this file type
No preview for this file type
...@@ -9,7 +9,10 @@ import pandas as pd ...@@ -9,7 +9,10 @@ import pandas as pd
9 #okt = Okt() 9 #okt = Okt()
10 hannanum = Hannanum() 10 hannanum = Hannanum()
11 #filename= input("분석할 파일이름 입력:") #파일명 11 #filename= input("분석할 파일이름 입력:") #파일명
12 -kfile=openpyxl.load_workbook('C:/Users/yangj/PycharmProjects/pythonProject1/고려아연2월.xlsx')#파일이름입력 12 +filefolder = input("종목폴더입력: ")
13 +filename=input("파일이름입력:")
14 +filepos = "C:/Users/yangj/PycharmProjects/pythonProject1/뉴스크롤링/"+filefolder+"/" + filename + ".xlsx"
15 +kfile = openpyxl.load_workbook(filepos)#파일이름입력
13 sheet=kfile.worksheets[0]#sheet1에 있는 데이터 가죠오기 16 sheet=kfile.worksheets[0]#sheet1에 있는 데이터 가죠오기
14 #print(sheet) 17 #print(sheet)
15 data=[] 18 data=[]
...@@ -26,7 +29,17 @@ newData2=[] ...@@ -26,7 +29,17 @@ newData2=[]
26 #print(newData) 29 #print(newData)
27 for i in range(len(data)-1): 30 for i in range(len(data)-1):
28 newData2.append(hannanum.nouns(data[i+1])) #명사만 추출hannanum가 okt보다 성능좋음 31 newData2.append(hannanum.nouns(data[i+1])) #명사만 추출hannanum가 okt보다 성능좋음
29 -#print(newData2) 32 +print(newData2)
33 +
34 +newData3=[]
35 +for i in range(len(newData2)):
36 + newData3.append([])
37 + for j in newData2[i]:
38 + if any(map(str.isdigit,j))==False:
39 + newData3[i].append(j)
40 +print(newData3)
41 +
30 #print(type(newData2))#newData2 데이터 형식은 list 42 #print(type(newData2))#newData2 데이터 형식은 list
31 -df= pd.DataFrame.from_records(newData2)#newData2 dataframe으로 변환
32 -df.to_excel('test.xlsx')#test라는 파일명의 엑셀로 변환
...\ No newline at end of file ...\ No newline at end of file
43 +df= pd.DataFrame.from_records(newData3)#newData2 dataframe으로 변환
44 +df.to_excel(filename+'_명사추출_숫자제외'+'.xlsx') #파일명의 엑셀로 변환
45 +
......