전국 | 워드 클라우드로 내용 정리하기, 독서
페이지 정보
작성자 Yuki 작성일2024-07-06 03:41 조회1,068회 댓글0건본문
1. 워드클라우드 기본 패키지 설치아래 코드를 실행해 워드클라우드에 필요한 패키지를 설치하자어디에 설치되는지 위치 확인하시길!혹시라도 anaconda3에 설치되지 않고 python경로에 설치가 된다면 따로 import를 해줘야 한다2. 원하는 워드클라우드 단어를 검색하는 뉴스 URL 생성이건 HTTP를 가져오기 위한 라이브러리그 후 내가 선택한 검색어를 검색하는 url을 입력한다.이 때 url은 반드시!! UTF-8로 인코딩되어야 함생성을 하게 워드클라우드 되면 입력한 단어를 검색하는 링크가 생성됨여기서는 '안녕'이라는 단어를 입력함!3. 정적 HTML 가져온 뒤 원하는 데이터 파싱1) 원하는 데이터를 파싱하는 라이브러리인 BeautifulSoup를 임포트 후 워드클라우드 인스턴스를 생성한다2) 선택자 찾기(1) 위에서 구한 target_url에 들어간 후 개발자 도구 열기(2) 개발자 도구에서 아래 아이콘 클릭 후 크롤링하고 싶은 곳 클릭(3) 아래 워드클라우드 그림처럼 클릭한 곳의 HTML 코드가 나오게 되는데 이 부분 우클릭 ->Copy ->Copy selector 순으로 작업하면 선택자 코드가 복사됨!여기서는이 부분을 가져왔고, 선택자는 #contents >div 워드클라우드 >div >div.divide_area >section >div.sch_tab >ul >li.tab_list_node.is_active >button >a >span이렇게 나오는데 맨 끝에 있는 button >a >span만 가져와서 사용했다3) 전체 기사 개수 찾아오기4) 읽어올 워드클라우드 데이터 개수 입력 받아 읽어올 페이지의 개수(page_num) 생성하기4. 텍스트 파일 생성 후 파싱한 데이터(기사 링크) 저장여기까지 하면 C:\Users\USER 경로에 '(내가입력한검색어).txt'파일이 생성된다!안녕5. 텍스트 파일에서 워드클라우드 명사(한글 형태로 분석) 추출1) 한국어 형태소 분석기인 Kkma를 사용해 추출하기2) 검색어가 포함된 기사 찾기6. 워드클라우드 생성실행 결과는 다음과 같다! 읽어오는 데이터 개수마다 실행 워드클라우드 결과가 다르게 나올 것이다신기하당
댓글목록
등록된 댓글이 없습니다.