SlideShare uma empresa Scribd logo
1 de 15
R프로그램을 이용한
빅데이터 분석법
주제 : 빅 데이터
이도형
1. 서울대에서 A+받는 법(https://goo.gl/R5XcX9)
2. 빅데이터가 세상을 바꾼다(https://goo.gl/kgrTUF)
3. 데이터 사이언티스트의 현실과 미래(https://goo.gl/6Tts8Y)
4. Ted, 수잔 이틀린저: 빅 데이터로 할 일(https://goo.gl/gXvx8C)
소감 : 빅 데이터를 통해서 여러가지 연구 보다 쉽게 할 수 있고
데이터 사이언티스트 라는 직업이 있다는 사실도 알게 되었다.
이도형
1. 빅데이터 정의
- 영상 소감
이도형
1. 빅데이터 정의
빅 데이터 란?
 과거에 비해 규모가 방대.
 생성 주기가 짧다.
 수치 데이터 및 문자,영상 데이터를
포함하는 대규모 데이터
빅 데이터 정의
3V
크기(Volume)
다양성(Variety)
속도(Velocity)
가치(Value)
이도형
1. 빅데이터 정의
크기 (Volume) 다양성(Variety)
가치(Value)속도(Velocity)
• 데이터의 물리적 크기
• 기업 데이터, 웹 로그 데이터
등 대용량을 의미
• 데이터의 형태
• 정형 데이터, 반 정형 데이터,
• 비정형 데이터를 모두 포함
• 대부분 데이터들의 전체를 파악
• 가치 창출의 중요성이 강조 되는 시대
• 데이터의 생성 및 처리속도
• 생성 후 유통 및 활용되기까지의
시간을 초 단위 이하로 단축
이도형
1.2 R studio를 이용한 프로그래밍
Source
R명령어를 입력하는 창
Console
명령문 실행 및 에러 메시지
Environment
할당된 변수와 데이터
이도형
1.2 R studio를 이용한 프로그래밍 기본 / 벡터 생성
- 변수 z를 이용하여 2020을
표현하는 방법 (3가지)
- Console : 결과물
1) 2)
- y에 4개의 문자열을 할당함
1) 2)
3)
3)
- 함수 내에서 연산
이도형
2. 텍스트마이닝 (textmining)
• 자연어로 구성된 비정형 데이터에서 패턴 또는 관계를
추출하여 의미 있는 정보를 찾아내는 기법
• 컴퓨터가 사람들이 말하는 언어를 이해할 수 있는
자연어 처리 기반을 둔 기술
• 웹 상에 존재하는 방대한 비정형 데이터를 실시간으로 수집,
분석하여 고객의 감성 및 의도 등을 분석해 내는 과정
• 비 정형화된 텍스트 문서에서 정보를 찾아내는 기법
이도형
2.1 워드 클라우드
• 최근에 워드클라우드가 이용된 통계 자료 및 기사
(http://news.joins.com/article/20805049)
- 남고를
연상시키는 단어
- 여고를
연상시키는 단어
이도형
2.2 텍스트 마이닝을 위한 함수 1
• 패키지란? : R에 내장되어 있지 않는 함수를 이용하게 하는 방법.
• Install.package(“ex:KoNLP”) : KoNLP라는 패키지를 설치하기 위한 함수
• Library(KoNLP) : 패키지를 작업 영역으로 불러오는 함수
• KoNLP 패키지 : 한글 텍스트 처리를 위한 패키지
-useSejongDic() : KoNLP에 있는 세종 사전을 사용하는 함수
-extractNoun(): 한글텍스트에서 명사만 추출하기 위한 함수
• nchar() : 글자의 수를 세는 함수
- ex) noun[nchar(nouns) >=2] : 2개 이상인 글자의 수를 센다
이도형
2.2 텍스트 마이닝을 위한 함수 2
• gsub() : 문자열에서 패턴을 검색하여 지정된 문자로 대체하는 함수
-gsub(pattern, replacement, x)
-pattern : 대체할 문자열
-x : 문자열 벡터
- ex) nouns= gsub(“텍스트 바이닝“, “텍스트 마이닝“, nouns)
• wordcloud() : 워드 클라우드를 작성하기 위한 함수
• <빈도 분석을 위한 함수>
table() : 단어의 사용빈도를 알 수 있다.
sort() : 단어의 사용빈도를 내림차순 으로 정렬
이도형
2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용)
코드 :
1. corpus 생성 (corpus = 컴퓨터가 이해할 수 있도록 모아둔 자료)
2. 공백 제거
3. 소문자 변환
4. 구두점 제거
# removewords , stopwords(“~”) 를 이용한다면 불용어 제거도 가능함.
“pr.txt”를 불러옴
C:/Desktop 폴더에 진입
#을 붙이면 주석으로 코드에 영향을 미치지 않음
- 워드 클라우드 모양에 대한 세부적 설정
이도형
2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용)
결과물:
THE
AND
WORLD
PEOPLE
이도형
2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (페이지 이용)
- 페이스북 HuffPostkorea 페이지를 이용.
포스트 순서에 따른 글 내용. 포스트 순서에 따른 좋아요, 댓글 공유 수
페이지 내용에서 30개의 내용만 가지고 오는 함수
이도형
2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (친구 목록 이용)
페이스북 인증 문제 등 복잡한 인증 절차와 최근 강화된
개인정보 보호 문제로 인한 개발자 등록이 되어있는 친구의 목록만 나옴.
페이스북에서 나의 친구 목록을 볼 수 있는 함수
감사합니다
이도형

Mais conteúdo relacionado

Mais procurados

CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeCUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeLaura Oh
 
[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1
[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1
[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1NUGU developers
 
An introduction to hadoop
An introduction to hadoopAn introduction to hadoop
An introduction to hadoopMinJae Kang
 
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술NUGU developers
 
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진PgDay.Seoul
 
Hadoop설명
Hadoop설명Hadoop설명
Hadoop설명Ji Hoon Lee
 
Project#6 오탈자 검사 D0 Hwp
Project#6 오탈자 검사 D0 HwpProject#6 오탈자 검사 D0 Hwp
Project#6 오탈자 검사 D0 HwpKimjeongmoo
 
제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기
제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기
제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기BOAZ Bigdata
 
구글활용법
구글활용법구글활용법
구글활용법형규 박
 
자료구조6보고서
자료구조6보고서자료구조6보고서
자료구조6보고서KimChangHoen
 
Animal science with data science
Animal science with data scienceAnimal science with data science
Animal science with data scienceYoungjun Na
 
Binary Search
Binary SearchBinary Search
Binary Searchskku_npc
 

Mais procurados (13)

CUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLeeCUBRIDInside_5th_CUBRID_Migration Process_DHLee
CUBRIDInside_5th_CUBRID_Migration Process_DHLee
 
161004 hySON
161004 hySON161004 hySON
161004 hySON
 
[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1
[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1
[NUGU Conference 2018] 세션 B-3.1 : 지식기술 소개 1
 
An introduction to hadoop
An introduction to hadoopAn introduction to hadoop
An introduction to hadoop
 
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
[NUGU CONFERENCE 2019] 트랙 A-1 : Knowledge Graph 기반의 Complex QA 기술
 
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
[Pgday.Seoul 2017] 1. PostGIS의 사례로 본 PostgreSQL 확장 - 장병진
 
Hadoop설명
Hadoop설명Hadoop설명
Hadoop설명
 
Project#6 오탈자 검사 D0 Hwp
Project#6 오탈자 검사 D0 HwpProject#6 오탈자 검사 D0 Hwp
Project#6 오탈자 검사 D0 Hwp
 
제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기
제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기
제8회 BOAZ 빅데이터 컨퍼런스 - 01 낚시성 기사 분류기
 
구글활용법
구글활용법구글활용법
구글활용법
 
자료구조6보고서
자료구조6보고서자료구조6보고서
자료구조6보고서
 
Animal science with data science
Animal science with data scienceAnimal science with data science
Animal science with data science
 
Binary Search
Binary SearchBinary Search
Binary Search
 

Semelhante a 이도형 실적 내역서

Python(basic)
Python(basic)Python(basic)
Python(basic)POSTECH
 
Dynamic Word Cloud Using Word2Vec - 2nd Presentation
Dynamic Word Cloud Using Word2Vec - 2nd PresentationDynamic Word Cloud Using Word2Vec - 2nd Presentation
Dynamic Word Cloud Using Word2Vec - 2nd PresentationMinwook Chang
 
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기Wonha Ryu
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
 
ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼
ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼
ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼yonseilibrary
 
Mongo db 시작하기
Mongo db 시작하기Mongo db 시작하기
Mongo db 시작하기OnGameServer
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
자료구조 Project2
자료구조 Project2자료구조 Project2
자료구조 Project2KoChungWook
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipelineJongho Woo
 
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingJunyoung Park
 
Webrtc 허영남 20150528
Webrtc 허영남 20150528Webrtc 허영남 20150528
Webrtc 허영남 20150528영남 허
 
[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...
[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...
[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...Amazon Web Services Korea
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Channy Yun
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
weather-data-processing-using-python
weather-data-processing-using-pythonweather-data-processing-using-python
weather-data-processing-using-pythonmarc_kth
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호NAVER D2
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)hkh
 

Semelhante a 이도형 실적 내역서 (20)

Python(basic)
Python(basic)Python(basic)
Python(basic)
 
자료구조02
자료구조02자료구조02
자료구조02
 
Dynamic Word Cloud Using Word2Vec - 2nd Presentation
Dynamic Word Cloud Using Word2Vec - 2nd PresentationDynamic Word Cloud Using Word2Vec - 2nd Presentation
Dynamic Word Cloud Using Word2Vec - 2nd Presentation
 
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
 
ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼
ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼
ProQuest TDM(Text Data Mining) Studio_이용 매뉴얼
 
Mongo db 시작하기
Mongo db 시작하기Mongo db 시작하기
Mongo db 시작하기
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
자료구조 Project2
자료구조 Project2자료구조 Project2
자료구조 Project2
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipeline
 
파이썬으로 익히는 딥러닝
파이썬으로 익히는 딥러닝파이썬으로 익히는 딥러닝
파이썬으로 익히는 딥러닝
 
News clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word EmbeddingNews clustering and Recommendation system using Word Embedding
News clustering and Recommendation system using Word Embedding
 
Webrtc 허영남 20150528
Webrtc 허영남 20150528Webrtc 허영남 20150528
Webrtc 허영남 20150528
 
[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...
[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...
[Retail & CPG Day 2019] Amazon.com의 무중단, 대용량 DB패턴과 국내사례 (Lotte e-commerce) - ...
 
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
Daum 내부 빅데이터 및 클라우드 기술 활용 사례- 윤석찬 (2012)
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
weather-data-processing-using-python
weather-data-processing-using-pythonweather-data-processing-using-python
weather-data-processing-using-python
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
Lab Seminar - Reading Wikipedia to Answer Open-Domain Questions (DrQA)
 

이도형 실적 내역서

  • 2. 1. 서울대에서 A+받는 법(https://goo.gl/R5XcX9) 2. 빅데이터가 세상을 바꾼다(https://goo.gl/kgrTUF) 3. 데이터 사이언티스트의 현실과 미래(https://goo.gl/6Tts8Y) 4. Ted, 수잔 이틀린저: 빅 데이터로 할 일(https://goo.gl/gXvx8C) 소감 : 빅 데이터를 통해서 여러가지 연구 보다 쉽게 할 수 있고 데이터 사이언티스트 라는 직업이 있다는 사실도 알게 되었다. 이도형 1. 빅데이터 정의 - 영상 소감
  • 3. 이도형 1. 빅데이터 정의 빅 데이터 란?  과거에 비해 규모가 방대.  생성 주기가 짧다.  수치 데이터 및 문자,영상 데이터를 포함하는 대규모 데이터 빅 데이터 정의 3V 크기(Volume) 다양성(Variety) 속도(Velocity) 가치(Value)
  • 4. 이도형 1. 빅데이터 정의 크기 (Volume) 다양성(Variety) 가치(Value)속도(Velocity) • 데이터의 물리적 크기 • 기업 데이터, 웹 로그 데이터 등 대용량을 의미 • 데이터의 형태 • 정형 데이터, 반 정형 데이터, • 비정형 데이터를 모두 포함 • 대부분 데이터들의 전체를 파악 • 가치 창출의 중요성이 강조 되는 시대 • 데이터의 생성 및 처리속도 • 생성 후 유통 및 활용되기까지의 시간을 초 단위 이하로 단축
  • 5. 이도형 1.2 R studio를 이용한 프로그래밍 Source R명령어를 입력하는 창 Console 명령문 실행 및 에러 메시지 Environment 할당된 변수와 데이터
  • 6. 이도형 1.2 R studio를 이용한 프로그래밍 기본 / 벡터 생성 - 변수 z를 이용하여 2020을 표현하는 방법 (3가지) - Console : 결과물 1) 2) - y에 4개의 문자열을 할당함 1) 2) 3) 3) - 함수 내에서 연산
  • 7. 이도형 2. 텍스트마이닝 (textmining) • 자연어로 구성된 비정형 데이터에서 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법 • 컴퓨터가 사람들이 말하는 언어를 이해할 수 있는 자연어 처리 기반을 둔 기술 • 웹 상에 존재하는 방대한 비정형 데이터를 실시간으로 수집, 분석하여 고객의 감성 및 의도 등을 분석해 내는 과정 • 비 정형화된 텍스트 문서에서 정보를 찾아내는 기법
  • 8. 이도형 2.1 워드 클라우드 • 최근에 워드클라우드가 이용된 통계 자료 및 기사 (http://news.joins.com/article/20805049) - 남고를 연상시키는 단어 - 여고를 연상시키는 단어
  • 9. 이도형 2.2 텍스트 마이닝을 위한 함수 1 • 패키지란? : R에 내장되어 있지 않는 함수를 이용하게 하는 방법. • Install.package(“ex:KoNLP”) : KoNLP라는 패키지를 설치하기 위한 함수 • Library(KoNLP) : 패키지를 작업 영역으로 불러오는 함수 • KoNLP 패키지 : 한글 텍스트 처리를 위한 패키지 -useSejongDic() : KoNLP에 있는 세종 사전을 사용하는 함수 -extractNoun(): 한글텍스트에서 명사만 추출하기 위한 함수 • nchar() : 글자의 수를 세는 함수 - ex) noun[nchar(nouns) >=2] : 2개 이상인 글자의 수를 센다
  • 10. 이도형 2.2 텍스트 마이닝을 위한 함수 2 • gsub() : 문자열에서 패턴을 검색하여 지정된 문자로 대체하는 함수 -gsub(pattern, replacement, x) -pattern : 대체할 문자열 -x : 문자열 벡터 - ex) nouns= gsub(“텍스트 바이닝“, “텍스트 마이닝“, nouns) • wordcloud() : 워드 클라우드를 작성하기 위한 함수 • <빈도 분석을 위한 함수> table() : 단어의 사용빈도를 알 수 있다. sort() : 단어의 사용빈도를 내림차순 으로 정렬
  • 11. 이도형 2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용) 코드 : 1. corpus 생성 (corpus = 컴퓨터가 이해할 수 있도록 모아둔 자료) 2. 공백 제거 3. 소문자 변환 4. 구두점 제거 # removewords , stopwords(“~”) 를 이용한다면 불용어 제거도 가능함. “pr.txt”를 불러옴 C:/Desktop 폴더에 진입 #을 붙이면 주석으로 코드에 영향을 미치지 않음 - 워드 클라우드 모양에 대한 세부적 설정
  • 12. 이도형 2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용) 결과물: THE AND WORLD PEOPLE
  • 13. 이도형 2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (페이지 이용) - 페이스북 HuffPostkorea 페이지를 이용. 포스트 순서에 따른 글 내용. 포스트 순서에 따른 좋아요, 댓글 공유 수 페이지 내용에서 30개의 내용만 가지고 오는 함수
  • 14. 이도형 2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (친구 목록 이용) 페이스북 인증 문제 등 복잡한 인증 절차와 최근 강화된 개인정보 보호 문제로 인한 개발자 등록이 되어있는 친구의 목록만 나옴. 페이스북에서 나의 친구 목록을 볼 수 있는 함수