2. 1. 서울대에서 A+받는 법(https://goo.gl/R5XcX9)
2. 빅데이터가 세상을 바꾼다(https://goo.gl/kgrTUF)
3. 데이터 사이언티스트의 현실과 미래(https://goo.gl/6Tts8Y)
4. Ted, 수잔 이틀린저: 빅 데이터로 할 일(https://goo.gl/gXvx8C)
소감 : 빅 데이터를 통해서 여러가지 연구 보다 쉽게 할 수 있고
데이터 사이언티스트 라는 직업이 있다는 사실도 알게 되었다.
이도형
1. 빅데이터 정의
- 영상 소감
3. 이도형
1. 빅데이터 정의
빅 데이터 란?
과거에 비해 규모가 방대.
생성 주기가 짧다.
수치 데이터 및 문자,영상 데이터를
포함하는 대규모 데이터
빅 데이터 정의
3V
크기(Volume)
다양성(Variety)
속도(Velocity)
가치(Value)
4. 이도형
1. 빅데이터 정의
크기 (Volume) 다양성(Variety)
가치(Value)속도(Velocity)
• 데이터의 물리적 크기
• 기업 데이터, 웹 로그 데이터
등 대용량을 의미
• 데이터의 형태
• 정형 데이터, 반 정형 데이터,
• 비정형 데이터를 모두 포함
• 대부분 데이터들의 전체를 파악
• 가치 창출의 중요성이 강조 되는 시대
• 데이터의 생성 및 처리속도
• 생성 후 유통 및 활용되기까지의
시간을 초 단위 이하로 단축
5. 이도형
1.2 R studio를 이용한 프로그래밍
Source
R명령어를 입력하는 창
Console
명령문 실행 및 에러 메시지
Environment
할당된 변수와 데이터
6. 이도형
1.2 R studio를 이용한 프로그래밍 기본 / 벡터 생성
- 변수 z를 이용하여 2020을
표현하는 방법 (3가지)
- Console : 결과물
1) 2)
- y에 4개의 문자열을 할당함
1) 2)
3)
3)
- 함수 내에서 연산
7. 이도형
2. 텍스트마이닝 (textmining)
• 자연어로 구성된 비정형 데이터에서 패턴 또는 관계를
추출하여 의미 있는 정보를 찾아내는 기법
• 컴퓨터가 사람들이 말하는 언어를 이해할 수 있는
자연어 처리 기반을 둔 기술
• 웹 상에 존재하는 방대한 비정형 데이터를 실시간으로 수집,
분석하여 고객의 감성 및 의도 등을 분석해 내는 과정
• 비 정형화된 텍스트 문서에서 정보를 찾아내는 기법
8. 이도형
2.1 워드 클라우드
• 최근에 워드클라우드가 이용된 통계 자료 및 기사
(http://news.joins.com/article/20805049)
- 남고를
연상시키는 단어
- 여고를
연상시키는 단어
9. 이도형
2.2 텍스트 마이닝을 위한 함수 1
• 패키지란? : R에 내장되어 있지 않는 함수를 이용하게 하는 방법.
• Install.package(“ex:KoNLP”) : KoNLP라는 패키지를 설치하기 위한 함수
• Library(KoNLP) : 패키지를 작업 영역으로 불러오는 함수
• KoNLP 패키지 : 한글 텍스트 처리를 위한 패키지
-useSejongDic() : KoNLP에 있는 세종 사전을 사용하는 함수
-extractNoun(): 한글텍스트에서 명사만 추출하기 위한 함수
• nchar() : 글자의 수를 세는 함수
- ex) noun[nchar(nouns) >=2] : 2개 이상인 글자의 수를 센다
10. 이도형
2.2 텍스트 마이닝을 위한 함수 2
• gsub() : 문자열에서 패턴을 검색하여 지정된 문자로 대체하는 함수
-gsub(pattern, replacement, x)
-pattern : 대체할 문자열
-x : 문자열 벡터
- ex) nouns= gsub(“텍스트 바이닝“, “텍스트 마이닝“, nouns)
• wordcloud() : 워드 클라우드를 작성하기 위한 함수
• <빈도 분석을 위한 함수>
table() : 단어의 사용빈도를 알 수 있다.
sort() : 단어의 사용빈도를 내림차순 으로 정렬
11. 이도형
2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용)
코드 :
1. corpus 생성 (corpus = 컴퓨터가 이해할 수 있도록 모아둔 자료)
2. 공백 제거
3. 소문자 변환
4. 구두점 제거
# removewords , stopwords(“~”) 를 이용한다면 불용어 제거도 가능함.
“pr.txt”를 불러옴
C:/Desktop 폴더에 진입
#을 붙이면 주석으로 코드에 영향을 미치지 않음
- 워드 클라우드 모양에 대한 세부적 설정
12. 이도형
2.3 워드 클라우드를 직접 만들어 보자 (오바마 대통령 연설문 이용)
결과물:
THE
AND
WORLD
PEOPLE
13. 이도형
2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (페이지 이용)
- 페이스북 HuffPostkorea 페이지를 이용.
포스트 순서에 따른 글 내용. 포스트 순서에 따른 좋아요, 댓글 공유 수
페이지 내용에서 30개의 내용만 가지고 오는 함수
14. 이도형
2.4 R studio를 이용한 프로그래밍 / Facebook을 이용한 데이터 분석 (친구 목록 이용)
페이스북 인증 문제 등 복잡한 인증 절차와 최근 강화된
개인정보 보호 문제로 인한 개발자 등록이 되어있는 친구의 목록만 나옴.
페이스북에서 나의 친구 목록을 볼 수 있는 함수