*비정형 데이터마이닝
– 텍스트마이닝: 문서 요약 / 분류 / 군집, 특성 추출
*Corpus
– 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태
– ‘tm’에서 문서를 관리하는 기본 구조, 텍스트 문서들의 집합
– VCorpus() – 메모리, PCorpus() – 외부DB, 파일
– tm_map(data, function)
– TermDocumentMatrix: Corpus로부터 단어별 문서의 빈도표 생성
*사회연결망 분석(SNA)
– 개인과 집단들 간의 관계를 노드와 링크로 모델링
① 집합론적 방법
② 그래프 이론을 이용한 방법 (노드, 선)
③ 행렬을 이용한 방법 (i, j)번째 칸에 1 혹은 0
– 준연결망: 관계를 인위적으로 설정해 고객과 고객, 상품과 상품 사이의 관계 나타냄
- 연결정도 중심성: 한 점에 직접적으로 연결된 점들의 합
- 근접 중심성: 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계 합 (보통 중앙)
- 매개 중심성: 매개자 혹은 중재자 역할의 정도
- 위세 중심성: 영향력, 타인의 영향력을 합하여 결정
– 보나시치 권력지수: 연결된 노드의 중요성에 가중치 추가
※ 그 외 밀도, 구조적 틈새, 집중도
ex) KXEN, SAS, XTRACT, Indiro, Onalytica, Unicet, Pajek, Inflow 등
MapReduce, Giraph / RHadoop, RHIPE
*R에서의 SNA
– 네트워크 레벨 통계량(degree, shortest paths 등)
- WALKRAP: 각 버텍스를 하나의 커뮤니티로 취급해, 점차 더 큰 그룹 병합
- Edge Betweenness method: 최단거리 중 몇 개가 그 edge를 거쳐가는지
'데이터 분석 > ADP 자격증 공부' 카테고리의 다른 글
| (파이썬 한권으로 끝내기) 군집분석 (0) | 2026.04.05 |
|---|---|
| (파이썬 한권으로 끝내기) 상관계수, 선형 회귀분석, 다중 회귀, 다중공선성, 변수선택법(전진선택법, 후진제거법, 단계선택법) (0) | 2026.04.05 |
| [ADP 필기] 연관분석 (0) | 2026.04.05 |
| [ADP 필기] 군집분석 (0) | 2026.04.05 |
| [ADP 필기] 인공신경망 분석 (0) | 2026.04.05 |