데이터 분석/ADP 자격증 공부

[ADP 필기] 비정형 데이터마이닝 – 텍스트마이닝, 사회연결망 분석

나르시스트 2026. 4. 5. 18:10

*비정형 데이터마이닝

 텍스트마이닝: 문서 요약 / 분류 / 군집, 특성 추출

*Corpus
– 데이터마이닝 알고리즘 실험에 활용될 수 있는 상태
– ‘tm’에서 문서를 관리하는 기본 구조, 텍스트 문서들의 집합
– VCorpus() – 메모리, PCorpus() – 외부DB, 파일
– tm_map(data, function)
– TermDocumentMatrix: Corpus로부터 단어별 문서의 빈도표 생성

*사회연결망 분석(SNA)

– 개인과 집단들 간의 관계를 노드와 링크로 모델링

 

 집합론적 방법
 그래프 이론을 이용한 방법 (노드, 선)
 행렬을 이용한 방법 (i, j)번째 칸에 1 혹은 0
– 준연결망: 관계를 인위적으로 설정해 고객과 고객, 상품과 상품 사이의 관계 나타냄

  • 연결정도 중심성: 한 점에 직접적으로 연결된 점들의 합
  • 근접 중심성: 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계 합 (보통 중앙)
  • 매개 중심성: 매개자 혹은 중재자 역할의 정도
  • 위세 중심성: 영향력, 타인의 영향력을 합하여 결정
    – 보나시치 권력지수: 연결된 노드의 중요성에 가중치 추가
    ※ 그 외 밀도, 구조적 틈새, 집중도
    ex) KXEN, SAS, XTRACT, Indiro, Onalytica, Unicet, Pajek, Inflow 등
    MapReduce, Giraph / RHadoop, RHIPE

*R에서의 SNA

– 네트워크 레벨 통계량(degree, shortest paths 등)

  • WALKRAP: 각 버텍스를 하나의 커뮤니티로 취급해, 점차 더 큰 그룹 병합
  • Edge Betweenness method: 최단거리 중 몇 개가 그 edge를 거쳐가는지