본문 바로가기
ML | DL | Big data/Data Engineering

지식 그래프(Knowledge Graph)가 무엇인지 알아보자

by 썽하 2021. 10. 7.

날리지 그래프 기반 무슨 프로젝트를 한단다(바쁜데 ㅜㅜ). 기술조사 좀 해오라니 밤새 조사해가야겠다. 관련 지식이 없어서 기본 우선 기본 정보부터 정리해보려 한다.

 

* KG : Knowledge Graph 

* KB : Knowledge Base

 

Knowledge Graph

지식 그래프(Knowlege Graph)는 개체, 사건 또는 개념과 같은 실체에 대한 상호 연결된 설명 모음을 뜻한다. 지식 그래프는 컨텍스트 내의 링킹 및 의미론적인 메타데이터를 저장하며, 이러한 방식으로 데이터 통합, 통일, 분석, 공유(integration, unification, analytics, sharing)를 위한 프레임 워크를 제공한다.

 

몇 년 전부터 빅 데이터에서 스마트 데이터로 단어의  유행이 옮겨 갔다. 전례 없는 양의 데이터를 보유함에 따라 정보에 대한 복잡한 이해를 반영하는 데이터 모델이 필요하게 되었는데, 데이터를 스마트하게 만들기 위해서는 기계가 미리 정의된 데이터 스키마에 얽매이지 않아야 했다. 실제 세계에 얽히고설킨 관계를 나타낼 수 있는 데이터 저장소가 필요해졌고, 이 모든 것은 컴퓨터가 읽을 수 있는 방식으로 수행되어야 했다고 한다. 우리의 언어를 보완하고 용이하게 하는 자동화된 추론을 가능하게 하는 공식적인 의미를 가져야 했다.

 

뒤에 언급할 내용처럼 DBpredia, GeoNames, Wikidata 등과 같은 출처에서 자유롭게 이용할 수 있는 상호 연결 사실이 많이 있으며 그 수는 매일 증가하고 있다. 그러나 데이터의 진정한 힘은 우리의 독점적 지식을 글로벌 지식과 연결시킬 때 진정한 힘이 발휘된다. 이를 가능하게 해주는 것이 KG이다.

 

KG는 실세계의 객체 및 사건 또는 추상 개념(예를 들면 문서)과 같은 실체에 대한 상호 연결된 설명의 모음을 나타낸다.

  • 설명(Description)은 사람과 컴퓨터 모두 효율적이고 모호하지 않은 방식으로 처리할 수 있는 형식적 의미론(formal semantics)을 가지고 있다.
  • 개체 설명(Entity Description)은 네트워크를 형성하면서 서로 기여하며, 여기서 각 개체는 관련 개체 설명의 일부를 나타내며 이들의 해석에 대한 맥락(context)을 제공한다.

 

 

주요 특징

KG는 다음과 같은 여러 데이터 관리 패러다임의 특성을 갖고 있다.

  • 데이터베이스 : 구조화된 쿼리(structured query)를 통해  데이터를 탐색할 수 있다.
  • 그래프 : 네트워크 데이터 구조로 분석될 수 있다.
  • 지식 베이스(Knowledge base) : 데이터를 해석하고 새로운 사실을 추론하는 데 사용할 수 있는 형식적 의미론을 포함한다.

 

Knowledge Graph 아닌 것 !

일련의 통계 데이터(국가 GDP 같은)는 KG가 아니다. 데이터의 그래프 표현은 종종 유용하지만 데이터의 의미적 지식을 포착할 필요가 없을 수 있다. 'GDP'가 무엇인지 정의할 필요 없이 '한국', 'GDP'라는 문자열과 숫자 '1조 9600억'이라는 문자열만 가지고 있어도 충분하다. KG를 만드는 것은 연결과 그래프이지 데이터를 나타내는 데 사용되는 언어가 아니다.

 

모든 KB가 KG인 것은 아니다. KG의 주요 특징은 개체 설명(entity description)이 서로 연동되어야 한다는 것이다. 한 엔티티의 정의에는 다른 엔티티가 포함된다. 다음은 그래프가 형성되는 방법이다.

A는 B이다.
B는 C이다.
C는 D를 포함한다.
즉, A는 D를 포함한다.

 

Q&A 같이 구조와 의미가 없는 지식 기반(KB)도 KG를 나타내지 않는다. 그래프가 아닌 형식으로 구성된 데이터 모음을 가지고 있지만 분석을 용이하게 하기 위해 'if-then' 규칙 집합과 같은 자동화된 연역 과정을 사용하는 분석 시스템을 가질 수 있다.

 

기업들의 Big Knowledge Graphs 활용 현황

Google Knowledge Graph. 구글은 2012년 지식 그래프(KG) 발표로 이 용어를 만들었다. 그러나 조직, 범위 및 사이즈에 대한 기술적 세부사항은 없다 -.-. 구글 자체 프로젝트 외에 이 KG를 사용할 수 있는 방법은 거의 없다.

 

DBPedia. 이 프로젝트는 위키피디아에 내재된 구조를 활용하여 4.59개의 방대한 데이터 세트와 사람, 장소, 영화, 책, 조직, 종, 질병 등과 같은 실체에 대한 백과사전적 범위를 가진 존재론을 구축한다. 이 데이터 세트는 Open Linked Data 운동의 중심에 있다. 수백만 개의 크라우드 소싱 엔티티를 사용하여 내부 지식 그래프를 부트스트랩 한 값진 프로젝트라고 한다.

 

Geonames. creative commons로, Geonames 데이터셋의 사용자는 2500만 개의 지리적 실체와 특징을 활용한다.

 

 

지식 그래프가 텍스트 분석에 활용되는 방법

현대 텍스트 분석 기술이 지식 그래프를 상당히 활용하는 어찌 보면 당연한 일이기도 하다.

큰 그래프는 본문을 보다 정확하게 해석할 수 있도록 배경 지식, 인간과 유사한 개념 및 실체 인식을 제공한다.

분석 결과는 텍스트의 참조를 그래프의 특정 개념에 연결하는 의미 태그이다. 이러한 태그는 더 나은 검색과 추가 분석을 가능하게 하는 구조화된 메타데이터를 말한다.

텍스트에서 추출한 사실을 추가하여 지식 그래프를 풍부하게 할 수 있고, 이는 분석, 시각화 및 보고에 훨씬 더 가치를 부여한다.

 

 

그래서 어디에 사용되는데?

특정 용도와 응용 프로그램이 지식 그래프에 사용된다. 지능형 콘텐츠 및 패키지 재사용, 대응 및 상황 인식 콘텐츠 권장, 지식 그래프 구동 약물 검색, 의미 검색, 투자 시장 인텔리전스, 규제 문서의 정보 검색, 고급 약물 안전 분석 등과 같은 데이터 및 정보 집약적인 서비스 등이 있다.

댓글