티스토리 뷰

 

안녕하세요?

두 단어의 연관성(상관관계)를 빅데이터 API 없이 확인할 수 있는 방법이 있을까? (2탄)으로 돌아왔습니다. 1탄을 안 보셨다면 1탄부터 보시고 오시는 것도 추천드립니다.

(1탄 - 두 단어의 연관성(상관관계)를 API 없이 확인할 수 있는 방법이 있을까? : https://heojjit-street.tistory.com/2 )

 

두 단어의 연관성을 파악하기 위해 빅데이터를 기반으로 각종 API를 활용하는 방안이 있지만 이는 성능과 시간을 잡아먹게 되는 요인이 됩니다.

저는 이러한 요인 없이 보다 간단히 연관, 관계성을 확인하는 방법을 제시해 보려고 합니다.

 

바로 검색어 수를 활용한 단어 연관성 유추 방법입니다.

(이런 논문이나 연구 자료가 있는질 모르겠지만 혼자 나름에 방식을 세운 것이니 참고하시길 바랍니다.)

<검색엔진을 활용해 보자!>

 

여러분들은 "반도체" 하면 제일 먼저 떠오르는 단어가 있나요? 저는 "삼성전자"가 먼저 떠오르는데요. 이 글의 1탄에서 말씀드렸던 바로 경험에서의 연결고리를 찾고자 한다면 모든 웹에서의 데이터를 확인하면 좋겠다는 생각에서 출발하는 것이 바로 검색어 수를 활용한 단어 연관성 유추 방법입니다.(1탄의 마지막 결론이기도 하죠. 제공되는 검색엔진에서 구글, bing 등 일부 검색 사이트들은 검색 결과수를 사용자에게 보여 줍니다.)

 

두 단어를 포함한 웹페이지가 인터넷상에 많이 존재한다는 것은 그만큼 두 단어는 연관성이 많다는 것을 의미합니다.

예를 들면, "반도체"라는 단어와 "삼성전자"라는 단어를 같이 쓰는 웹페이지를 찾은 결과는 "반도체"와 "현대건설"이라는 단어를 포함하는 웹페이지 결과보다 많다는 사실에서 제 이론(추론)은 출발합니다.

<반도체 그리고 삼성전자, 현대건설을 각각 구글에서 검색한 결과 - 반도체 삼성전자의 결과가 2배 이상 많이 나온다.>

 

하지만, 이러한 방법은 큰 오류를 범할 수 있습니다. 그 가장 큰 이유는 '정보의 치우침' 때문입니다.

<반도체와 웨이퍼는 긴밀한 관계가 있지만 검색 결과는 반도체, 현대건설과 비교하면 1/2 수준이다.>

 

위의 그림과 같은 문제는 반도체 & 현대건설의 정보의 치우침으로 인하여 웹에서 많은 페이지를 가지고 있기 때문에 발생합니다. 바로 "증권", "취업" 페이지 등이 웹 상에서는 많은 비중을 차지하고 있기 때문입니다.

 

 

 

<반도체 & 현대건설의 검색 결과는 증권뉴스가 많은 비중을 차지하고 있다.>

 

 

 

 

 

기업에 대해서는 증권적인 정보가 웹상에 많이 있기 때문에 단순 검색어 수로만 지표로 삶기에는 한계가 있습니다.

 

불행 중 다행히도 우리가 사용하는 검색엔진들에는 이러한 정보를 제외하는 검색 옵션이 있습니다. 바로 "-" 기호입니다. 구글을 포함한 대부분의 검색 사이트는 특정 단어가 있는 페이지를 제외하고 검색할 수 있는 기능이 있습니다. 바로 "-"기호를 붙여 단어 앞에 사용하게 되면 특정 단어를 미포함한 웹페이지를 찾아줍니다.

 

<주식 관련 단어 및 취업안내 관련 단어는 기업에 대표적인 '정보 치우침' 단어들이다.>

그리고 '정보의 치우침'보다 더 무서운 변수가 있습니다. 바로 '대중성'입니다. - 3탄에서 계속....

3탄 : https://heojjit-street.tistory.com/4

반응형
댓글