336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.
TF-IDF(Term Frequency - Inverse Document Frequency)는
정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다.
TF(단어 빈도, Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, Document Frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, Inverse Document Frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다.
IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다.
'Information Technology' 카테고리의 다른 글
4차 산업혁명, 글로벌 경쟁력을 갖춘 인재중심으로 (0) | 2018.12.12 |
---|---|
핀테크 개론(핀테크는 ‘파이낸셜’과 ‘기술’의 합성어로 모바일 결제, 송금, 개인자산관리, 크라우드 펀딩 등 금융서비스와 연계된 기술) (0) | 2018.12.12 |
KISA, 사이버위협 인텔리전스 네트워크와 ‘2017년 7대 사이버 공격 전망’ (0) | 2017.01.05 |
암호화(암호화의 발전사, 대칭, 비대칭, 해시) 요약 (0) | 2016.08.15 |
21세기 세계흐름에대한 통찰 ‘The World is Flat’ (토머스 L, 프리드먼 지음) (0) | 2016.07.31 |
댓글