广州凡科互联网科技有限公司

营业时间
MON-SAT 9:00-18:00

全国服务热线
18720358503

公司门店地址
广州市海珠区工业大道北67号凤凰创意园

TF-IDF:传统式IR的有关排列技术性

日期:2021-05-03 浏览:

TF-IDF:传统式IR的有关排列技术性


短视頻,自新闻媒体,达人种草1站服务 那1年,菊花还只是菊花,2B還是考試时涂卡应用的铅笔,黄瓜仅有蔬菜的作用,信息内容查找技术性(Information Retrieval)还只是简易的应用在书籍馆、材料库等处。

也更是在那1年,信息内容查找的有关排列技术性很盛行的是TF-IDF。

也许此时你会10分想问,啥是TF-IDF?嗯,不捉急,在寻找这个难题的回答以前,先看来1个难题。

在1堆书本里边,你想寻找和OOXX主题有关的材料(不必想歪),你用甚么规范来判断这堆书本里边的A比B更合乎你的主题呢?

思索1分钟。

你也许会说,看1下这些书本的姓名,看看哪些书名里边包括我要找的主题的有关信息内容,随后再在剩余的这一部分书本中概览1下內容,看看哪一个更合乎我要想的。

念头很好。

人是这么想的,信息内容查找系统软件也得这么干才可以得出大家最要想的結果,可是1个难题又曝露了出来 程序流程看不懂文本没法判断。

来,再给你1分钟時间,想一想如何帮程序流程处理这1难题。

嗯,你发现了,你想查寻的主题中所包括的语汇跟这堆书本中的某个非空子集內容中的语汇是有相交的。

对,用之前在检索模块基本原理简介的文章内容中大家谈到的根据词典的分词技术性,来寻找相交。

先来给定1个词典,它是N个词的结合。

={t1,t2, ,tn}

而针对你检索的标准q和这堆书本中的某1本d,则能够依据这个词典表明为:

q={q1,q2, ,qn}

d={d1,d2, ,dn}

在其中q1为t1这个语汇在你的检索标准q中出現的次数,q2为t2这个语汇在检索标准q中出現的次数,先后类推。假如qn为零,则表明第n个词在q中沒有出現。

设置w1=d1/ dn,则w1即为语汇t1在d中出現的频率,此时d便可表明为:

d=,wi(i=1,2,3, ,n)即为词频(term frequency)。

针对1些品质很高的信息内容(书本、参考文献等),词频是1个很好的,能够根据程序流程語言完成的,表述语汇在文本文档中所占权重的方法。

嗯?疑惑出来了,1些词例如 大家 、 大伙儿 等这类语汇也毫无疑问会在多篇文章内容中出現,可是用此来考量的话明显上面下的结果是不了立的啊。

恭贺你想起了这1步,此种语汇针对文本文档內容的鉴别来讲,确实木有太大的实际意义。

来,找特点,去掉这类语汇的危害。

啊,这些语汇会在好几个文章内容中另外出現。

用ki(i=1,2,3, ,n)来表明ti这个语汇在书本的结合D中所涉及到的书本次数,M表明书本D的尺寸,则ki/M的值便可以表明1些难题,大家界定这个值为ti的文本文档频率(document frequency)。

明显,文本文档频率越高,这个词的权重就应当越低。

以便便于测算,常见的会是与文本文档频率成反比的1个量,大家称之为颠倒文本文档频率(inverse document frequency),界定为:

IDFi=lg(M/ki)

这样以来,wi就变为了(哥从在网上找了1个公式)

 

给定某种权重的定量分析设计方案,求文本文档和查寻的有关性就变为了求d和q空间向量的某种间距,最常见的是余弦(cos)间距(这句话坚决不懂,彻底拷贝来的)。

 

尽管说上面的这个优化算法在基础理论上看起来较为废弃物(不考虑到文章内容的意思,将文章内容当做词的结合),可是从实践活动下看来,其使用价值還是获得了广泛的认同(特别是针对上述提到的书籍查找来讲)。

自然,针对现阶段web上这些个良莠不齐的网页页面,仅仅借助td-idf是不足的(很非常容易导致1大堆重要词堆砌的网页页面得到好的排名),这也促使了根据连接关联等1系列优化算法的诞生。

原文详细地址:




新闻资讯

联系方式丨CONTACT

  • 全国热线:18720358503
  • 传真热线:18720358503
  • Q Q咨询:2639601583
  • 企业邮箱:2639601583@qq.com

首页
电话
短信
联系