向量空間實(shí)體模型(VectorSpaceModel):對(duì)文檔開(kāi)展簡(jiǎn)單化表明,在忽視特征項(xiàng)中間的基本信息后,一個(gè)文字就可以用一個(gè)特征空間向量來(lái)表明,也就是特征項(xiàng)室內(nèi)空間中的一個(gè)點(diǎn);而一個(gè)文字集能夠表述成一個(gè)引流矩陣,也就是特征項(xiàng)室內(nèi)空間中的一些點(diǎn)的結(jié)合。
?相似性(Similarity):相似性Sim(D1,D2)用以衡量2個(gè)文檔D1和D2中間的主要內(nèi)容有關(guān)水平。當(dāng)文檔被表述為文檔室內(nèi)空間的空間向量,就可以利用歐式距離,內(nèi)積間距或余弦距離等空間向量相互間的間距計(jì)算方法來(lái)表明文檔間的相似性。
在其中特征選擇是文字表明的重要,方式包含:文檔頻率法(DF),風(fēng)琴包廠家信息增益法和互信息法這些。
在做特征選擇以前,一般還需要開(kāi)展數(shù)據(jù)預(yù)處理的工作中,要對(duì)先向網(wǎng)頁(yè)頁(yè)面減噪。此外在具體的分類(lèi)中,除開(kāi)利用文檔的內(nèi)容特征以外,很有可能還會(huì)繼續(xù)使用具體運(yùn)用中所獨(dú)有的特征,例如在網(wǎng)頁(yè)頁(yè)面分類(lèi)中,很有可能使用url的特征,html的構(gòu)造特征和標(biāo)識(shí)特征等信息內(nèi)容。
分類(lèi)的主要過(guò)程是如此的:界定分類(lèi)管理體系,將事先分類(lèi)過(guò)的文檔做為訓(xùn)練集,文具批發(fā)從訓(xùn)煉集中化得到分類(lèi)實(shí)體模型,隨后用練習(xí)得到出的分類(lèi)實(shí)體模型對(duì)其他文檔多方面分類(lèi)。文檔全自動(dòng)分類(lèi)是學(xué)術(shù)界科學(xué)研究很多年,文件分類(lèi)技術(shù)性上較為完善的一個(gè)行業(yè)?,F(xiàn)階段分類(lèi)優(yōu)化算法關(guān)鍵分下邊這種:
在其中較為常見(jiàn)的是:svm算法(SVM)方式,樸素貝葉斯(NB)方式,神經(jīng)元網(wǎng)絡(luò)(NN)方式,K鄰近(KNN)方式,決策樹(shù)算法(DecisionTree)方式等。