向量空間數(shù)字模型(VectorSpaceModel):對文檔進(jìn)行簡單說明,在忽略特征項(xiàng)正中間的基本資料后,一個(gè)文本就可以用一個(gè)特征空間向量來說明,也就是特征項(xiàng)室內(nèi)空間設(shè)計(jì)中的一個(gè)點(diǎn);而一個(gè)文本集可以描述成一個(gè)引流方法引流矩陣,也就是特征項(xiàng)室內(nèi)空間設(shè)計(jì)中的一些點(diǎn)的融合。
?相似度(Similarity):相似度Sim(D1,D2)用于考量2個(gè)文檔D1和D2正中間的具體內(nèi)容相關(guān)水準(zhǔn)。當(dāng)文檔被描述為文檔室內(nèi)空間設(shè)計(jì)的空間向量,就可以利用歐式距離,內(nèi)積間隔或余弦距離等空間向量相互之間的間隔計(jì)算方式來說明文檔間的相似度。
在這其中特征挑選是文本說明的關(guān)鍵,方式包括:文檔頻率法(DF),風(fēng)琴包生產(chǎn)廠家信息增益法和互信息法這種。
在做特征挑選之前,一般還必須進(jìn)行數(shù)據(jù)預(yù)處理的工作上,要對先往網(wǎng)頁頁面網(wǎng)頁頁面隔音降噪。除此之外辦公桌收納在實(shí)際的分類中,除了利用文檔的內(nèi)容特征之外,很有可能還會(huì)繼續(xù)堅(jiān)持應(yīng)用實(shí)際使用中所特有的特征,比如在網(wǎng)頁頁面網(wǎng)頁頁面分類中,很有可能使用url的特征,html的結(jié)構(gòu)特征和標(biāo)志特征等信息。分類的關(guān)鍵全過程是這般的:定義分類體系管理,將事前分類過的文檔作為訓(xùn)練集,文具批發(fā)從訓(xùn)練集中獲得分類數(shù)字模型。目前分類蟻群算法重要分下面這類:
在這其中比較普遍的是:svm算法(SVM)方式,質(zhì)樸貝葉斯(NB)方式,神經(jīng)元網(wǎng)絡(luò)(NN)方式,K相鄰(KNN)方式,決策樹算法(DecisionTree)方式等。