A.停止詞、低頻詞 B.主題模型、詞袋模型 C.文分詞、英文分詞 D.詞頻率、逆文文件頻率 E.詞頻率向量、逆頻率向量
A.判定樹 B.支持向量機(jī) C.K均值聚類 D.樸素貝葉斯 E.二叉樹
A.詞頻統(tǒng)計的方法中,對于要將單一主題的文文件從海量的語料庫中發(fā)掘出來是很輕易的,不需要借助額外的技術(shù)來獲取詞頻向量 B.主題模型(topicmodel)是描述語料庫及其中潛在的一類數(shù)字模型,首先考慮到的是如何用數(shù)學(xué)語言去描述一個主題 C.詞頻向量是由所有的詞頻組合在一起,同時,詞頻為該字詞在文本出現(xiàn)的總數(shù)除以文檔中的總詞語數(shù) D.文黨的詞頻、主題的比重、主題的詞頻三者之間的關(guān)系為D(文檔詞頻)=W(主題比重)*T(主題詞頻) E.文本挖掘技術(shù)基本上屬于無監(jiān)督學(xué)習(xí)方法