1. 分词:由于企业描述是文本信息,需要对文本信息进行特征提取。文本分词可采用Jieba分词:
https://github.com/fxsjy/jieba
http://blog.csdn.net/FontThrone/article/details/72782499
2. 特征提取: 去掉停用词后(stopwords.txt),采用TFIDF作为每个文本的特征描述。
3. 采用KMeans聚类算法,根据第2 步得到特征对企业进行聚类, 尝试K=5,10,15,20,30,..., 50, 并选择合适的度量指标,选择最佳的K。
最近更新:
5年多前