最近研究Resys challenge 2018时,发现大部分KNN算法的改进基础都是IDF和余弦相似度的度量,确实这是前深度学习时代寻找相似文章的主流方法,干脆就详细解析一下TFIDF和余弦相似度的计算和应用。