短文本相似度:Jaro-Winkler 相似度
Jaro-Winkler similarity 是由 Matthew A. Jaro 在 1989 年提出,William E. Winkler 在 1990 年又进行了改进的算法,用于评估两个序列之间的编辑距离。
对于字符串 和,Jaro 相似度的计算公式为:
其中,表示字符串的长度;表示两个字符串的匹配字符数
Jaro-Winkler similarity 是由 Matthew A. Jaro 在 1989 年提出,William E. Winkler 在 1990 年又进行了改进的算法,用于评估两个序列之间的编辑距离。
对于字符串s1 和s2,Jaro 相似度的计算公式为:
simj={031(∣s1∣m+∣s2∣m+mm−t)if m=0otherwise
其中,∣s∣表示字符串s的长度;m表示两个字符串的匹配字符数