短文本相似度:Jaro-Winkler 相似度
Jaro-Winkler similarity是由Matthew A. Jaro在1989年提出,William E. Winkler在1990年又进行了改进的算法,用于评估两个序列之间的编辑距离。
对于字符串 和,Jaro相似度的计算公式为:
其中,表示字符串的长度;表示两个字符串的匹配字符数
Jaro-Winkler similarity是由Matthew A. Jaro在1989年提出,William E. Winkler在1990年又进行了改进的算法,用于评估两个序列之间的编辑距离。
对于字符串s1 和s2,Jaro相似度的计算公式为:
simj={031(∣s1∣m+∣s2∣m+mm−t)if m=0otherwise
其中,∣s∣表示字符串s的长度;m表示两个字符串的匹配字符数