短文本相似度:Jaro-Winkler 相似度

Jaro-Winkler similarity是由Matthew A. Jaro在1989年提出,William E. Winkler在1990年又进行了改进的算法,用于评估两个序列之间的编辑距离。

对于字符串s1s1s2s2,Jaro相似度的计算公式为:

simj={0if m=013(ms1+ms2+mtm)otherwisesim_j = \begin{cases} 0 &\text{if } m=0 \\ \frac{1}{3}\left( \frac{m}{|s_1|} + \frac{m}{|s_2|} + \frac{m-t}{m} \right) &\text{otherwise}\\ \end{cases}

其中,s|s|表示字符串ss的长度;mm表示两个字符串的匹配字符数