正则表达式与西里尔字母

我有一个jQuery函数用于textarea字段中的字数统计。 此外,它排除了所有单词,这些单词在[[[tripple bracket]]]中关闭。 它适用于拉丁字符,但它有西里尔语句子的问题。 我想这个错误部分与正则表达式有关:

$(field).val().replace(/\[\[\[[^\]]*\]\]\]/g, '').match(/\b/g); 

两种短语的示例: http : //jsfiddle.net/A3cEG/2/

我需要统计所有的单词,包括cirillic表达式,而不仅仅是拉丁语中的单词。 怎么做?

JavaScript(至少是最广泛使用的版本)不完全支持Unicode。 也就是说, \w仅匹配拉丁字母,十进制数字和下划线( [a-zA-Z0-9_] ), \b匹配单词字符和非单词字符之间的边界。

要使用Latin或Cyrillic查找输入字符串中的所有单词,您必须执行以下操作:

 .match(/[\wа-я]+/ig); // where а is the Cyrillic а. 

或者如果您愿意:

 .match(/[\w\u0430-\u044f]+/ig); 

当然,这可能意味着您需要稍微调整一下代码,因为这里它将匹配所有单词而不是单词边界。 请注意, [а-я]匹配“基本西里尔字母”中的任何字母,如此处所述。 要匹配此范围之外的字母,您可以根据需要修改字符集以包含这些字母,例如也匹配俄语Ё/ё,使用[а-яё]

另请注意,您的三支架模式可以简化为:

 .replace(/\[{3}[^]]*]{3}/g, '') 

或者,您可能希望查看XRegExp项目 – 这是一个开源项目,用于向基本JavaScript正则表达式引擎及其Unicode插件添加新function。