使用正则表达式提取字符串中的完整句子(包括文字、空格、标点)

时间:2025-02-15 16:25:45

1、3\p{P}:去掉标点符号

2、案例背景:博主想通过看美剧来学习英语,但网上的字幕几乎都是中英双语字幕,所以采用正则表达式将字幕中无用的部分去掉,只保留英语原句。

3、通过正则表达式处理的结果并不能满足我的需求,故采用string中的分割、获取、处理空格等操作再次加工,最终得到我需要的字符串。

4、使用语言:C#

5、关于正则表达式,网上有非常多的介绍和使用说明。但本文主要通过一个实际案例来说明如何使用正则表达式。

6、以上代码每句都有注释,不再多说明。这里只解释正则表达式pattern的意思,这是一个由3个正则合成的表达式,拆分如下:

7、执行以上代码,结果如下:

8、2\s:去掉空格

9、PS:由于1、2、3合成了一个正则表达式,故^对2、3均有效,即保留空格和标点