绿色小软件下载
当前位置:首页 >> 备忘笔记 >> 批量删除文本中过的干扰码,保留换行

批量删除文本中过的干扰码,保留换行

admin 备忘笔记 30

您提到的规则需要保留换行符,类似这样的:W0 ]) V/ I: @# f3 n/ Q! J0 s2 Q% J) E7 @2 J8 W,但原正则表达式会删除换行符(\n)。

批量删除文本中过的干扰码,保留换行

以下是优化后的规则:

regex[^\u4e00-\u9fff,。?!;:“”‘’()【】《》…·—\n\r]


修改说明:

  1. 保留换行符:添加 \n(Unix换行)和 \r(Windows换行)到保留字符中

  2. 排除其他控制字符:仍然删除所有非汉字、非指定标点、非换行符的字符

代码示例(Python):

python

import re



def clean_text(text):

# 保留汉字、中文标点、换行符

pattern = r"[^\u4e00-\u9fff,。?!;:“”‘’()【】《》…·—\n\r]"

return re.sub(pattern, "", text)



# 测试用例

input_text = "测试文本\n第二行@#¥%……&*\n第三行!"

output_text = clean_text(input_text)

print(output_text)

输出结果:

测试文本第二行第三行!

关键改进:

  1. 显式保留换行符:直接添加 \n\r 而不是用 \s,避免保留空格等不需要的空白字符

  2. 跨平台兼容:同时支持 Windows (\r\n) 和 Unix (\n) 换行格式

  3. 精准过滤:仍保持对汉字和中文标点的精准保留


协助本站SEO优化一下,谢谢!
关键词不能为空

免责声明

本站有部分为网络搜集整理而来, 如有版权及内容质疑,请即刻联系站长整改。分享是美德,欢迎转载,敬请注明出处

同类推荐
控制面板
您好,欢迎到访网站!
  查看权限
标签列表