博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python文本处理——中文标点符号处理
阅读量:6756 次
发布时间:2019-06-26

本文共 1754 字,大约阅读时间需要 5 分钟。

中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法,如有更好的工具,请推荐补充。

  1. 中文标点集合
    比较常见标点有这些:
    !?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.
    调用的zhon.hanzi.punctuation函数即可得到这些中文标点。
    如果想用英文的标点,则可调用string包的string.punctuation函数可得到: !"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~
    因此,比如需要将所有标点符号去除,可以进行以下操作:
>>> import re>>> from zhon.hanzo import punctuation>>> line = "测试。。去除标点。。">>> print re.sub(ur"[%s]+" %punctuation, "", line.decode("utf-8")) # 需要将str转换为unicode测试去除标点>>> print re.sub(ur"[%s]+" %punctuation, "", line) #将不会发生替换测试。。去除标点。。

当然,如果想去除重复的符号而只保留一个,那么可以用\1指明:比如

>>> re.sub(ur"([%s])+" %punctuation, r"\1", line.decode("utf-8"))

如果不是用的zhon包提供的已经是unicode码的标点集,而是自己定义,那么请不要忘了转换成unicode码:

punc = "!?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏."punc = punc.decode("utf-8")
  1. 直接指明标点的unicode码范围
    所有字符的unicode编码可以参考。
    大部分标点分布在以下几个范围:
Basic Latin: u'\u0020' - u'\007f'general punctuation: u'\u2000' - u'\u206f'CJK Symbols and Punctuation: u'\u3000' - u'\u303f'halfwidth and fulllwidth forms: u'\uff00' - u'\uffef'

在用u'\u0020-\u007f\u2000-\u206f\u3000-\u303f\uff00-uffef'替换punctuation就能实现上述操作。

PS:中文常用字符的范围是u'\u4e00' - u'\u9fff'匹配所以中文可以这样:

re.findall(ur"\u4e00-\u9fff", line)

小结:

  1. 基本标点符号的处理和上中文的文本处理一样需要转换成unicode码,而且需要注意的是中文的格式比较多,每种格式对应的unicode码都是不同的,比如半角和全角的符号就是不同的unicode码。
  2. 由于标点符号在断句以及情感语气判断时比较重要,尤其是在网络短文本上尤其如此。在断句的时候可以在固定的full stop符号(!?。)基础上自己添加诸如~和,等获得自己想要的分句;而在情感分析的时候获取诸如!?...等符号的连续出现的长度可用于判断当前的语气强度。

参考:

  1. http://stackoverflow.com/questions/2718196/find-all-chinese-text-in-a-string-using-python-and-regex
  2. http://stackoverflow.com/questions/1366068/whats-the-complete-range-for-chinese-characters-in-unicode
  3. http://zhon.readthedocs.io/en/latest/#

转载于:https://www.cnblogs.com/arkenstone/p/6092255.html

你可能感兴趣的文章
HAOI 树上操作
查看>>
深刻理解Python中的元类(metaclass)以及元类实现单例模式
查看>>
java随机生成n个不相同的整数
查看>>
DIV+CSS基础
查看>>
使用JS完成首页定时弹出广告图片
查看>>
codeforces 500c New Year Book Reading 【思维】
查看>>
Auto reloading enabled
查看>>
GitHub的使用方法
查看>>
AT3576 Popping Balls
查看>>
springboot入门_多数据源
查看>>
如果一个游戏上面加一个透明层,js能不能实现 点击透明层的任意点 而正常玩游戏...
查看>>
图的m着色问题
查看>>
oracle 查询char类型的数据
查看>>
Vue项目碰到"‘webpack-dev-server’不是内部或外部命令,也不是可运行的程序或批处理文件"报错...
查看>>
Android zxing扫描二维码 为什么有些机型扫描不出来或者很慢?
查看>>
SQLHelp sql数据库的DAL
查看>>
进阶第二课 Python内置函数(补)及自定义函数
查看>>
《王者荣耀》的英雄是怎么诞生的?有没有最厉害的英雄?
查看>>
公司常用几种请求
查看>>
python3 字符串格式化
查看>>