首页 > 常见问答

python文本挖掘 python怎样读取文本文件里的中文?

python怎样读取文本文件里的中文?

#在windows环境中

导入系统

重新加载(系统)sys.setdefaultencoding系统(“utf-8”)

导入re

python文本挖掘 python怎样读取文本文件里的中文?

fin=打开(”在.txt中“,”r“)”通过读取打开输入文件

对于fin中的每一行:”通过行读取文件内容

行=每条线.strip().解码(“gbk”,“utf-8”),在处理前进行相关处理,包括转换为unicode等

打印行#打印原始字符

p2=重新编译(ur“[^1-龥]”)中文的编码范围是:从“1到”

zh=“”。连接(p2。拆分(行))。条带()]谝zh=“,”(zh.拆分())

printzh#printchinesecharacters

关于正则匹配的一些基本知识,请看我的关于学习正则表达式的博客

~];-*-编码:utf-8-*-这句话是告诉python程序中的文本是utf-8编码,这样python就可以根据utf-8来读取程序。在程序之前添加u是为了告诉python以下是unicode编码,它以unicode格式存储。

python文本挖掘python读取文本文件python中文文本分析

原文标题:python文本挖掘 python怎样读取文本文件里的中文?,如若转载,请注明出处:https://www.saibowen.com/wenda/22347.html
免责声明:此资讯系转载自合作媒体或互联网其它网站,「赛伯温」登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。