Python Tweepy 编码 (utf-8)
Python Tweepy Encode(utf-8)
在使用 tweepy 的过程中,我开始了解 encode(utf-8)。我相信 utf-8 编码仅用于显示英文推文,我在这方面是否正确,因为我想制作仅用英文编写的推文数据集,因此我可以处理 NLP
的推文
不,UTF-8 是一种编码 Unicode 内容的机制。这意味着它支持绝大多数人类语言的几乎所有脚本。
你不对。
Unicode 是一组字符,旨在涵盖世界上每种语言和书写系统所需的一切1(加上数学符号等技术内容)。
它不仅仅用于英语。事实上,恰恰相反:在 Unicode 出现之前,处理非英文文本非常痛苦,而 Unicode 是每个人针对该问题提出的解决方案。
UTF-8 是一种在二进制流中编码 Unicode 字符的方法。这不是 Tweepy 特有的;它现在几乎是普遍的,作为将文本(以任何语言)编码到磁盘、网络等的默认方式
在 Python 中,s.encode('utf-8')
采用 Unicode 字符串 s
,使用 UTF-8 对其进行编码,并 returns 原始字节。如果您在某处使用二进制文件、网络协议或 API,则只需调用 encode
。通常情况下,你只是以文本模式打开文本文件并读写 Unicode 字符串,而你的 print
s 和 input
s 和 sys.argv
等也是 Unicode 字符串,当你得到网络上的一些 JSON 数据,您只需 json.loads
它和所有字符串都是 Unicode,依此类推。
官方 Python Unicode HOWTO 解释了更多的历史、背景和幕后细节。如果您使用的是 Python 3.4 或 2.7 或其他版本,您肯定需要阅读它。如果您使用的是当前 Python,它不是必需的,但它仍然是一种有用的教育。
1.有一些团体对 Unicode 的某些部分不满意,主要是因为强制所有 CJK 语言共享相同的替代字符概念。因此,如果您有一个不寻常的日本姓氏,您可能会坚持认为 Unicode 并不能真正处理所有语言和书写系统。但显然打算这样做——而且绝对不打算只用英语。
在使用 tweepy 的过程中,我开始了解 encode(utf-8)。我相信 utf-8 编码仅用于显示英文推文,我在这方面是否正确,因为我想制作仅用英文编写的推文数据集,因此我可以处理 NLP
的推文不,UTF-8 是一种编码 Unicode 内容的机制。这意味着它支持绝大多数人类语言的几乎所有脚本。
你不对。
Unicode 是一组字符,旨在涵盖世界上每种语言和书写系统所需的一切1(加上数学符号等技术内容)。
它不仅仅用于英语。事实上,恰恰相反:在 Unicode 出现之前,处理非英文文本非常痛苦,而 Unicode 是每个人针对该问题提出的解决方案。
UTF-8 是一种在二进制流中编码 Unicode 字符的方法。这不是 Tweepy 特有的;它现在几乎是普遍的,作为将文本(以任何语言)编码到磁盘、网络等的默认方式
在 Python 中,s.encode('utf-8')
采用 Unicode 字符串 s
,使用 UTF-8 对其进行编码,并 returns 原始字节。如果您在某处使用二进制文件、网络协议或 API,则只需调用 encode
。通常情况下,你只是以文本模式打开文本文件并读写 Unicode 字符串,而你的 print
s 和 input
s 和 sys.argv
等也是 Unicode 字符串,当你得到网络上的一些 JSON 数据,您只需 json.loads
它和所有字符串都是 Unicode,依此类推。
官方 Python Unicode HOWTO 解释了更多的历史、背景和幕后细节。如果您使用的是 Python 3.4 或 2.7 或其他版本,您肯定需要阅读它。如果您使用的是当前 Python,它不是必需的,但它仍然是一种有用的教育。
1.有一些团体对 Unicode 的某些部分不满意,主要是因为强制所有 CJK 语言共享相同的替代字符概念。因此,如果您有一个不寻常的日本姓氏,您可能会坚持认为 Unicode 并不能真正处理所有语言和书写系统。但显然打算这样做——而且绝对不打算只用英语。