很奇怪的字节串。无法使用 Python 转换为 str

Question

这段代码几周前运行良好。但是有些事情发生了变化。

我从网站下载数据。

txt = urlopen(url, timeout=60).readlines()
for line in txt:
    print(line.strip().decode("utf-8"))

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte

print (txt) 给我：

[b'\xc0\xe2\xf2\xee\xec\xe0\xf2\xe8\xf7\xe5\xf1\xea\xe0\xff \xe7\xe0\xe3\xf0\xf3\xe7\xea\xe0 \xed\xe5\xe4\xee\xf1\xf2\xf3\xef\xed\xe0']

我试图用在线转换器识别这个字节串，但他们做不到。

可能这很重要。此代码从

下载股票市场报价

https://www.finam.ru/profile/moex-akcii/nlmk-ao/export/?market=1

在它的帮助下，我更早收到了这样的台词

NLMK,D,20200103,000000,143.9800000,144.7400000,143.3000000,144.5000000,4578730 NLMK,D,20200106,000000,144.4800000,144.4800000,140.8800000,141.9400000,6600390 NLMK,D,20200108,000000,139.0000000,139.5000000,137.8000000,139.5000000,9260390 NLMK,D,20200109,000000,139.2000000,143.6000000,139.2000000,141.9600000,10108630 NLMK,D,20200110,000000,142.5400000,145.1200000,140.8000000,143.6200000,9444490 NLMK,D,20200113,000000,143.7000000,146.9800000,142.4800000,146.8400000,7138040

Answer 1

如果您看过页面源代码，您会注意到：

<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />

此页面根本不是 UTF-8 格式……如果您使用 Windows-1251 解码该字节串，您将得到一个字符串：Автоматическая загрузка недоступна。从你的名字我猜你应该懂俄语......

很奇怪的字节串。无法使用 Python 转换为 str

Very strange byte string. Cannot convert to str using Python

python

byte