同一个空格不同sentence/string
Spaces are different in the same sentence/string
我在 Excel 电子表格中有一些内容,该电子表格已加载到显示内容的网页中。然而,我注意到的是,某些内容的格式很奇怪,即突然换行之类的。
然后我只是尝试从电子表格中复制文本,并将其粘贴到 Notepad++ 中,并启用“显示白色 Space 和 Tab”,然后输出是这样的:
第二行是直接从电子表格中复制出来的,第一行就是我把字符串复制到Python中的一个变量中,打印出来,然后从输出控制台复制输出.
正如您所见,第一行包含 space 的所有点,而另一行遗漏了一些点。而且我有一个想法,那就是做这个诡计的原因,特别是因为它是在那些地方发生换行的。
我试过做类似的事情:
import pandas as pd
data = pd.read_excel("my_spreadsheet.xlsx")
data["Strings"] = [str(x).replace(" ", " ") for x in data["Strings"]]
data.to_excel("my_spreadsheet.xlsx", index=False)
但这并没有改变任何东西,就好像我直接从输出控制台复制它一样。
所以,有什么简单的方法可以使 space 与 space 相同类型,还是我必须做其他事情?
我认为您需要弄清楚那里使用的是哪个字符。
你可以加载文件,把字符一个一个打印出来,连同字符编码,就知道是什么了。
参见下面的代码示例。我添加了一些代码来跳过字母数字字符以稍微减少实际输出...
with open("filename.txt") as infile:
text = infile.readlines()
def print_ordinal(text: str, skip_alphanum: bool=True):
for line in text:
for character in line:
if not(skip_alphanum and character.isalnum()):
print(f"{character} - {ord(character)}")
print_ordinal(text)
我在 Excel 电子表格中有一些内容,该电子表格已加载到显示内容的网页中。然而,我注意到的是,某些内容的格式很奇怪,即突然换行之类的。
然后我只是尝试从电子表格中复制文本,并将其粘贴到 Notepad++ 中,并启用“显示白色 Space 和 Tab”,然后输出是这样的:
第二行是直接从电子表格中复制出来的,第一行就是我把字符串复制到Python中的一个变量中,打印出来,然后从输出控制台复制输出.
正如您所见,第一行包含 space 的所有点,而另一行遗漏了一些点。而且我有一个想法,那就是做这个诡计的原因,特别是因为它是在那些地方发生换行的。
我试过做类似的事情:
import pandas as pd
data = pd.read_excel("my_spreadsheet.xlsx")
data["Strings"] = [str(x).replace(" ", " ") for x in data["Strings"]]
data.to_excel("my_spreadsheet.xlsx", index=False)
但这并没有改变任何东西,就好像我直接从输出控制台复制它一样。
所以,有什么简单的方法可以使 space 与 space 相同类型,还是我必须做其他事情?
我认为您需要弄清楚那里使用的是哪个字符。
你可以加载文件,把字符一个一个打印出来,连同字符编码,就知道是什么了。
参见下面的代码示例。我添加了一些代码来跳过字母数字字符以稍微减少实际输出...
with open("filename.txt") as infile:
text = infile.readlines()
def print_ordinal(text: str, skip_alphanum: bool=True):
for line in text:
for character in line:
if not(skip_alphanum and character.isalnum()):
print(f"{character} - {ord(character)}")
print_ordinal(text)