为什么我的字符串在输出到 CSV 时上限为 32,758 个字符?
Why is my string capped at 32,758 characters when outputting to CSV?
我是 运行 一个 Python 2.7.12 程序来处理大量数据,我创建的其中一个字符串存储了大量数据,但我注意到它被限制了当我将字符串输出为 CSV 时为 32,758 个字符。
我 运行 我的脚本在 Ubuntu-16.04 VM 上的开发服务器上,可以访问 20GB RAM
为什么我的其中一个字符串的上限为 32,758?是否有解决此问题的方法或方法,以便我能够在我的字符串中存储更多内容?
import os
import pdfkit
import re
import requests
import urllib2
#pdfminer
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
#Opening my files
#with open("GoodData.csv", 'w') as output: this does the same thing as what I have currently
output = open("GoodData.csv", 'w')
output.write("Company|Classification|ID Number|Incorporation State/Country|Address|Link to Metadata|Link to Data|Data" + '\n')
count = 0
counter = 0
archive = open("archive.txt", 'w')
qwerty = open("ProblemLinks.txt", 'r')
for item in qwerty:
#for item in linkList:
print(" ")
print("Number of documents parsed: " + str(count))
#This loop is for testing, to go to a specific link
if counter == 0:
#So I get the links out of this
meta = metaData(item)
pdfkit.from_url(meta[0], 'out.pdf')
file = "/home/project/out.pdf"
holder = convert_pdf_to_txt(file)
if holder == None:
output.write(''.join(['|'.join([str(meta[3]), str(meta[1]), str(meta[2]), str(meta[4]), str(meta[5]), str(item).rstrip(), str(meta[0]), "No risk data found"]), '\n']))
else:
output.write(''.join(['|'.join([str(meta[3]), str(meta[1]), str(meta[2]), str(meta[4]), str(meta[5]), str(item).rstrip(), str(meta[0]), holder]), '\n']))
count = count + 1
else:
counter = counter + 1
我能够在解析完成之前打印 holder
,整个文档都存储在那里。
好吧,我明白了。
这与我如何输出文件无关,也与我的代码无关,它的 Excels 错误
显然,当我将 CSV 文件加载到 excel sheet 时,它会将字符串剪切为 32 位字符串。
我是 运行 一个 Python 2.7.12 程序来处理大量数据,我创建的其中一个字符串存储了大量数据,但我注意到它被限制了当我将字符串输出为 CSV 时为 32,758 个字符。
我 运行 我的脚本在 Ubuntu-16.04 VM 上的开发服务器上,可以访问 20GB RAM
为什么我的其中一个字符串的上限为 32,758?是否有解决此问题的方法或方法,以便我能够在我的字符串中存储更多内容?
import os
import pdfkit
import re
import requests
import urllib2
#pdfminer
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
#Opening my files
#with open("GoodData.csv", 'w') as output: this does the same thing as what I have currently
output = open("GoodData.csv", 'w')
output.write("Company|Classification|ID Number|Incorporation State/Country|Address|Link to Metadata|Link to Data|Data" + '\n')
count = 0
counter = 0
archive = open("archive.txt", 'w')
qwerty = open("ProblemLinks.txt", 'r')
for item in qwerty:
#for item in linkList:
print(" ")
print("Number of documents parsed: " + str(count))
#This loop is for testing, to go to a specific link
if counter == 0:
#So I get the links out of this
meta = metaData(item)
pdfkit.from_url(meta[0], 'out.pdf')
file = "/home/project/out.pdf"
holder = convert_pdf_to_txt(file)
if holder == None:
output.write(''.join(['|'.join([str(meta[3]), str(meta[1]), str(meta[2]), str(meta[4]), str(meta[5]), str(item).rstrip(), str(meta[0]), "No risk data found"]), '\n']))
else:
output.write(''.join(['|'.join([str(meta[3]), str(meta[1]), str(meta[2]), str(meta[4]), str(meta[5]), str(item).rstrip(), str(meta[0]), holder]), '\n']))
count = count + 1
else:
counter = counter + 1
我能够在解析完成之前打印 holder
,整个文档都存储在那里。
好吧,我明白了。
这与我如何输出文件无关,也与我的代码无关,它的 Excels 错误
显然,当我将 CSV 文件加载到 excel sheet 时,它会将字符串剪切为 32 位字符串。