Stanford NLP 专用服务器最大字符数限制
Stanford NLP Dedicated Server Max Character Limit
我正在尝试创建一个关键字提取器,它在工作中遍历一些文档并获取所有主要关键字。对于我的大部分文档,它都很好用,因为它们是电子邮件或小文档,但我开始收到很多超时的文档。
为了解决超时问题,我认为我可以只使用句子拆分注释器来构建一个句子列表,然后一次发送合适数量的句子。这个想法的唯一问题是服务器告诉我它只能接受 100000 个字符。
我正在使用服务器 API。我怎样才能更新服务器以获取更多字符或最多只获取字符串的 100000 个字符而不丢失任何信息或句子的完整性(例如,不在最后切断半个句子)?
注意:(如何解决 StanfordNLP 服务器的 100K 字符限制?
) 对我不起作用。我相信它与旧版本有关。无论哪种方式,我都尝试将 -maxCharLength -1
添加到我的启动脚本,但它没有做任何事情。
我的启动脚本目前是
java -mx8g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 36000 -quiet true
pause
如果您只是将 maxCharLength 设置为一个非常大的数字并且使用的是 Stanford CoreNLP 3.9.2,它应该绝对有效。我对此进行了测试,并标记了一个包含 220000 个字符的文档。我认为“-1”在命令行 运行 时会导致问题。
我正在尝试创建一个关键字提取器,它在工作中遍历一些文档并获取所有主要关键字。对于我的大部分文档,它都很好用,因为它们是电子邮件或小文档,但我开始收到很多超时的文档。
为了解决超时问题,我认为我可以只使用句子拆分注释器来构建一个句子列表,然后一次发送合适数量的句子。这个想法的唯一问题是服务器告诉我它只能接受 100000 个字符。
我正在使用服务器 API。我怎样才能更新服务器以获取更多字符或最多只获取字符串的 100000 个字符而不丢失任何信息或句子的完整性(例如,不在最后切断半个句子)?
注意:-maxCharLength -1
添加到我的启动脚本,但它没有做任何事情。
我的启动脚本目前是
java -mx8g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 36000 -quiet true
pause
如果您只是将 maxCharLength 设置为一个非常大的数字并且使用的是 Stanford CoreNLP 3.9.2,它应该绝对有效。我对此进行了测试,并标记了一个包含 220000 个字符的文档。我认为“-1”在命令行 运行 时会导致问题。