如何使用 tika 1.6 获取文本内容文件?
How to get the text content files with tika 1.6?
您好,我尝试从此列表中的任何文件中获取文本内容 pdf、txt、doc、docx 和 odt
tika 的实现以前工作正常但现在坏了,
代码是:
```
public void uploadFile(FileUploadEvent event) throws Exception {
UploadedFile file = event.getUploadedFile();
byte[] data = file.getData();
Tika tika = new Tika();
string = tika.parseToString(new ByteArrayInputStream(data));
...
}
```
有什么想法吗? , 实施不当 ?
您需要添加 tika-parsers。
例如,使用 Maven 将此依赖项添加到您的 pom.xml:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.7</version>
</dependency>
并且您可以使用自动检测解析器:
BodyContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
parser.parse(is, handler, metadata);
text = handler.toString();
} catch(TikaException te) {
System.out.println(te.toString());
} finally {
is.close();
}
您好,我尝试从此列表中的任何文件中获取文本内容 pdf、txt、doc、docx 和 odt tika 的实现以前工作正常但现在坏了, 代码是:
```
public void uploadFile(FileUploadEvent event) throws Exception {
UploadedFile file = event.getUploadedFile();
byte[] data = file.getData();
Tika tika = new Tika();
string = tika.parseToString(new ByteArrayInputStream(data));
...
}
```
有什么想法吗? , 实施不当 ?
您需要添加 tika-parsers。
例如,使用 Maven 将此依赖项添加到您的 pom.xml:
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.7</version>
</dependency>
并且您可以使用自动检测解析器:
BodyContentHandler handler = new BodyContentHandler();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
parser.parse(is, handler, metadata);
text = handler.toString();
} catch(TikaException te) {
System.out.println(te.toString());
} finally {
is.close();
}