TIKA - 环境


本章将带您完成在 Windows 和 Linux 上设置 Apache Tika 的过程。安装 Apache Tika 时需要进行用户管理。

系统要求

JDK Java SE 2 JDK 1.6 或更高版本
记忆 1 GB RAM(推荐)
磁盘空间 无最低要求
操作系统版本 Windows XP或以上、Linux

第 1 步:验证 Java 安装

要验证 Java 安装,请打开控制台并执行以下java命令。

操作系统 任务 命令
Windows 打开命令控制台 \>java –版本
Linux 打开命令终端 $java –版本

如果 Java 已正确安装在您的系统上,那么您应该获得以下输出之一,具体取决于您正在使用的平台。

操作系统 输出
Windows

Java版本“1.7.0_60”

Java (TM) SE 运行时环境(内部版本 1.7.0_60-b19)

Java Hotspot (TM) 64 位服务器 VM(内部版本 24.60-b09,混合模式)

卢尼克斯

java版本“1.7.0_25”

打开JDK运行环境(rhel-2.3.10.4.el6_4-x86_64)

打开 JDK 64 位服务器 VM(内部版本 23.7-b01,混合模式)

第二步:设置Java环境

设置 JAVA_HOME 环境变量以指向计算机上安装 Java 的基本目录位置。例如,

操作系统 输出
Windows 将环境变量 JAVA_HOME 设置为 C:\ProgramFiles\java\jdk1.7.0_60
Linux 导出 JAVA_HOME = /usr/local/java-current

将 Java 编译器位置的完整路径附加到系统路径。

操作系统 输出
Windows 追加字符串;C:\Program Files\Java\jdk1.7.0_60\bin 到系统变量 PATH 的末尾。
Linux 导出路径 = $PATH:$JAVA_HOME/bin/

如上所述,从命令提示符验证命令 java-version。

步骤 3:设置 Apache Tika 环境

程序员可以使用以下命令将 Apache Tika 集成到他们的环境中

  • 命令行,
  • 蒂卡API,
  • Tika 的命令行界面 (CLI),
  • Tika 的图形用户界面 (GUI),或
  • 源代码。

对于任何这些方法,首先,您必须下载 Tika 的源代码。

您可以在 https://Tika.apache.org/download.html 找到 Tika 的源代码其中您可以找到两个链接 -

  • apache-tika-1.6-src.zip - 它包含 Tika 的源代码,以及

  • Tika -app-1.6.jar - 这是一个包含 Tika 应用程序的 jar 文件。

下载这两个文件。Tika官网截图如下所示。

蒂卡环境

下载文件后,设置 jar 文件tika-app-1.6.jar的类路径。添加jar文件的完整路径,如下表所示。

操作系统 输出
Windows 将字符串“C:\jars\Tika-app-1.6.jar”附加到用户环境变量 CLASSPATH
Linux

导出 CLASSPATH = $CLASSPATH -

/usr/share/jars/Tika-app-1.6.tar -

Apache 提供了 Tika 应用程序,这是一个使用 Eclipse 的图形用户界面 (GUI) 应用程序。

Tika-Maven 使用 Eclipse 构建

m2e 发布
  • 选择最新版本并将 url 的路径保存在 p2 url 列中。

  • 现在重新访问 eclipse,在菜单栏中单击Help,然后从下拉菜单中选择Install New Software

蚀
  • 单击“添加”按钮,输入任何所需的名称(因为它是可选的)。现在将保存的 URL 粘贴到“位置”字段中。

  • 将添加一个新插件,其名称为您在上一步中选择的名称,选中其前面的复选框,然后单击“下一步”

安装
  • 继续安装。完成后,重新启动 Eclipse。

  • 现在右键单击该项目,然后在配置选项中选择“转换为maven项目”

  • 将出现一个用于创建新 pom 的新向导。输入 Group Id 为 org.apache.tika,输入最新版本的 Tika,选择打包jar,然后单击Finish

Maven项目已成功安装,并且您的项目已转换为Maven。现在您必须配置 pom.xml 文件。

配置 XML 文件

从https://mvnrepository.com/artifact/org.apache.tika获取 Tika maven 依赖项

下图是 Apache Tika 的完整 Maven 依赖关系。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6< /version>

   < groupId>org.apache.Tika< /groupId>
   < artifactId>Tika-app< /artifactId>
   < version>1.6< /version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>