在“File|ProjectStructure|Libraries”窗体中点击绿色+号,选择“Java”,在弹出的窗体中选择“Spark”的安装目录,定位到Spark\jars目录,点击“OK”,把全部jar文件引入到项目中。网上和目前出版的书中讲解是spark2.0以下版本,采用的是把sparkle核心文件(如:“spark-assembly-1.3.0-hadoop2.4.0.jar”)拷贝到InterllijIDEA安装目录下的Lib目录下,再使用Spark。由于Spark2.1.0已经取消了该文件,因此无法用原先的方法。
在eclipse中,依次选择“File”–>“New”–>“Other…”–>“ScalaWizard”–>“ScalaProject”,创建一个Scala工程,并命名为“SparkScala”。右击“SaprkScala”工程,选择“Properties”,在弹出的框中,按照下图所示,依次选择“JavaBuildPath”–>“Libraties”–>“AddExternalJARs…”,导入文章“ApacheSpark:将Spark部署到Hadoop2.2.0上”中给出的assembly/target/scala-2.9.3/目录下的spark-assembly-0.8.1-incubating-hadoop2.2.0.jar,这个jar包也可以自己编译spark生成,放在spark目录下的assembly/target/scala-2.9.3/目录中。