1、Spark 开发环境配置及流程之前已经将集群配置完成(详见 Hadoop2.6.0 搭建过程.doc 和 Spark1.2 搭建过程.doc 文档) ,开发环境中的 JDK,Scala 部分就不介绍了,下面直接介绍我们用的开发工具 Interlij IDEA。为什么选择 Intellij IDEA?因为它更好的支持Scala 项目,目前 Spark 开发团队使用它作为开发环境。1.下载直接到官方网站下载页面下载(http:/ 。有收费的完整版,也有免费的基本版本,收费的网上也有破解方案。2.解压解压到/usr/local,这是因为之前的 Scala 和 Spark 都放这里,也可以根据自己喜好
2、。hadooplenovo0 Downloads$ sudo tar -vxzf ideaIC-14.1.tar.gz -C /usr/local/改个名字,然后授权给 hadoop 用户。hadooplenovo0 local$ cd /usr/local/hadooplenovo0 local$ sudo mv ideaIC-14.1 ideaIC14hadooplenovo0 local$ sudo chown -R hadoop:hadoop ideaIC14/3.启动在解压的文件夹下有个文件介绍怎么打开应用,还有一些设置信息,大家可以看一看:通过 cat 命令可以查看,我只截了一些关
3、键的:根据提示, 我们直接进入到文件夹 bin 目录下执行./idea.sh 即可启动:之后便可以根据 UI 提示界面创建快捷方式,方便下次启动。4.在 IDEA 中安装 Scala 插件在 IDEA 的设置里面,直接搜索“plugins ”,在右边的展开中搜索“scala” ,点击相应的按钮添加插件即可:5.配置 Spark 应用开发环境这里以 SparkPi 程序为例子。5.1 创建 Scala Project,设置名称,JDK 和 Scala 路径:5.2 选择菜单中的“File”“project structure”“Libraries” ,然后点击“+”导入spark-assembl
4、y-1.2.0-hadoop2.4.0.jar。这个 jar 包包含 Spark 的所有依赖包和 Spark 源码。一开始我们下载的 Spark 版本是预编译版本的(见Spark on yarn 搭建过程 ) ,所以这个包可以在解压的 Spark目录下 lib 目录里找到,假如说下载的没有编译的,需要通过 sbt/sbt assembly 命令打包。同样的,假如 IDEA 不能识别 Scala 库,也是用这种方法,路径是 Scala 的安装路径。5.3 现在可以开发 Scala 程序。右键新建一个 scala 类,就可以写程序了。我们直接复制 SparkPi 的代码,这个代码在 Spark 文
5、件 example 目录下可以找到源码:源码实际上是行不通的,要加上我红框标出来的两句话。第一句设置 master 的 ip 和端口,第二句调用 addJar 方法将我们压缩好的 jar 包提交到 Spark 集群(压缩方法在后面介绍)。6.运行 Spark 程序像上面我们编写完代码,有两种方法运行我们的程序,一个是 IDEA 中的 run 方法,另一个是将我们的程序打包成 jar 包,在 Spark 集群上用命令行执行。在集群上运行 Spark 应用 Jar 包:选择“File”“Project Structure”“Artifact” ,单机“+” ,选择“JAR”“From Modules with dependencies”,然后选择 main 函数和 Jar 包的输出路径:在主菜单中选择“Build”“Build Artifact ”编译生成 Jar 包。最后到 jar 包的目录下执行 java -jar SparkTest.jar 即可。Run 方法:在 IDEA 菜单中选择 “Run”“ Edit Configurations”出现如下界面:点左上角的“+” ,选择“Application” ,在右边的拓展中改一下 name,选择 Main函数:然后点击右上角的绿色运行箭头即可:以上介绍了整个 Spark 应用开发流程以及如何编译调试程序。