1.如何在windows安装部署spark 求大神们的告知
本节介绍在Windows系统上安装Spark的过程。在Windows环境下需要安装Cygwin模拟Linux的命令行环境来安装Spark。(1)安装JDK
相对于Linux、Windows的JDK安装更加自动化,用户可以下载安装Oracle JDK或者OpenJDK。只安装JRE是不够的,用户应该下载整个JDK。
安装过程十分简单,运行二进制可执行文件即可,程序会自动配置环境变量。
(2)安装Cygwin
Cygwin是在Windows平台下模拟Linux环境的一个非常有用的工具,只有通过它才可以在Windows环境下安装Hadoop和Spark。具体安装步骤如下。
1)运行安装程序,选择install from internet。
2)选择网络最好的下载源进行下载。
3)进入Select Packages界面,然后进入Net,选择openssl及openssh。因为之后还是会用到ssh无密钥登录的。
另外应该安装“Editors Category”下面的“vim”。这样就可以在Cygwin上方便地修改配置文件。
最后需要配置环境变量,依次选择“我的电脑”→“属性”→“高级系统设置”→“环境变量”命令,更新环境变量中的path设置,在其后添加Cygwin的bin目录和Cygwin的usr\bin两个目录。
(3)安装sshd并配置免密码登录
1)双击桌面上的Cygwin图标,启动Cygwin,执行ssh-host-config -y命令,出现如图2-3所示的界面。
2)执行后,提示输入密码,否则会退出该配置,此时输入密码和确认密码,按回车键。最后出现Host configuration finished.Have fun!表示安装成功。
3)输入net start sshd,启动服务。或者在系统的服务中找到并启动Cygwin sshd服务。
注意,如果是Windows 8操作系统,启动Cygwin时,需要以管理员身份运行(右击图标,选择以管理员身份运行),否则会因为权限问题,提示“发生系统错误5”。
(4)配置SSH免密码登录
1)执行ssh-keygen命令生成密钥文件
2)执行此命令后,在你的Cygwin\home\用户名路径下面会生成.ssh文件夹,可以通过命令ls -a /home/用户名 查看,通过ssh -version命令查看版本。
3)执行完ssh-keygen命令后,再执行下面命令,生成authorized_keys文件。
cd ~/.ssh/ cp id_dsa.pub authorized_keys
这样就配置好了sshd服务。
(5)配置Hadoop
修改和配置相关文件与Linux的配置一致,读者可以参照上文Linux中的配置方式,这里不再赘述。
(6)配置Spark
修改和配置相关文件与Linux的配置一致,读者可以参照上文Linux中的配置方式,这里不再赘述。
(7)运行Spark
1)Spark的启动与关闭
①在Spark根目录启动Spark。
./sbin/start-all.sh
②关闭Spark。
./sbin/stop-all.sh
2)Hadoop的启动与关闭
①在Hadoop根目录启动Hadoop。
./sbin/start-all.sh
②关闭Hadoop。
./sbin/stop-all.sh
3)检测是否安装成功
正常状态下会出现如下内容。
-bash-4.1# jps 23526 Jps 2127 Master 7396 NameNode 7594 SecondaryNameNode 7681 ResourceManager 1053 DataNode 31935 NodeManager 1405 Worker
如缺少进程请到logs文件夹下查看相应日志,针对具体问题进行解决。
2.ecplise怎么用spark win10
在Eclipse项目中添加spark-assembly-1.4.1-hadoop2.4.0.jar,这里添加你需要的版本。
注意,不要使用spark的分散抄的jar包,这一点主要是maven时需要注意,因为maven时它会下载好多jar,这里会引进第二个问知题,序列化问题,应该是scala的问题。
3
设置环境变量SPARK_CLASSPATH,这个环境变量不是必须的,你看一下你的服务器是不是设置了。
其实这一步和下面的一步本质作用是一样的,都是告诉spark依赖的jar,而告诉spark依赖jar请留言,嘴拙道)
3.怎么测试spark是否成功安装
启动Spark集群,启动后的WebUI如下
启动Spark Shell
Web控制台查看shell的情况
把Spark安装目录“README.md”拷贝到HDFS系统上在Master节点上新启动一个命令终端,并进入到Spark安装目录下
把文件拷贝到HDFS的root文件夹下
观察一下Web控制台,会发现该文件已经成功上传到HDFS上
在Spark shell之下操作编写代码,操作我们上传的“README.md”
4.如何在windows下安装配置pyspark notebook
试一下命令行启动,确保ipython从anaconda启动第二步:安装spark(需要提前安装JDK)到官网下载spark安装包我下的是这个版本:解压缩之后,不要忘记添加环境变量配置如下系统变量接着需要在命令行键入(spark安装目录下:如D:/spark) > sbt package 进行编译这一步很重要 拷贝 E:/spark/python/pyspark 到 D:/anaconda/Lib/site-packages 目录下第三步:修改spark/conf下的spark-env文件(不知道是否必要)加入如下三行export PYSPARK_PYTHON=/D:/anacondaexport PYSPARK_DRIVER_PYTHON=/D:/anacondaexport PYSPARK_SUBMIT_ARGS='--master local[*]'第四步:启动pyspark发现已启动成功,一般网页会自动打开第五步:测试sc成功。
5.怎么测试spark是否成功安装
启动Spark集群,启动后的WebUI如下
启动Spark Shell
Web控制台查看shell的情况
把Spark安装目录“README.md”拷贝到HDFS系统上在Master节点上新启动一个命令终端,并进入到Spark安装目录下
把文件拷贝到HDFS的root文件夹下
观察一下Web控制台,会发现该文件已经成功上传到HDFS上
在Spark shell之下操作编写代码,操作我们上传的“README.md”
6.win10怎样安装NFS客户端
这里以windows vista以上的windows系统为例,例如windows 7,windows 8,windows10等。
我们这里以windows为例。
第一步,我们需要安装一个工具,vista默认没有,但是可以他可以通过添加windows组件的方式添加。
点击开始 ->; 控制面板。
点击程序。
3
点击“打开或关闭windows功能”
4
勾选上“基于unix的应用程序子系统”和展开NFS服务,勾选“NFS客户端”和“管理工具”然后点确定
转载请注明出处windows之家 » spark在win10安装