1. 在集群管理服务配置HDFS关键配置

- fs.azure.account.key.<storage-account>.blob.core.windows.net=key
- fs.azure.account.keyprovider.<storage-account>.blob.core.windows.net=org.apache.hadoop.fs.azure.ShellDecryptionKeyProvider
- fs.azure.shellkeyprovider.script/usr/lib/hdinsight-common/scripts/decrypt.sh
重启HDFS和HIVE 服务
2.spark配置

spark-env.sh配置中添加Hadoop工具包
export SPARK_DIST_CLASSPATH=`hadoop classpath`
重启spark组件。
有了SPARK_DIST_CLASSPATH配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。
如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据。