SQL Server,MySQL,SparkSQL。其实你只需要关注SQL三个字母就可以了,不要在意前缀后缀。SQL其实算一个标准,而上面三者其实算是几个实现。你当然可以跳过,但是不管学哪个,你都得先了解下SQL本身。
SparkSQL跟前两者差别实在太大了,谈不上取代。但是我觉得对于数据分析来说,以后Spark平台很有前途,所以这其实是一个不错的选择。但是,SparkSQL其实只是带来了一些方便,你千万别认为用了SparkSQL就能作数据分析了,因为现在说这话实在太早了。
你觉得现在SparkSQL的可用性已经到达这个程度了吗?
Spark生态圈还远没有完善到这个程度。比如SparkSQL还仅仅是alpha状态,MLlib算法也非常少,MLBase可能要等相当长的一段时间才会出来。
如果是工程师,现在Spark的基础API已经趋于完善,很多东西可能自己写就行了。但如果是数据分析师,可能你就不太可能独立做这件事了,可能需要工程师团队协助才行。