大数据工程师的话,至少要熟悉storm, hadoop, spark之间优缺点,性能挑优,监控之类的,这块面比较广,各种开源的分布式系统多了解一下,kafka, elasticsearch, influxdb, fluentd之类的。当然,数据结构和算法也很重要。

大数据主要从侧重对数据的存储、分析,会涉及到分布式存储系统、分布式计算系统、机器学习、数据可视化等方面,每一个方面都可以深入学习很长时间

后台开发主要侧重网络编程、多线程/多进程调度、操作系统、各类数据库存取等,同样每一点都可以深挖

个人认为后台开发对网络编程、各类协议、web服务器设计扩展、中间件,消息系统,数据存取等有所要求。

做hdfs+spark日志处理,做做平台搭建和spark编程,但是都是python写的