学习大数据需要掌握以下内容:
- 数据处理和管理:了解数据的获取、存储、清洗、转换和管理方法,包括数据仓库、数据湖和数据管道等。
- 大数据技术和工具:熟悉大数据处理和分析的技术和工具,如Hadoop生态系统(HDFS、MapReduce、Hive、Pig)、Spark、NoSQL数据库(MongoDB、Cassandra)等。
- 数据分析和挖掘:学习数据分析和挖掘的基本概念、技术和方法,包括数据可视化、统计分析、机器学习和深度学习等。
- 分布式计算和并行处理:了解分布式计算的原理和并行处理的技术,能够进行大规模数据的并行计算和分布式存储。
- 编程和数据编程语言:熟悉至少一种编程语言,如Python、Java或Scala,能够使用编程语言进行数据处理和分析的开发和实现。
- 数据安全和隐私保护:了解数据安全和隐私保护的基本原则和方法,掌握数据脱敏、加密和权限控制等技术。
要求和条件可能会因个人学习目标和就业需求而有所不同,但以下是一些常见的要求和条件:
- 基础知识:具备计算机科学、数据科学或相关领域的基础知识,包括数据结构、算法、数据库、统计学等。
- 编程能力:具备良好的编程能力,能够熟练使用至少一种编程语言进行数据处理和分析的开发。
- 数学和统计学知识:具备一定的数学和统计学知识,能够理解和应用统计分析和机器学习算法。
- 学习能力和自主学习能力:大数据领域发展迅速,要求具备良好的学习能力和自主学习能力,能够不断跟进最新的技术和方法。
- 团队合作和沟通能力:大数据项目通常需要与团队合作,因此具备良好的团队合作和沟通能力是必要的。
- 实践经验:具备一定的实践经验,通过参与项目或实际应用来提升自己在大数据领域的能力。
需要注意的是,大数据是一个广泛的领域,具体的要求和条件会根据不同的职位和工作角色而有所差异。因此,根据自身的兴趣和职业目标,可以进一步了解和学习相关的专业知识和技能。
首先你要清楚自己为什么想要学习大数据,其次现在的工作机会是不是你心仪的工作,然后想要学习大数据是感兴趣还是盲目跟风,最后如果是想往大数据方面发展的话那么一定要了解大数据的职业划分和薪资情况,到底想从事大数据工作的哪个方向。
我的建议:IT技术更新迭代速度很快,所以一定要做到未雨绸缪,选好方向做好规划,避免还没等学就被淘汰了。
下面我从2个方面介绍
1.大数据职业划分和薪资介绍及我的认为的发展发现
2.大数据的学习路线
大数据职业划分和薪资介绍
从51job、智联、猎聘查看职位,我认为大数据大概分为这5个方向
数据管理类: 首席数据官、数据管理员、数据安全工程师;
这类主要负责公司数据的管理,数据安全策略的制定和实现。
数据分析类: 战略分析师、数据分析师、商业智能分析员;
这类主要负责数据分析相关的工作。
数据挖掘类: 数据挖掘工程师、算法工程师;
这类负责数据挖掘算法的设计与策略。
技术研发类: 数据仓库架构师、数据采集工程师、数据仓库开发工程师、数据可视化工程师、大数据架构师、大数据开发工程师;
这类主要负责数据仓库的搭建和ETL任务的开发。
IT基础架构类: hadoop运维工程师、数据库运维工程师、系统运维工程师
这类主要负责大数据集群软硬件的管理和维护。
薪资在猎聘上截了几张图,具体你可以上智联、51job或猎聘上搜职位名称查看薪酬。
我对大数据发展方向的建议: 我朋友就是做猎头的,据他说目前最火的还是算法工程师,以前不起眼,现在随着5G的兴起,AI方向有更为广阔的发展空间,BAT玩命的招人。其次就是做技术开发类,做大数据平台的,这也是目前招聘人数最多的,如果做到大数据架构师,年薪百万不是问题。数据分析类和数据管理类的一般是甲方企业,偏企业内部。最后是运维,相对发展前景最差。
大数据的学习路线
必须掌握的技能11条
Linux 基本操作
Hadoop(HDFS+MapReduce+Yarn )
HBase(JavaAPI操作+Phoenix )
Hive(Hql基本操作和原理理解)
Kafka
Storm/JStorm
Scala
Python
Spark (Core+sparksql+Spark streaming )
辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条
机器学习算法以及mahout库加MLlibR语言
Lambda 架构
Kappa架构
Kylin
Alluxio
面列出来的顺序只是个人建议,可以根据个人实际情况来调整顺序
第一阶段(基础阶段)
Linux学习(跟鸟哥学就ok了)—–20小时
- Linux操作系统介绍与安装。
- Linux常用命令。
- Linux常用软件安装。
- Linux网络。
- 防火墙。
- Shell编程等。
官网:https://www.centos.org/download/
Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时
- 掌握多线程。
- 掌握并发包下的队列。
- 了解JMS。
- 掌握JVM技术。
- 掌握反射和动态代理。
官网: https://www.java.com/zh_CN/
中文社区:http://www.java-cn.com/index.html
Zookeeper学习
- Zookeeper分布式协调服务介绍。
- Zookeeper集群的安装部署。
- Zookeeper数据结构、命令。
- Zookeeper的原理以及选举机制。
官网: http://zookeeper.apache.org/
中文社区:http://www.aboutyun.com/forum-149-1.html
第二阶段(入门,攻坚阶段)
Hadoop (《Hadoop 权威指南》)—80小时
-
HDFS
- HDFS的概念和特性。
- HDFS的shell操作。
- HDFS的工作机制。
- HDFS的Java应用开发。
-
MapReduce
- 运行WordCount示例程序。
- 了解MapReduce内部的运行机制。
- MapReduce程序运行流程解析。
- MapTask并发数的决定机制。
- MapReduce中的combiner组件应用。
- MapReduce中的序列化框架及应用。
- MapReduce中的排序。
- MapReduce中的自定义分区实现。
- MapReduce的shuffle机制。
- MapReduce利用数据压缩进行优化。
- MapReduce程序与YARN之间的关系。
- MapReduce参数优化。
-
MapReduce的Java应用开发
官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
Hive(《Hive开发指南》)–20小时
-
Hive 基本概念
- Hive 应用场景。
- Hive 与hadoop的关系。
- Hive 与传统数据库对比。
- Hive 的数据存储机制。
-
Hive 基本操作
- Hive 中的DDL操作。
- 在Hive 中如何实现高效的JOIN查询。
- Hive 的内置函数应用。
- Hive shell的高级使用方式。
- Hive 常用参数配置。
- Hive 自定义函数和Transform的使用技巧。
- Hive UDF/UDAF开发实例。
-
Hive 执行过程分析及优化策略
官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
HBase(《HBase权威指南》)—20小时
- hbase简介。
- habse安装。
- hbase数据模型。
- hbase命令。
- hbase开发。
- hbase原理。
官网:http://hbase.apache.org/
中文文档:http://abloz.com/hbase/book.html
Scala(《快学Scala》)–20小时
- Scala概述。
- Scala编译器安装。
- Scala基础。
- 数组、映射、元组、集合。
- 类、对象、继承、特质。
- 模式匹配和样例类。
- 了解Scala Actor并发编程。
- 理解Akka。
- 理解Scala高阶函数。
- 理解Scala隐式转换。
官网:http://www.scala-lang.org/
初级中文教程:http://www.runoob.com/scala/scala-tutorial.html
Spark (《Spark 权威指南》)—60小时
-
Spark core
- Spark概述。
- Spark集群安装。
- 执行第一个Spark案例程序(求PI)。
-
RDD
- RDD概述。
- 创建RDD。
- RDD编程API(Transformation 和 Action Operations)。
- RDD的依赖关系
- RDD的缓存
- DAG(有向无环图)
-
Spark SQL and DataFrame/DataSet
- Spark SQL概述。
- DataFrames。
- DataFrame常用操作。
- 编写Spark SQL查询程序。
-
Spark Streaming
- park Streaming概述。
- 理解DStream。
- DStream相关操作(Transformations 和 Output Operations)。
-
Structured Streaming
-
其他(MLlib and GraphX )
这个部分一般工作中如果不是数据挖掘,机器学习一般用不到,可以等到需要用到的时候再深入学习。
官网: http://spark.apache.org
中文社区:http://www.aboutyun.com/forum-146-1.htm
Python (推荐廖雪峰的博客—30小时)
目前暂且列出来这么多吧,大数据目前还有很多比较好的技术框架,这个就需要等大家以后工作之后再去扩展了,大家在学习的时候,要专门挑一两个着重研究一下,最好针对,底层原理,优化,源码等部分有所涉猎,这么的话可以在面试过程中脱颖而出。不要想着把每一个框架都搞精通,目前是不现实的,其实就算是在工作中也不会每一个框架都会用的很深,如果能过对上面的框架都大致会使用,并且对某一两个框架研究的比较深的话,其实想去找一份满意的大数据工作也就水到渠成了。
--如果觉得答案解决了你的问题,请采纳,有问题可继续追问--
大数据都学习些什么,随着互联网在近几年的飞速发展,大数据页被越来越多的人所熟知,不管是行内的人还是行外的人都纷纷加入这个行业!于是许多的培训机构也纷纷崛起,开设相关的培训课程!作为一个未来的十分有前景的行业。成为大数据工程师无疑是迎接一个很有前景的职业生涯,那么大数据工程师,要学习什么内容呢。
其实说到大数据主要学习的技术,最直接的就是从职位需求入手,但是这样也会有弊端就是导致学习的东西不会很全面。
查看各大招聘网站,BAT等大厂不同的企业要求员工具备的工作技能也是有所不同的,通过这个我们做了一个简单的分析总结可以为大家参考一下。
大数据培训的内容:
有什么要求和条件?
大数据学习相比较其他的编程会有一定的难度,需要前提满足俩个方面的条件。
一是,年龄要满足国家规定的法定工作年龄,不能够小于这个年龄,但也不能年龄太大,年龄太大的话可能不太符合企业要求,找工作就会很难。
二是,学历要满足本科,因为现在很多地方的相关企业招聘大数据技术人才基本上都是本科起步,这方面也要多加注意。
如果,各方面的条件比较满足的话,其实大数据的学习也并不像大家说的那么难,只要感兴趣适合学习大数据就可以一试。
作为一名IT从业者,同时也是一名计算机专业的教育工作者,我来回答一下这个问题。
首先,当前大数据的知识体系还是比较庞大的,随着大数据技术生态的逐渐成熟和完善,大数据领域也逐渐形成了更多的岗位细分,从事不同的岗位细分方向则需要学习不同的知识。
从当前大的岗位划分来看,通常包括以下几个岗位:
第一:大数据开发岗位。从近两年大数据方向研究生的就业情况来看,开发岗位的人才需求量还是比较大的,相关岗位的薪资待遇也比较高,其中从事大数据平台开发的研发级岗位会有更高的薪资待遇。从事大数据开发岗位,通常需要学习三大块内容,其一是程序开发技术,初学者可以从Java或者Python开始学起;其二是学习大数据平台知识,初学者可以从Hadoop和Spark开始学起;其三是大数据开发实践,这个过程需要掌握一定的行业知识。
第二:大数据分析岗位。大数据分析岗位的人才需求潜力是非常大的,不仅IT(互联网)行业需要大量的大数据分析人才,传统行业领域也需要大数据分析人才。选择大数据分析方向需要具有一定的数学和统计学基础,而且也有一定的学习难度。目前大数据分析的常见方式有两种,分别是统计学方式和机器学习方式。
第三:大数据运维岗位。如果对于编程和算法设计不感兴趣,那么也可以考虑学习大数据运维知识,未来可以从事大数据运维岗位。大数据运维岗位的任务相对比较杂,需要从业者具有较强的动手实践能力。从知识结构上来看,大数据运维需要掌握网络知识、大数据平台知识和服务器知识。
我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。
如果有互联网、大数据、人工智能等方面的问题,或者是考研方面的问题,都可以在评论区留言,或者私信我!
大数据中也有多种岗位,有的偏向开发,有的偏向运维,有的偏向数据分析与挖掘。开发的话Java居多,不过只需要到JavaSE层面即可,也可以选用Scala/Python开发。数据分析与挖掘基本上就是Python了。所以建议学习Python了。要求与条件的话,如果是计算机/数学/统计相关专业最好,不过还是看个人的学习能力与是否坚持。
1) 简单点评:
发展不错,需求不少,不过需求中主要是数据分析相关岗位,牵涉到算法建模等高级内容的话实际上不适合刚毕业的不同本科学生。建议普通本科或专科学生从数据分析入行,掌握Python,以后逐步向高级数据分析师、数据挖掘工程师、人工智能开发工程师方向走,
2)发展前景:
大数据类职位需求增幅仅次于AI岗位。眼下,几乎所有互联网企业均把数据人才列为团队标配。许多公司在数据层面增加投入,大量招募具有算法和建模能力的人才,力求通过数据沉淀与挖掘更好地推进产品的迭代。数据架构师、数据分析师成为企业争抢对象,过去一年招聘需求提高150%以上。2017,互联网公司对AI和数据人才的争抢活跃度提高了30%以上,企业间相互挖角行为变得更加频繁,人才争夺激烈程度全面升级。物联网、智慧城市、增强现实(AR)与虚拟现实(VR)、区块链技术、语音识别、人工智能、数字汇流是大数据未来应用的七大发展方向。
3)行业定位:
4)面向专业:
计算机、数学与统计、物理、电子、通信工程、物联网、网络工程等相关专业大专以上学生。推荐中上游学生学习。
5)薪酬分析:
数据来源: 职友网
我本人在IT行业混了二十多年,从事软件开发与软件教育,现在主要是管理,不过始终没有脱离写程序,有兴趣可以交流哦!