Excel生态工具、数理统计工具、BI工具、数据库工具、编程工具
(Excel单独分成一类,紧张是由于它运用处景广泛,且用户基数过于弘大,乃至超过其他所有工具用户之和)
每个类别的代表工具分别有:
「Excel生态」:Excel、VBA、PowerQuery、PowerPivot、Power View、Power Map
「数理统计工具」:SAS、SPSS、Stata、Minitab、Eviews、Statistica、MATLAB、Mathematica
「BI工具」:PowerBI、Tableau、Qlikview、SAP BI、Oracel BI、FineBI、Yonghong BI
「数据库工具」:MySQL、PostgreSQL、Oracle、SQLServer、MongoDB、Hive
「编程工具」:Python、R、Julia、Scala、Spark、Java、Hadoop
下面分别就每个工具做大略先容
Excel生态
Excel不只包含表格软件,还有很多内置的数据剖析工具和插件,从群众根本来说无人能及。
1、Excel
无需多言,险些大家都在用的数据处理软件,由微软开拓,是office三剑客之一。
虽然excel很随意马虎入手,但大部分人对excel的利用程度还处在入门阶段,存取数据、做做表。
实在excel可以制作繁芜的报表、模型、运用、系统,比如构建金融剖析模型。
大家学习excel,可以从基本界面、导入导出、公式&函数、筛选排序、数据格式、可视化图表、数据透视表、数据模型、事情协作这几个方面入手,最好是按照官网文档辅导,合营实践,一样平常进步会很快。
Excel里的编程措辞,普通理解为宏,自动化地实行一些操作。
Office 软件供应丰富的功能接口,VBA 可以调用它们,实现自定义的需求。
VBA最大的浸染是自动化、批量化、智能化地操作Excel,被广泛运用于数据剖析处理、数据建模、报表开拓、运用开拓等,在金融、审计、财务等行业非常盛行。
一种嵌入Excel Microsoft 产品的技能,旨在帮助你塑造数据。
在Excel,选择功能区上的"数据"选项卡,查看"获取&转换数据和查询"&连接"组。
从各种数据源导入和刷新数据后,可以在分步转换中调度数据,逐步创建唯一的表非分特别形以知够数据剖析需求。
一种数据建模技能,用于创建数据模型,建立关系,以及创建打算。
可利用 PowerPivot 处理大型数据集,构建广泛的关系,以及创建繁芜(或大略)的打算,这些操作全部在高性能环境中和所你熟习的 Excel 内实行。
一种数据可视化技能,用于创建交互式图表、图形、舆图和其他视觉效果,以便直不雅观呈现数据。
Power View 在 Excel、BI SharePoint、SQL Server 和 Power BI 中均可用。
一种三维 (三维) 数据可视化工具,可用于以新办法查看信息。
通过电源图,可创造传统二维表格和图表中 (二维) 见地。
利用 Power Map ,可以在三维地球或自定义舆图上绘制地理和时态数据,显示这些数据,并创建可以与其他人分享的视觉浏览
数理统计工具这类工具偏专业数学统计剖析,可以做数据挖掘、数据建模、系统搭建等事情,适宜学术和大型商业公司。
7、SAS
三大统计软件之一。
是目前国际上最为盛行的一种大型统计剖析系统,被誉为统计剖析的标准软件。
它由数十个专用模块构成,功能包括数据访问、数据储存及管理、运用开拓、图形处理、数据剖析、报告体例、运筹学方法、计量经济学与预测等等。
紧张完成以数据为中央的四大任务:数据访问;数据管理;数据呈现;数据剖析。
三大统计软件之一。
IBM公司的一系列用于统计学剖析运算、数据挖掘、预测剖析和决策支持任务的软件产品及干系做事的总称。
SPSS和Excel比较像,界面大略,适宜初学者利用,且统计功能强大,拥有四大模块,用于数据处理、描述性剖析、推断性剖析和探索性剖析。
SPSS具有完全的数据输入、编辑、统计剖析、报表、图形制作等功能,自带11种类型136个函数。
SPSS供应了从大略的统计描述到繁芜的多成分统计剖析方法,比如数据的探索性剖析、统计描述、列联表剖析、二维干系、秩干系、偏干系、方差剖析、非参数考验、多元回归、生存剖析、协方差剖析、判别剖析、因子剖析、聚类剖析、非线性回归、Logistic回归等。
三大统计软件之一。
是一套供应其利用者数据剖析、数据管理以及绘制专业图表的完全及整合性统计软件。
它功能非常强大,包含线性稠浊模型、均衡重复反复及多项式普罗比模式。
用Stata绘制的统计图形相称精美,且Stata具有操作灵巧、大略、易学易用、运行速率极快等优点。
功能包括:数据管理,统计剖析,图表,仿照,自定义编程。
数据剖析、统计、过程改进工具。
运用处景是当代质量管理统计,常日结合一些统计处理方法,如六标准差(Six Sigma), 能力成熟度模型集成(CMMI),以及其他制程改进方法等。
一个整合数据剖析、图表绘制、数据库管理与自订运用发展系统环境的专业软件。
STATISTICA不仅供应利用者统计、绘图与数据管理程序等一样平常目的的需求,更供应特定需求所需的数据剖析方法(例如,数据挖掘、商业、社会科学、生物研究或工业工程等)。
三大数学软件之一。
一种用于算法开拓、数据可视化、数据剖析以及数值打算的高等技能打算措辞和交互式环境。
除矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可用来创建用户界面,以及调用其它措辞(包括C、C++、Java、Python、FORTRAN)编写的程序。
MATLAB的工具箱非常强大,可以支持各行各业做数据剖析建模。
范例运用有:数据剖析、数值与符号打算、工程与科学绘图、掌握系统设计、航天工业、汽车工业、生物医学工程、语音处理、图像与数字旗子暗记处理、财务、金融剖析、建模、仿真及样机开拓、新算法研究开拓、图形用户界面设计等。
三大数学软件之一。
一款科学打算软件,有时候也被称为打算机代数系统,广泛利用于科学、工程、数学、打算等领域。
它很好地结合了数值和符号打算引擎、图形系统、编程措辞、文本系统、和与其他运用程序的高等连接,很多功能在相应领域内处于天下领先地位。
BI也便是商业智能,一样平常用来剖析商业数据,洞察商业机会。
这可以是大部分数据剖析岗位须要用到的工具,由于学习大略,且数据处理和展示功能强大。
下图是Gartner统计的BI工具实力榜:
14、PowerBI
微软的BI产品,也是目前天下上最流的BI工具之一,它上风在于和微软生态集成较好。
Power BI 是软件做事、运用和连接器的凑集,它们协同事情以将干系数据来源转换为连贯的视觉逼真的交互式见地。
无论用户的数据是大略的 Excel 电子表格,还是基于云和本地稠浊数据仓库的凑集,Power BI 都可让用户轻松地连接到数据源,直不雅观看到(或创造)主要内容,与任何所希望的人进行共享。
Power BI 大略且快速,能够从 Excel 电子表格或本地数据库创建快速见地。
同时 Power BI 也可进行丰富的建模和实时剖析,及自定义开拓。
因此它既是用户的个人报表和可视化工具,还可用作组项目、部门或全体企业背后的剖析和决策引擎。
同样是目前天下上最流的BI工具之一,优点是数据剖析、可视化能力强大。
Tableau是用于可视剖析数据的商业智能工具。
用户可以创建和分发交互式和可共享的仪表板,以图形和图表的形式描述数据的趋势,变革和密度。
Tableau可以连接到文件,关系数据源和大数据源来获取和处理数据。
该软件许可数据稠浊和实时协作,这使它非常独特。
它被企业,学术研究职员和许多政府用来进行视觉数据剖析。
它还被定位为Gartner魔力象限中的领导者商业智能和剖析平台。
一个完全的商业剖析软件,使开拓者和剖析者能够构建和支配强大的剖析运用。
QlikView运用使各种各样的终端用户以一个高度可视化,功能强大和创造性的办法,互动剖析主要业务信息。
它让开发者能从多种数据库里提取和洗濯数据,建立强大、高效的运用,而且使它们能被Power用户、移动用户和每天的终端用户修正后利用。
SAP公司的BI做事,一款支持数据报告、可视化和共享的集中式套件。
作为 SAP Business Technology Platform [业务技能云平台] 确当地 BI 层,该套件可以随时随地将数据转化为有用的洞察。
Oracle公司的BI做事。
海内较为领先的BI软件,定位于自助大数据剖析的BI工具,供应数据处理、即时剖析、多维度剖析、可视化等做事。
同样是海内较为领先的BI软件,基于本机安装,省去繁琐的支配环节,即装即用。
供应一站式、敏捷、高效的数据管理及可视化剖析、AI深度剖析能力。
数据库是数据存储的工具,一样平常企业都会有自己的私有支配数据库,或者云数据库,每一位数据从业者险些都须要和数据库打交道。
由于熟习各种数据库,并编写SQL查询,是数据人必备技能之一。
21、MySQL
最盛行数据库之一,海内互联网公司最喜好的数据库,我愿称之为必学。
MySQL在过去由于性能高、本钱低、可靠性好,已经成为最盛行的开源数据库,因此被广泛地运用在Internet上的中小型网站中。
随着MySQL的不断成熟,它也逐渐用于更多大规模网站和运用,比如维基百科、Google和Facebook等网站。
非常盛行的开源软件组合LAMP中的“M”指的便是MySQL。
最强大且最具潜力的数据库之一,开源免费,剖析能力强,稳定可靠,支持广泛。
在很多方面都比MySQL强,如繁芜SQL的实行、存储过程、触发器、索引。
我愿称之为最强。
老牌企业,最稳定的数据库之一。
大部分银行、证券、电信等行业都在利用Oracle,由于其商业化程度高、功能强大且稳定,以是备受天下500强欢迎。
微软公司数据库产品,windows系统上最强王者。
具有易用性、适宜分布式组织的可伸缩性、用于决策支持的数据仓库功能、与许多其他做事器软件紧密关联的集成性、良好的性价比等。
一个基于分布式文件存储的数据库。
由 C++ 措辞编写。
旨在为 WEB 运用供应可扩展的高性能数据存储办理方案。
MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。
Hadoop大数据生态的数据查询工具,一个用来开拓SQL类型脚本来实行MapReduce操作的平台,当前在互联网公司运用非常广泛。
详细来说,Hive是一个数据仓库根本举动步伐工具,用于处理Hadoop中的构造化数据。
它位于Hadoop的顶部,用于汇总大数据,并使查询和剖析变得轻松。
除了上述的数据剖析软件外,编程用于数据剖析也是大趋势。
越来越多的数据剖析师通过Python、R等进行数据建模、可视化,而且编程措辞快速、灵巧、复用性强的特点也适宜数据处理剖析。
27、Python
目前最火的数据科学编程措辞,没有之一。
Python由于其简洁的语法、强大的生态、无所不能的运用险些已经霸占了数据剖析编程领域的半壁江山。
前段韶光matlab被限定在中国利用,知乎上开始谈论什么工具可以替代matlab,python是被提及最多的编程措辞。
且不说python能否替代matlab,就目前python在科学打算、模型构建、可视化上的能力就已经可以傲视编程界,其拥有像numpy、scipy、statemodels、pandas、matplotlib等浩瀚征象级的数据科学库。
不管是github、kaggle、天池,还是企业高校里的数据项目,python险些都已成为首选支持措辞之一。
其余在高端科技领域,同样有python的身影。
自 1997 年,NASA 就大量利用 Python 进行各种繁芜的科学运算。
至于AI,这也是python的看家本领了,其运用生态可谓波澜壮阔、群星云集。
不仅有tensorflow、pytorch、caffe、keras等主流人工智能学习框架,还有Gensim、NLTK、OpenCV、Mahotas等专注于nlp、cv细分领域的经典开拓工具。
编程统计工具的鼻祖。
作为一种统计剖析软件,是集统计剖析与图形显示于一体的。
它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统。
R是一套由数据操作、打算和图形展示功能整合而成的套件。
包括:有效的数据存储和处理功能,一套完全的数组(特殊是矩阵)打算操作符,拥有完全体系的数据剖析工具,为数据剖析和显示供应的强大图形功能,一套(源自S措辞)完善、大略、有效的编程措辞(包括条件、循环、自定义函数、输入输出功能)。
编程数据剖析领域的新星。
Julia 是一个面向科学打算的高性能动态高等程序设计措辞,
首先定位是通用编程措辞,其次是高性能打算措辞。
Julia在分布式并行化、精确数值打算等方面供应了独具特色的支持,并包含大量可扩展的数学函数库。
尤其是在线性代数、随机数天生、旗子暗记处理、字符串处理等方面,集成了浩瀚成熟、精良的基于C和Fortran开拓的开源库,有着很高的性能与效率。
其余,Julia有着强大开放的开拓者社区,贡献了大量的第三方库,并可通过内置的包(Package)管理器进行方便的安装利用。
Java的衍生措辞,用于spark数据剖析、大数据开拓等。
一个开源集群运算框架,Spark在存储器内实行程序的运算速率能做到比Hadoop MapReduce的运算速率快上100倍,即便是实行程序于硬盘时,Spark也能快上10倍速率。
Spark许可用户将资料加载至集群存储器,并多次对其进行查询,非常适宜用于机器学习算法。
不用多说,最盛行的编程措辞。
其在数据剖析领域的运用紧张是搭建大数据框架。
最盛行的大数据框架,险些大部分互联网公司都在用,如果你做大数据,肯定离不开它。
简答来说,Hadoop是一款支持数据密集型分布式运用程序,并以Apache 2.0容许协议发布的开源软件框架。
它支持在商用硬件构建的大型集群上运行的运用程序。
Hadoop是根据谷歌公司揭橥的MapReduce和Google文件系统的论文自行实现而成。
所有的Hadoop模块都有一个基本假设,即硬件故障是常见情形,该当由框架自动处理。
❝
部分信息来源:维基百科、百度百科、百度文库
❞