新闻中心

|

除Hadoop之外,您还需要了解有关软件开发的9种大数据技术

* 来源: * 作者: * 发表时间: 2019-12-10 0:07:38 * 浏览: 3
除了Hadoop,除Hadoop外,您还需要了解9种大数据技术。 GTLC全球技术领导力峰会Hadoop在大数据领域是一种更流行的技术,但事实并非如此。还有许多其他技术可用于解决大数据问题。除了ApacheHadoop,还必须了解其他九种大数据技术。 ApacheSamza GoogleCloudDataFlow StreamSet TensorFlow ApacheNiFi Druid LinkedInWhereHowsMicrosoftCognitiveServices ApacheFlink:是一种高效的,基于Java的分布式通用大数据分析引擎,它具有分布式MapReduce等平台的效率,灵活性和可扩展性,以及并行数据库查询优化解决方案它支持基于批处理和流的数据分析,并提供基于Java和Scala的API。这是一个社区驱动的开源框架,用于分布式大数据分析,类似于ApacheHadoop和ApacheSpark。它的引擎通过数据流,内存处理和迭代操作提高了性能。目前,ApacheFlink已成为一个项目(TopLevelProject,TLP),该项目于2014年4月被包含在Apache孵化器中,目前在全球范围内有许多贡献者。 LinkFlink受到MPP数据库技术(声明式,QueryOptimizer,并行内存,核外算法)和HadoopMapReduce技术(大规模扩展,用户定义函数,SchemaonRead)的启发。它具有许多独特的功能(流,迭代,数据流,GeneralAPI)。了解有关ApacheSamza的更多信息:这是一个开源的分布式流处理框架。它使用开源分布式消息处理系统ApacheKafka来实现消息服务,并使用资源管理器ApacheHadoopYarn来实现容错处理,处理器隔离,安全性和资源管理。该技术由LinkedIn开发。其最初目的是解决Apache Kafka的可伸缩性问题。它包括诸如SimpleAPI,Managedstate,FaultTolerant,Durablemessaging,Scalable,Extensible和ProcessorIsolation之类的功能。 Didi Chuxing的iOS客户端体系结构演进之路!微信客户如何应对网络薄弱! Swift中的函数式编程和Swift中的函数式编程!您距离成为合格的技术领导者还有多远? GM,不容错过的领先容器技术盛会,国际赞助商,GMTC全球移动技术大会,2016年6月24日至25日,点击了解详情! Samza的代码可以作为Yarn作业运行,您还可以实现StreamTask接口,借以定义流程()调用。 StreamTask可以在任务实例内部运行,它也位于Yarn容器中。了解有关CloudDataflow的更多信息:Dataflow是GoogleCloud的原生数据处理服务,一种用于构建,管理和优化复杂数据管道的方法,用于构建移动应用程序,调试,跟踪和监视产品级云应用程序。它使用Google的内部技术Flume和MillWhell,其中Flume用于高效的数据并行处理,而MillWhell用于具有良好容错机制的Internet级流处理。该技术提供了一种简单的编程模型,可用于批处理和流数据处理任务。该技术提供的数据流管理服务可以控制数据处理作业的执行。可以使用DataFlowSDK(ApacheBeam)创建数据处理作业。 DataGoogleDataFlow为与数据相关的任务提供管理,监视和安全功能。源和接收器可以在管道中抽象地执行读取和写入操作。管道封装的整个计算序列可以接受来自外部源的一些输入数据,并通过转换数据来生成某些输出数据。了解更多StreamSets:StreamSets是为传输中的数据而优化的数据处理平台。它提供了可视数据流创建模型,并以开源方式发布。该技术可以部署在本地或云中,提供丰富的监视和管理界面。数据收集器可以使用数据管道实时传输和处理数据。管道描述了从源到最终目的地的数据流。它可以包括源,目标和处理程序。数据收集器的生命周期可以通过管理控制台进行控制。了解更多TensorFlow:是DistBelief之后的第二代机器学习系统。 TensorFlow源自Google的GoogleBrain项目,其主要目标是将各种类型的神经网络机器学习功能应用于Google整个公司的不同产品和服务。 TensorFlow支持分布式计算,使用户能够在自己的机器学习基础架构中训练分布式模型。该系统由高性能gRPC数据库支持,是对最近发布的Google Cloud机器学习系统的补充,使用户可以使用Google Cloud平台在TensorFlow模型上进行培训和提供服务。这是一个开源软件库,可以使用数据流图进行数值运算。各种Google项目都使用了这项技术,包括DeepDream,RankBrain和SmartReplyused。数据流图使用由节点和边组成的有向图来描述数值运算。图中的节点表示数值运算,边缘表示多维数据数组(张量),这些数组负责节点之间的通信。边缘还描述了节点之间的输入/输出关系。 ldquo,名称TensorFlow包含图上流动的张量的含义。了解更多信息Druid:Druid是一个高度容错的高性能开源分布式系统,用于实时查询和分析大数据。它旨在快速处理大规模数据并实现快速查询和分析。驱动交互式数据应用程序,多租户:大量并发用户,可扩展性:每天数万亿事件,亚秒级查询,实时分析和其他功能。德鲁伊还包括一些特殊的重要功能,例如低等待时间的数据提取,快速聚合,任意剪切能力,高可用性,近似计算和计算等等。创建Druid的最初目的主要是为了解决查询延迟问题。当时,我尝试使用Hadoop进行交互式查询分析,但是很难满足实时分析的需求。 Druid提供了以交互方式访问数据的能力,并权衡了采用特殊存储格式的查询的灵活性和性能。 (单击放大)该技术还提供其他实用功能,例如使用基于JSON查询语言的索引服务的实时节点,历史节点,Broker节点,Coordinator节点。了解有关ApacheNiFi的更多信息:ApacheNiFi是一个功能强大且可靠的数据处理和分发系统,可用于创建有向图以进行数据流和转换。使用此系统,您可以使用图形界面来创建,监视和控制数据流。有大量可用的配置选项。您可以在运行时修改数据流并动态创建数据分区。另外,可以对整个系统中的数据流执行数据源跟踪。您还可以通过开发定制组件来轻松扩展它们。 (单击放大)ApacheNiFi的操作与FlowFile,Processor和Connection等概念密不可分。了解更多信息LinkedInWhereHows:WhereHows提供了带有元数据搜索的企业目录,可让您了解数据的存储位置和存储方式。该工具提供了协作,数据谱系分析等功能,并连接到各种数据源以及提取,加载和转换(ETL)工具。 (单击以放大图像):该工具提供了用于数据发现的Web界面。支持API的后端服务器负责控制元数据的爬网以及与其他系统的集成。了解更多信息Microsoft CognitiveServices:此技术源自ProjectOxford和Bing。它提供22种认知计算API。主要类别是:视觉,言语,语言,知识和搜索。该技术已集成到CortanaIntelligenceSuite中。 (点击放大)这是一种开放源代码技术,可提供22种不同的认知计算RESTAPI,并为开发人员提供适用于Windows,IOS,Android和Python的SDK。