咨詢郵箱?咨詢郵箱:service@yitianxinda.com 咨詢熱線?咨詢熱線:18101296137 微博 微信
北京軟件開發(fā)除Hadoop外你還需要知道的9個大數(shù)據(jù)技術(shù)_北京軟件開發(fā)公司
發(fā)表日期:2016-05-31 11:32:39 ?? 文章編輯:yitianxinda ?? 瀏覽次數(shù):

  北京軟件開發(fā)除Hadoop外你還需要知道的9個大數(shù)據(jù)技術(shù) GTLC全球技術(shù)領(lǐng)導(dǎo)力峰會 Hadoop是大數(shù)據(jù)領(lǐng)域較流行的技術(shù),但并非唯一。還有很多其他技術(shù)可用于解決大數(shù)據(jù)問題。除了Apache Hadoop外,另外9個大數(shù)據(jù)技術(shù)也是必須要了解的。

  Apache Samza

  Google Cloud Data Flow

  StreamSets

  Tensor Flow

  Apache NiFi

  Druid

  LinkedIn WhereHows

  Microsoft Cognitive Services

  Apache Flink:是一個高效、分布式、基于Java實現(xiàn)的通用大數(shù)據(jù)分析引擎,它具有分布式MapReduce一類平臺的高效性、靈活性和擴展性以及并行數(shù)據(jù)庫查詢優(yōu)化方案,它支持批量和基于流的數(shù)據(jù)分析,且提供了基于Java和Scala的API。這是一種由社區(qū)驅(qū)動的分布式大數(shù)據(jù)分析開源框架,類似于Apache Hadoop和Apache Spark。它的引擎可借助數(shù)據(jù)流和內(nèi)存中(in-memory)處理與迭代操作改善性能。目前Apache Flink已成為一個頂級項目(Top Level Project,TLP),于2014年4月被納入Apache孵化器,目前在全球范圍內(nèi)有很多貢獻者。

  

 

  Flink受到了MPP數(shù)據(jù)庫技術(shù)(Declaratives、Query Optimizer、Parallel in-memory、out-of-core 算法)和Hadoop MapReduce技術(shù)(Massive scale out, User Defined functions, Schema on Read)的啟發(fā),有很多獨特功能(Streaming, Iterations, Dataflow, General API)。詳細了解Apache Samza:是一個開源、分布式的流處理框架,它使用開源分布式消息處理系統(tǒng)Apache Kafka來實現(xiàn)消息服務(wù),并使用資源管理器Apache Hadoop Yarn實現(xiàn)容錯處理、處理器隔離、安全性和資源管理。該技術(shù)由LinkedIn開發(fā),較初目的是為了解決Apache Kafka在擴展能力方面存在的問題,包含諸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible,以及Processor Isolation等功能。

  

 

  相關(guān)廠商內(nèi)容滴滴出行iOS客戶端架構(gòu)演進之路!微信客戶端如何應(yīng)對弱網(wǎng)絡(luò)!函數(shù)式編程中的Swift與Swift中的函數(shù)式編程!你離成為一位合格的技術(shù)領(lǐng)導(dǎo)者還有多遠?國際范 較前沿 不容錯過的容器技術(shù)盛會相關(guān)贊助商

  

 

  GMTC全球移動技術(shù)大會2016年6月24日-25日,北京,點擊了解詳情!Samza的代碼可作為Yarn作業(yè)運行,還可以實施StreamTask接口,借此定義process()調(diào)用。StreamTask可以在任務(wù)實例內(nèi)部運行,其本身也位于一個Yarn容器內(nèi)。詳細了解Cloud Dataflow:Dataflow是一種原生的Google Cloud數(shù)據(jù)處理服務(wù),是一種構(gòu)建、管理和優(yōu)化復(fù)雜數(shù)據(jù)流水線的方法,用于構(gòu)建移動應(yīng)用,調(diào)試、追蹤和監(jiān)控產(chǎn)品級云應(yīng)用。它采用了Google內(nèi)部的技術(shù)Flume和MillWhell,其中Flume用于數(shù)據(jù)的高效并行化處理,而MillWhell則用于互聯(lián)網(wǎng)級別的帶有很好容錯機制的流處理。該技術(shù)提供了簡單的編程模型,可用于批處理和流式數(shù)據(jù)的處理任務(wù)。該技術(shù)提供的數(shù)據(jù)流管理服務(wù)可控制數(shù)據(jù)處理作業(yè)的執(zhí)行,數(shù)據(jù)處理作業(yè)可使用Data Flow SDK(Apache Beam)創(chuàng)建。

  

 

  Google Data Flow為數(shù)據(jù)相關(guān)的任務(wù)提供了管理、監(jiān)視和安全能力。Sources和Sink可在管線中抽象地執(zhí)行讀寫操作,管線封裝而成的整個計算序列可以接受外部來源的某些輸入數(shù)據(jù),通過對數(shù)據(jù)進行轉(zhuǎn)換生成一定的輸出數(shù)據(jù)。了解詳情StreamSets:StreamSets是一種專門針對傳輸中數(shù)據(jù)進行過優(yōu)化的數(shù)據(jù)處理平臺,提供了可視化數(shù)據(jù)流創(chuàng)建模型,通過開源的方式發(fā)行。該技術(shù)可部署在內(nèi)部環(huán)境或云中,提供了豐富的監(jiān)視和管理界面。

  

 

  數(shù)據(jù)收集器可使用數(shù)據(jù)管線實時地流式傳輸并處理數(shù)據(jù),管線描述了數(shù)據(jù)從源頭到較終目標(biāo)的流動方式,可包含來源、目標(biāo),以及處理程序。數(shù)據(jù)收集器的生命周期可通過管理控制臺進行控制。了解詳情TensorFlow:是繼DistBelief之后的第二代機器學(xué)習(xí)系統(tǒng)。TensorFlow源自Google旗下的Google Brain項目,主要目標(biāo)在于為Google全公司的不同產(chǎn)品和服務(wù)應(yīng)用各種類型的神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)能力。支持分布式計算的TensorFlow能夠使用戶在自己的機器學(xué)習(xí)基礎(chǔ)結(jié)構(gòu)中訓(xùn)練分布式模型。該系統(tǒng)以高性能的gRPC數(shù)據(jù)庫為支撐,與較近發(fā)布的Google云機器學(xué)習(xí)系統(tǒng)互補,使用戶能夠利用Google云平臺,對TensorFlow模型進行訓(xùn)練并提供服務(wù)。這是一種開源軟件庫,可使用數(shù)據(jù)流圖譜(data flow graph)進行數(shù)值運算,這種技術(shù)已被包括DeepDream、RankBrain、Smart Replyused在內(nèi)的各種Google項目所使用。

  

 

  數(shù)據(jù)流圖譜使用由節(jié)點(Node)和邊緣(Edge)組成的有向圖(Directed graph)描述數(shù)值運算。圖譜中的節(jié)點代表數(shù)值運算,邊緣代表負責(zé)在節(jié)點之間進行通信的多維數(shù)據(jù)陣列(張量,Tensor)。邊緣還描述了節(jié)點之間的輸入/輸出關(guān)系。“TensorFlow”這個名稱蘊含了張量在圖譜上流動的含義。了解詳情Druid:Druid是一個用于大數(shù)據(jù)實時查詢和分析的高容錯、高性能開源分布式系統(tǒng),旨在快速處理大規(guī)模的數(shù)據(jù),并能夠?qū)崿F(xiàn)快速查詢和分析,誕生于2011年,包含諸如驅(qū)動交互式數(shù)據(jù)應(yīng)用程序,多租戶:大量并發(fā)用戶,擴展能力:每天上萬億事件,次秒級查詢,實時分析等功能。Druid還包含一些特殊的重要功能,例如低延遲數(shù)據(jù)攝入、快速聚合、任意切割能力、高可用性、近似計算與精確計算等。創(chuàng)建Druid的較初意圖主要是為了解決查詢延遲問題,當(dāng)時試圖使用Hadoop來實現(xiàn)交互式查詢分析,但是很難滿足實時分析的需要。而Druid提供了以交互方式訪問數(shù)據(jù)的能力,并權(quán)衡了查詢的靈活性和性能而采取了特殊的存儲格式。(點擊放大圖像)

  

 

  該技術(shù)還提供了其他實用功能,例如實時節(jié)點、歷史節(jié)點、Broker節(jié)點、Coordinator節(jié)點、使用基于JSON查詢語言的索引服務(wù)。了解詳情Apache NiFi:Apache NiFi是一套強大可靠的數(shù)據(jù)處理和分發(fā)系統(tǒng),可用于對數(shù)據(jù)的流轉(zhuǎn)和轉(zhuǎn)換創(chuàng)建有向圖。借助該系統(tǒng)可以用圖形界面創(chuàng)建、監(jiān)視、控制數(shù)據(jù)流,有豐富的配置選項可供使用,可在運行時修改數(shù)據(jù)流,動態(tài)創(chuàng)建數(shù)據(jù)分區(qū)。此外還可以對數(shù)據(jù)在整個系統(tǒng)內(nèi)的流動進行數(shù)據(jù)起源跟蹤。通過開發(fā)自定義組件,還可輕松對其進行擴展。(點擊放大圖像)

  

 

  Apache NiFi的運轉(zhuǎn)離不開諸如FlowFile、Processor,以及Connection等概念。了解詳情LinkedIn WhereHows:WhereHows提供帶元數(shù)據(jù)搜索的企業(yè)編錄(Enterprise catalog),可以讓您了解數(shù)據(jù)存儲在哪里,是如何保存到那里的。該工具可提供協(xié)作、數(shù)據(jù)血統(tǒng)分析等功能,并可連接至多種數(shù)據(jù)源和提取、加載和轉(zhuǎn)換(ETL)工具。(點擊放大圖像)

  

 

  該工具為數(shù)據(jù)發(fā)現(xiàn)提供了Web界面,支持API的后端服務(wù)器負責(zé)控制元數(shù)據(jù)的爬網(wǎng)(Crawling)以及與其他系統(tǒng)的集成。了解詳情Microsoft Cognitive Services:該技術(shù)源自Project Oxford和Bing,提供了22種認知計算API,主要分類包括:視覺、語音、語言、知識,以及搜索。該技術(shù)已集成于Cortana Intelligence Suite。(點擊放大圖像)

  

 

  這是一種開源技術(shù),提供了22種不同的認知計算REST API,并為開發(fā)者提供了適用于Windows、IOS、Android以及Python的SDK。

相關(guān)文章推薦
改進人力資源流程對任何旨在最大限度地提高生產(chǎn)率和員工滿意度的企業(yè)都至關(guān)重要。許多公司需要人力資源任務(wù)的幫助,這需要時間和資源。企業(yè)資源規(guī)劃軟件可以是這方面的完美...
對于希望簡化軟件開發(fā)人員招聘流程的企業(yè)來說,選擇合適的在線招聘評估平臺至關(guān)重要。由于有如此多的選擇,找到滿足您需求的解決方案可能具有挑戰(zhàn)性。本指南將幫助您解決選...
隨著科技的飛速發(fā)展,物聯(lián)網(wǎng)(IoT)已經(jīng)成為了各行各業(yè)的關(guān)鍵驅(qū)動力。在這個數(shù)字化時代,物聯(lián)網(wǎng)技術(shù)的應(yīng)用已經(jīng)滲透到我們生活的方方面面,其中之一便是醫(yī)療行業(yè)。本文將...
選擇離岸軟件開發(fā)公司的方式已成為許多企業(yè)改變游戲規(guī)則的關(guān)鍵。它涉及將軟件開發(fā)任務(wù)委托給不同國家的公司或團隊,通常成本較低,并能接觸到多元化的人才庫。根據(jù)Stat...
根據(jù)Manpower 的數(shù)據(jù),全球 IT 和技術(shù)領(lǐng)域的人才短缺率為 76%。低調(diào)的開發(fā)人員是離岸開發(fā)成為企業(yè)定制軟件或移動應(yīng)用程序開發(fā)的熱門選擇的主要原因之一。...
企業(yè)應(yīng)用程序成本高昂,但您可以控制成本,同時最大限度地發(fā)揮推動增長的全部潛力。怎么做?讓我們與擁有 20 多年定制應(yīng)用程序開發(fā)經(jīng)驗的 北京軟件開發(fā)公司 專業(yè)人士...
為什么初創(chuàng)企業(yè)應(yīng)該雇傭遠程軟件開發(fā)公司?北京軟件開發(fā)公司這樣的全球外包公司是招聘遠程開發(fā)人員的值得信賴的目的地,他們的技能和勤奮程度為零。...
低配置開發(fā)人員是離岸開發(fā)成為企業(yè)定制軟件或移動應(yīng)用開發(fā)流行選擇的關(guān)鍵原因之一。...
 第一步:了解客戶需求:客戶通過電話、電子郵件、在線留言等方式聯(lián)系北京宜天信達網(wǎng)絡(luò)科技有限公司,提出網(wǎng)站建設(shè)方面的基本需求,涉及內(nèi)容包括欄目描述、網(wǎng)站基本功能需求...
北京軟件開發(fā)族譜制作軟件開發(fā),無論您是新修、續(xù)修、還是改修老式家譜、或者是搶救復(fù)制私藏老譜,軟件都將成為您家譜管理的強有力工具。...
代號one適用于所有3個主要的Java軟件開發(fā)環(huán)境 - NetBeans,Eclipse和IntelliJ / IDEA - 以滿足客戶需求...
北京軟件公司軟件測試,在軟件產(chǎn)品的測試過程中,積累了豐富的測試經(jīng)驗和測試方法。我們愿將我們的軟件測試技術(shù)服務(wù)于社會。承接用戶的各種軟件產(chǎn)品功能測試任務(wù)。...
?