北(běi)京軟件(jiàn)開(kāi)發除Hadoop外(wài)你(nǐ)還(hái)需®π© 要(yào)知(zhī)道(dào)的(de)9個(gè)大₹₽∞(dà)數(shù)據技(jì)術(shù) GTLC全球技₩≥(jì)術(shù)領導力峰會(huì) Hadoop是(s<<π™hì)大(dà)數(shù)據領域較流行(xíng)的(d↔¶e)技(jì)術(shù),但(dàn)并非唯一(yī)。還(h→☆ái)有(yǒu)很(hěn)多(duō)其他(tā✘>)技(jì)術(shù)可(kě)用(yòng)于解決大λ↓"(dà)數(shù)據問(wèn)題。除了(le)Apache Hadooλ•p外(wài),另外(wài)9個(gè)大(dà)數(sδ₩≤hù)據技(jì)術(shù)也(yě)是(shì)必須要(<σγyào)了(le)解的(de)。
Apache Samza
Google Cloud Data Flow
StreamSets
Tensor Flow
Apache NiFi
Druid
LinkedIn WhereHows
Microsoft Cognitive Ser'↓vices
Apache Flink:是(shì)一(yī)個(gè)高(gγ✘↕¶āo)效、分(fēn)布式、基于Java實現(xiàn)的(de)通(tōng♠♥)用(yòng)大(dà)數(shù)據分(fēn)析引擎,它具有(yǒu)分ε©∞↕(fēn)布式MapReduce一(yī)類平台的(de)高(gāo)效性、 ¶靈活性和(hé)擴展性以及并行(xíng)數(shù)據庫查'♦詢優化(huà)方案,它支持批量和(hé)基于流的(de)數→(shù)據分(fēn)析,且提供了(le)基于Java和(₩®®☆hé)Scala的(de)API。這(zhè)是(shì)一(yī)種由 ™∑社區(qū)驅動的(de)分(fēn)布式大(dà)數(shù)≠ ₩φ據分(fēn)析開(kāi)源框架,類似于Apa≠✘che Hadoop和(hé)Apache Spark。它的(♦"≈de)引擎可(kě)借助數(shù)據流和(hé)內(nèi)存中(in-mΩγ₹emory)處理(lǐ)與叠代操作(zuò)改善性能(néng₹≈ ∏)。目前Apache Flink已成為(wèi)一(yī)個(gè)頂級Ω♣≈項目(Top Level Project,TLP),于2014年(ni∑₩"án)4月(yuè)被納入Apache孵化(¶♣πhuà)器(qì),目前在全球範圍內(nèi)有(yǒu)很(hěn§₩"←)多(duō)貢獻者。

Flink受到(dào)了(le)MPP數(shù)據庫技(jìδ♦δ)術(shù)(Declaratives、Query ♥σ♦₽Optimizer、Parallel in-memo☆'ry、out-of-core 算(suàn)法)和(hé)Hadoop≈©Ω MapReduce技(jì)術(shù)(Mass∏©ive scale out, User Defined func↑∑tions, Schema on Readλ )的(de)啓發,有(yǒu)很(hěn)多(duō)獨特功能(néng) ><≤(Streaming, Iterations, Dataflow, G©™eneral API)。詳細了(le)解Apache Samza:是(shΩ↓ì)一(yī)個(gè)開(kāi)源、分(fēn)布式的(deΩ¥★∞)流處理(lǐ)框架,它使用(yòng)開(kāi)源分(f©∞ēn)布式消息處理(lǐ)系統Apache Kafka來(lái)實現(x₹↔γiàn)消息服務,并使用(yòng)資源管理(lǐ)器(↑ ×qì)Apache Hadoop Yarn實現(xi>ε♥αàn)容錯(cuò)處理(lǐ)、處理(l•$± ǐ)器(qì)隔離(lí)、安全性和(hé)資源管理(lǐ)。該技(jì)術(φαβshù)由LinkedIn開(kāi)發,較初目的↕β(de)是(shì)為(wèi)了(le)解決Apache Kafka•₹§™在擴展能(néng)力方面存在的(de)問(wèn ♠↑)題,包含諸如(rú)Simple API、M®σanaged state、Fault Tolerant、DurΩ×£★able messaging、Scalable、₽₽ Extensible,以及Processor Isolation等功能(né¶₹♦≥ng)。

相(xiàng)關廠(chǎng)商₹φ∑λ內(nèi)容滴滴出行(xíng)iOS客©≠←ε戶端架構演進之路(lù)!微(wēi)信客戶端✘§€£如(rú)何應對(duì)弱網絡!函數(shù)✔×γ式編程中的(de)Swift與Swift中的(de)函數(shù)式編程!你(☆₹♣"nǐ)離(lí)成為(wèi)一(yī)位合格的(de)技(jì)術(s®÷λ©hù)領導者還(hái)有(yǒu)多(duō)遠(yuǎn)?國(guó)®際範 較前沿 不(bù)容錯(cuò)過的(de)容器(qì)技(♥§jì)術(shù)盛會(huì)相(xiàng)關贊助商

GMTC全球移動技(jì)術(shù)大(dà)會(huì)•σ2016年(nián)6月(yuè)24→日(rì)-25日(rì),北(běi)京,點擊了(l∑§₽e)解詳情!Samza的(de)代碼可(kě₽™✔)作(zuò)為(wèi)Yarn作(zuò)業(≠₹yè)運行(xíng),還(hái)可(kě)以實施Stream☆ '∏Task接口,借此定義process()調ε¶'用(yòng)。StreamTask可(kě)以在任務實例內(nèi)部運行§>(xíng),其本身(shēn)也(yě)位于一(yī)個(gè)Yaσ®¶rn容器(qì)內(nèi)。詳細了(le)解Cloud Dπ♦↓ ataflow:Dataflow是(shì)✘×一(yī)種原生(shēng)的(de)Google↑∞✔ Cloud數(shù)據處理(lǐ)服務,≥αβ是(shì)一(yī)種構建、管理(lǐ)和(hé >β)優化(huà)複雜(zá)數(shù)據流水(φ÷•↔shuǐ)線的(de)方法,用(yòng)于構®™建移動應用(yòng),調試、追蹤和(hé)±¥監控産品級雲應用(yòng)。它采用(yòng)了(le)Google內(nè₽€φβi)部的(de)技(jì)術(shù)Flume和♠♣(hé)MillWhell,其中Flume用(yòng)于數(shù)據φ±的(de)高(gāo)效并行(xíng)化(huà∞♠☆)處理(lǐ),而MillWhell則用 ±(yòng)于互聯網級别的(de)帶有(yǒu)很¶₽×(hěn)好(hǎo)容錯(cuò)機(jī)制(zhì)的(de)流←®£處理(lǐ)。該技(jì)術(shù)提供了(le)簡單的(de)編程模型,>₽€×可(kě)用(yòng)于批處理(lǐ)和(hé)流式數(sh★≤£∞ù)據的(de)處理(lǐ)任務。該技(jì)術(shφ↕∏ù)提供的(de)數(shù)據流管理(lǐ)服務可(kěσ∑)控制(zhì)數(shù)據處理(lǐ)作(zuò)業(yè)的(de)執行•∞(xíng),數(shù)據處理(lǐ)作(zuò)業(yè)可(kě)使≤♣用(yòng)Data Flow SDK(Apachδ≥≥₽e Beam)創建。

Google Data Flow為(wèi)數(shù)據相≠₽¥(xiàng)關的(de)任務提供了(le)管理(lǐ)、監視(shì)和(®π↑←hé)安全能(néng)力。Sources€→"和(hé)Sink可(kě)在管線中抽象地(dì)執行(xΩ♥ íng)讀(dú)寫操作(zuò),管線封裝而成的(de)整個(gè)¥ ♠計(jì)算(suàn)序列可(kě)以接受外λπ ±(wài)部來(lái)源的(de)某些(xiē)↓&σ輸入數(shù)據,通(tōng)過對(duì)數(sh'¶ù)據進行(xíng)轉換生(shēng) ←×∑成一(yī)定的(de)輸出數(shù)α'據。了(le)解詳情StreamSets:St±☆ΩreamSets是(shì)一(yī)種專門(mén)針對(duì)傳輸中數 ₩(shù)據進行(xíng)過優化(huà)的(de)數(shù)據$♦處理(lǐ)平台,提供了(le)可(kě)視(shì)λ♣化(huà)數(shù)據流創建模型,通(tōng)過開(kāi) "™源的(de)方式發行(xíng)。該技(jì)術(shù)可(kě)部§<€δ署在內(nèi)部環境或雲中,提供了(le)豐富的(de)監視(shì§←©)和(hé)管理(lǐ)界面。

數(shù)據收集器(qì)可(kě)使用(yòng)數(shù)據管≤π©↕線實時(shí)地(dì)流式傳輸并處理(lǐ)€☆εδ數(shù)據,管線描述了(le)數(shù)據從(cóng)源頭到(dà↓→£o)較終目标的(de)流動方式,可(kě)包含來(lái)<'δ源、目标,以及處理(lǐ)程序。數(shù)據收集器(qì)的φ∏₹₽(de)生(shēng)命周期可(kě)→ 通(tōng)過管理(lǐ)控制(zhì)台進行(x♠±íng)控制(zhì)。了(le)解詳情TensorFlow:是(shì)∑φ$繼DistBelief之後的(de)第二代機(jī)器(q₹÷€ì)學習(xí)系統。TensorFlow源λ§↓β自(zì)Google旗下(xià)的(de)Google Brain項目,主δ要(yào)目标在于為(wèi)Google全公司的(de)不(bù)同産品和λε(hé)服務應用(yòng)各種類型的(de)神經網絡機(jī)器(∑≠qì)學習(xí)能(néng)力。支持分(fēn)布式計(β jì)算(suàn)的(de)TensorFlow能(nén✘•εg)夠使用(yòng)戶在自(zì)己的(de)機(jī)器(qì∞™")學習(xí)基礎結構中訓練分(fēn)布式模型。σ÷該系統以高(gāo)性能(néng)的(de)gRPC數(sh£§↕ù)據庫為(wèi)支撐,與較近(jìn)發布的(de)Googl<>≥e雲機(jī)器(qì)學習(xí)系統互補,使用(yòng)戶能(σλ♠néng)夠利用(yòng)Google雲平台∞ ,對(duì)TensorFlow模型進行(xíng)訓練并提供服務。 σ∞這(zhè)是(shì)一(yī)種開(kāi)源軟件₹ ≈(jiàn)庫,可(kě)使用(yòng)數(shù)據流φ♦♠¶圖譜(data flow graph)進行(xíng)數(shù)值運算(su≈→àn),這(zhè)種技(jì)術(shù)已被包括DeepDream、Ra§ ∑nkBrain、Smart Replyuseε•✘d在內(nèi)的(de)各種Google項目所使用(yòng)。

數(shù)據流圖譜使用(yòng)由節點(Node)和π&(hé)邊緣(Edge)組成的(de)有(yǒ™$u)向圖(Directed graph)描述數(shù)值>≥"運算(suàn)。圖譜中的(de)節點代表數(shù)值運算(suàn)σφε•,邊緣代表負責在節點之間(jiān)進行(xíng)通↓(tōng)信的(de)多(duō)維數(s♣×hù)據陣列(張量,Tensor)。邊緣還(hái)描述了(le)節點 ¥←之間(jiān)的(de)輸入/輸出關系。“Tensor∑ ♠Flow”這(zhè)個(g★ ¶è)名稱蘊含了(le)張量在圖譜上(shàng)流動的(de)•γ¥含義。了(le)解詳情Druid:Druid是(shì)一(yī)個(₽α≤αgè)用(yòng)于大(dà)數(shù)據實時(shí)查詢和(hé)↕→ "分(fēn)析的(de)高(gāo)容錯(cuò)、高(gāo)性σ×α能(néng)開(kāi)源分(fēn)布式系統,旨在快(kuài)速處理(÷•↑lǐ)大(dà)規模的(de)數(shù)據,并能(néng)夠實現(xi≈÷Ω≈àn)快(kuài)速查詢和(hé)分(λλ≥fēn)析,誕生(shēng)于2011年βε(nián),包含諸如(rú)驅動交互式數(shù)據應用(yò<÷ng)程序,多(duō)租戶:大(dà)量并發用(yòng)戶,€π→擴展能(néng)力:每天上(shàng)萬億事¥π✔(shì)件(jiàn),次秒(miǎo)級查詢,實時(shí)分¶™>(fēn)析等功能(néng)。Druid還(hái)包含一(yī"φ)些(xiē)特殊的(de)重要(yào)功能(nén™σ₽≤g),例如(rú)低(dī)延遲數(shù)據攝入、快(kuà©↔'i)速聚合、任意切割能(néng)力、高(gāo)可(kě)用(yòng&∑)性、近(jìn)似計(jì)算(suàn)♣✘ 與精确計(jì)算(suàn)等。創建Drui ↔d的(de)較初意圖主要(yào)是(shì☆★↕)為(wèi)了(le)解決查詢延遲問(wè>•'n)題,當時(shí)試圖使用(yòng)Hadoop來(lái)實≈₩©現(xiàn)交互式查詢分(fēn)析,但(dàn)是(shì)很 ™(hěn)難滿足實時(shí)分(fēn)析的(de)需要(yào)。而≥←&Druid提供了(le)以交互方式訪問(wèn)數(shù$σ↓ )據的(de)能(néng)力,并權衡了(le)查詢的(de)靈活β÷ 性和(hé)性能(néng)而采取了(le)特殊的(de)存儲格式₽∞↑。(點擊放(fàng)大(dà)圖像)

該技(jì)術(shù)還(hái)提供了(le)其他(tā)實用(yòγ"∑λng)功能(néng),例如(rú)實時(shí)節點、曆史節★©點、Broker節點、Coordinator節點、使用(yòng)基于JS₽&ON查詢語言的(de)索引服務。了(le)解詳情Ap ±® ache NiFi:Apache NiFi是(shì)一(y<☆λ☆ī)套強大(dà)可(kě)靠的(de)數(shù)據處理(lǐ)和(h∏φé)分(fēn)發系統,可(kě)用(yòng)于對(duì)<₩數(shù)據的(de)流轉和(hé)轉換創建有(y₽™≤ǒu)向圖。借助該系統可(kě)以用(yòng)圖¥∏←形界面創建、監視(shì)、控制(zhì)數(shù)據 €流,有(yǒu)豐富的(de)配置選項可(kě)供使用(yòng)™≤,可(kě)在運行(xíng)時(shí)修改數(shù)據流©φσ,動态創建數(shù)據分(fēn)區(qū)。此♠∑±外(wài)還(hái)可(kě)以對(d↕ &uì)數(shù)據在整個(gè)系統內(nèi)的(de)流動進↓λ行(xíng)數(shù)據起源跟蹤。通(tōng)過開(kā★≠±€i)發自(zì)定義組件(jiàn),還(hái)可(←↔★→kě)輕松對(duì)其進行(xíng)擴展。(點擊放(f×π àng)大(dà)圖像)

Apache NiFi的(de)運轉離(l∑↕ í)不(bù)開(kāi)諸如(rú)FlowFi★ le、Processor,以及Conneδ<±ction等概念。了(le)解詳情LinkedIn WhereHows:→↕←₩WhereHows提供帶元數(shù)據搜索的(de)企業ε€★≤(yè)編錄(Enterprise catalog),可(>λkě)以讓您了(le)解數(shù)據存儲在哪裡↕ ↑(lǐ),是(shì)如(rú)何保存到(dào)那(nà)裡(lǐ)的β(de)。該工(gōng)具可(kě)提供協作(₽¶σzuò)、數(shù)據血統分(fēn)析✘ ↑β等功能(néng),并可(kě)連接至多(duō)種數(shù)據源和(↑≈hé)提取、加載和(hé)轉換(ETL)工(gōng)具。(點擊放(fàng)β 大(dà)圖像)

該工(gōng)具為(wèi)數(shù)據發現(xiàn)提供了(✔₩φ®le)Web界面,支持API的(de)後端λ&★€服務器(qì)負責控制(zhì)元數(shù)據的(de)爬網(Crawlin<'δg)以及與其他(tā)系統的(de)集成。了(le)解詳情Microsoft♥↑ Cognitive Services:該技(jì$♣')術(shù)源自(zì)Project Oxford和(hé)Bin ₩g,提供了(le)22種認知(zhī)計(j≤"₩₹ì)算(suàn)API,主要(yào)分(fēn)類包括:♦♣Ω"視(shì)覺、語音(yīn)、語言、知(zhī)識,σ≈¶以及搜索。該技(jì)術(shù)已集成于Cort✘≠εana Intelligence Suite。(點擊放(fàng)大(dà)圖<∞∑∑像)

這(zhè)是(shì)一(yī)種開(kāi)∏₩★™源技(jì)術(shù),提供了(le)22種不(bù)同的(de)認知♦↑≤♥(zhī)計(jì)算(suàn)REST API,并為(wèi)開(kāi)™∏發者提供了(le)适用(yòng)于Windows、IOS、Android≈÷★≥以及Python的(de)SDK。