人工智能

實現人工智能落地 你還差一個“數據分析流水線”的距離

在智慧生產場景,生產制造商可以在生產線上利用深度學習,尤其是圖像識別,將產品的質量檢測自動化。比如自動檢測產品表面有沒有劃傷、有沒有零部件的缺失、有沒有標簽的錯位。研究表明,相比人工檢測,智慧檢測可以大幅提高生產效率,并且大大降低生產成本。但是智慧檢測只有深度學習是遠遠不夠的,它需要一條完整的“數據分析流水線”才能落地。

“數據分析流水線”四步走

第一步,從生產線上收集大量的原始數據。這些數據可能來自于生產線上的攝像頭或者來自于生產設備、連接器、探測器、傳感器等等,這些數據有些是實時收集、有些是批量收集,有些數據是結構化、半結構化,也有些數據是非結構化,比如圖像圖形等等。

第二步,對原始數據進行大量的清理和預處理。因為這些數據雜亂無章,我們需要對它們進行識別和驗證,我們要濾出數據噪音,查補缺失的數據,校正有錯誤的數據,我們可能還要轉換數據的類型以及結構,還要對數據進行整合。只有清理過的數據才能夠有效的進行數據分析。

第三步,進行數據分析。利用機器學習、深度學習對清理過的數據進行歸納總結,來判斷這個場景是不是質量有問題,并把有質量問題的場景從生產線上排除出去。

第四步,可視化。

只有實現了這四步,智慧生產、智慧檢測才能落地。

英特爾BigDL和Analytics Zoo應運而生

在今天的生態系統中,我們可以非常輕松地找到很多相關開源技術來實現這四個步驟。這些開源技術的大部分都和Spark、Hadoop這樣的大數據平臺密切相關。

比如數據收集可以用Kafka、Spark Streaming;數據存儲可以用HBASE、HDFS、KUOU;數據分析可以用Spark SQL、Spark ML Lib;深度學習可以用TensorFlow、BigDL等等。

因此,人工智能要走出實驗室、實現落地,需要一個完整的數據分析流水線。這個流水線的20%可能是在做深度學習,但是80%都是在做數據收集、數據存儲、數據管理、數據清理、數據預處理等等,這也是為什么早前英特爾就開源了BigDL的重要原因。

英特爾BigDL是基于Spark平臺之上的一個深度學習框架。首先它的功能與流行的深度學習框架,比如說TensorFlow、Caffe、Torch功能相同。

最重要的,它是構建在非常成熟的、完整的Spark數據分析平臺之上,它可以為客戶提供端到端的從數據收集、數據存儲、數據清理、數據預處理、數據管理、機器學習、深度學習,以及最終的可視化服務。

當然有些客戶說做深度學習想用TensorFlow,可以不可以把TensorFlow和Spark這樣的數據平臺進行整合,來幫助實現落地?

為此英特爾開源了Analytics Zoo。Analytics Zoo最大的優勢就是能夠在完整的、成熟的Spark數據平臺之上支持不同的深度學習框架,比如說TensorFlow、Keras、BigDL等等。除此之外它還提供深度學習預訓練過的模型,比如圖像分析模型,文本處理文本匹配模型,異常檢測模型等等,它也提供非常簡單易用的API。因為Analytics Zoo是構建在Spark這樣的集群之上,所以它可以進行分布式的模型訓練和推理。

據了解,在過去幾個月英特爾把Analytics Zoo在英特爾最新的傲騰內存技術上和OpenVINO技術上進行優化,可以將深度學習、模型訓練以及推理性能進一步提升。

英特爾公司架構圖形與軟件集團副總裁和數據分析技術總監馬子雅

英特爾公司架構圖形與軟件集團副總裁和數據分析技術總監馬子雅表示,人工智能業務的需求牢牢地根植于數據,利用大規模數據來獲取更多的洞察需要一個完整而全面的數據戰略,要充分利用以數據為中心的基礎架構,充分利用將數據分析與人工智能無縫銜接起來的軟件創新技術。

英特爾通過BigDL和Analytics Zoo構建統一的大數據分析與人工智能平臺,幫助用戶開發部署行業應用,與眾多合作伙伴共同推進人工智能落地。

大數據分析和人工智能創新院成立

為進一步加快集成數據分析和AI的大規模創新與部署,英特爾正式宣布在中國成立大數據分析和人工智能創新院。該創新院整合了英特爾多個部門的技術資源,集中了多位分析專家、人工智能專家和技術工程師,共同幫助合作伙伴在各垂直行業開發、優化和擴展新的AI應用,并讓用戶及時了解到英特爾的創新產品組合以及相關優化的庫、軟件與工具組合。

馬子雅表示,我們一直致力于與中國市場的緊密合作,包括與學術界的合作,在開源社區的合作,與工業界許多同行以及客戶的合作。創新院的主要負責人是英特爾高級首席工程師、大數據技術全球CTO戴金權先生。

 英特爾高級首席工程師、大數據技術全球CTO戴金權

戴金權表示,我們在開源社區和很多研究院,國內外的學校都有很多合作,我們希望能夠提供這樣的技術和平臺,讓我們的用戶、客戶和合作伙伴在上面做更多的應用,通過英特爾的軟硬件技術來支持他們,讓人工智能從實驗室到最終落地。

據介紹,創新院的主要工作集中在以下三點:

  第一,加速人工智能在中國市場的落地,尤其是通過將它與數據分析進行整合來加速落地。

  第二,解決中國市場的最新需求,引領創新,創新用法、創新算法。

  第三,幫助中國市場更好地使用英特爾最新的軟件和硬件技術。

未來,英特爾還將進一步加大與中國市場、中國生態系統以及全球生態系統的緊密合作,使更多的企業和個人得益于我們最新的科技進步,使人工智能真正的做到普惠。

寫在最后,英特爾一直致力于提供端到端、全棧式人工智能解決方案。在基于英特爾至強服務器的大規模集群上和現有的數據架構基礎設施,完全可以使用英特爾開發并開源的BigDL、Analytics Zoo的技術,在現有的大數據平臺上構建新的大數據分析和人工智能的應用,提高資源利用率和端到端的開發效率,部署效率。

我還沒有學會寫個人說明!

區塊鏈十問十答

上一篇

淘寶從幾百到千萬級并發的十四次架構演進之路!

下一篇

你也可能喜歡

實現人工智能落地 你還差一個“數據分析流水線”的距離

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
重庆快乐10分苹果版本