日日夜夜免费无卡顿,国内精品久久,久章草在线视频观看,天天操天天干天天人天天干,国产二区亚洲三区,国产自拍久久久国产无码,91免费 无码 国产在线观看,国产精品蝌蚪,日本美女家庭教师黄色网站,天天操猛猛操,国产无遮挡又黄又爽在线观,天天综合网精品视频7799,囯产夜轮视屏,五月丁香六月综合人妻,人人草人人干人人,青草影院国产

當(dāng)前位置:首頁 > 資訊中心 > 企業(yè)動態(tài) > 正文

專訪飛笛科技創(chuàng)始人CTO姚坤:這是數(shù)據(jù)+實(shí)干的年代

www.help-services.cn  2019-09-20 09:07  

  原標(biāo)題:專訪飛笛科技創(chuàng)始人CTO姚坤:這是數(shù)據(jù)+實(shí)干的年代

  經(jīng)歷過三次技術(shù)浪潮之后,AI正引發(fā)越來越多年輕人離開大廠選擇創(chuàng)業(yè)。

  2015年以前,姚坤還是騰訊某研發(fā)小組負(fù)責(zé)人,此后他辭去穩(wěn)定的工作加入飛笛科技出任創(chuàng)始人CTO,聯(lián)合兩位資深財(cái)經(jīng)媒體人,在距離騰訊大廈一樓之隔的松日鼎盛開啟了一段未知的創(chuàng)業(yè)之旅。

  這恰好與2016年AlphaGo所掀起的人工智能熱潮同步。姚坤認(rèn)為,事件,社交類信息的處理,加載金融場景,是一件很酷又充滿想象力的事業(yè)。

  他指出,正是由于當(dāng)下AI前沿技術(shù)的免費(fèi)共享,決定了小公司與大公司的技術(shù)差距實(shí)際上并不大,但對行業(yè)的理解力和方法論決定了事情的成敗。目前財(cái)經(jīng)數(shù)據(jù)領(lǐng)域的AI應(yīng)用還處在初級階段,其中挑戰(zhàn)最大的就是飛笛所在的智能投研市場。

  四年多的探索過程中,飛笛曾經(jīng)“走一步就掉一個坑,爬起來后再掉到另一坑”,逐層疊加這些技術(shù)積累并進(jìn)化后,接下來公司將推出基于全網(wǎng)社交大數(shù)據(jù)的上市公司情緒感知系統(tǒng)。

  雖然還處在弱人工智能時代,但AI給財(cái)經(jīng)數(shù)據(jù)的處理和應(yīng)用已經(jīng)帶來改變。姚坤表示,在當(dāng)下行業(yè)底層技術(shù)充分開放的階段,AI創(chuàng)業(yè)要更注重下沉,并了解AI的能力邊界,再找準(zhǔn)突破點(diǎn)推進(jìn)下去。

  AI初階創(chuàng)業(yè)的考驗(yàn):數(shù)據(jù)積累與執(zhí)行力

  《21世紀(jì)》:作為一名扎根四年的AI創(chuàng)業(yè)者,你覺得當(dāng)前AI創(chuàng)業(yè)的機(jī)會和挑戰(zhàn)是什么?

  姚坤:李開復(fù)在其《AI·未來》一書中總結(jié)過AI所處的階段,已經(jīng)從“發(fā)明的年代”過渡到“數(shù)據(jù)和實(shí)干的年代”。深度學(xué)習(xí)算法早在2006年就獲得了突破。在2016年AlphaGo戰(zhàn)勝李世石之后,深度學(xué)習(xí)在國內(nèi)的熱潮才被點(diǎn)燃。最近幾年AI的發(fā)展,都不過是依賴深度學(xué)習(xí)這項(xiàng)大發(fā)展所做的漸進(jìn)式改善和優(yōu)化。在這個過程中,AI迅速蔓延到工業(yè)界。這一階段的特點(diǎn)是技術(shù)門檻不斷降低,對數(shù)據(jù)和執(zhí)行落地的要求在提高。

  那么創(chuàng)業(yè)者的機(jī)會有:第一,AI 前沿技術(shù)免費(fèi)共享,新的理論可以被快速試驗(yàn)和應(yīng)用,決定了小公司在技術(shù)上與大公司差距并不大。第二,傳統(tǒng)行業(yè)效率提升和自動化帶來新的商業(yè)機(jī)會。第三,海量數(shù)據(jù)價值尚有待充分發(fā)掘,比如沉淀已久的化石級數(shù)據(jù)(比如手寫的文稿),由移動應(yīng)用和傳感器產(chǎn)生的新增數(shù)據(jù)(豐富了用戶畫像),獨(dú)特的另類數(shù)據(jù)(比如啤酒和尿布銷量的關(guān)聯(lián)度)等。

  挑戰(zhàn)方面,首先,如果一個創(chuàng)業(yè)者想深入產(chǎn)業(yè)推動變革,那么他對行業(yè)的理解力和方法論決定了事情的成敗,或者說他除了懂AI,還得懂行業(yè)。其次,數(shù)據(jù)價值凸顯,應(yīng)用效果的提升主要靠數(shù)據(jù)規(guī)模和質(zhì)量驅(qū)動,因此數(shù)據(jù)的獲取和處理能力是競爭壁壘的關(guān)鍵。

  海量數(shù)據(jù)的特征是數(shù)據(jù)源分散,難收集,雜質(zhì)多,難清洗,數(shù)據(jù)異構(gòu),難融合。難點(diǎn)相當(dāng)多。

  《21世紀(jì)》:飛笛的定位是“專注在財(cái)經(jīng)數(shù)據(jù)智能分析的金融科技公司”,你覺得當(dāng)前國內(nèi)AI在財(cái)經(jīng)數(shù)據(jù)應(yīng)用領(lǐng)域,公子耳卿處在什么階段?

  姚坤:財(cái)經(jīng)數(shù)據(jù)領(lǐng)域整體還屬于人工智能滲透的初期,機(jī)會很多,也都不容易。比較成熟的有個人征信,量化交易,還在路上的有文檔審核校對,撰寫報告,智能客服,風(fēng)控,理財(cái),比較遠(yuǎn)的有智能投顧,智能投研等。

  個人征信和量化交易需求明確得較早,是因?yàn)閿?shù)據(jù)比較完善,結(jié)構(gòu)化程度高,所以比較好介入。但是面臨的問題也比較多,比如個人征信誕生了很多灰色的數(shù)據(jù)爬取和交易,量化交易方面,各家的“信息優(yōu)勢”差異很小,能否在市場勝出靠的是發(fā)現(xiàn)新的數(shù)據(jù)因子,除了大名鼎鼎的文藝復(fù)興科技,大部分平淡無奇。

  文檔審核,報告撰寫,以及基于財(cái)報數(shù)據(jù)的風(fēng)控,主要基于金融行業(yè)一大類規(guī)范文檔的識別,利用模板和預(yù)設(shè)邏輯可以較好的實(shí)現(xiàn)。參與這類業(yè)務(wù)的主要是有技術(shù)基因的AI公司。

  挑戰(zhàn)最大的是飛笛所處的智能投研領(lǐng)域。它的應(yīng)用領(lǐng)域廣,需求場景很多,包括信息和情報監(jiān)測,風(fēng)控,投資,投顧,機(jī)構(gòu)數(shù)據(jù)中臺,垂直搜索,App前端,展業(yè)獲客等。智能投研對能力要求門檻高,因?yàn)樯婕暗絅LP(自然語言處理)。另外,業(yè)務(wù)縱深也是一大挑戰(zhàn),進(jìn)入具體場景就能發(fā)現(xiàn)業(yè)務(wù)邏輯很復(fù)雜,水很深。

  財(cái)經(jīng)數(shù)據(jù)處理的挑戰(zhàn):細(xì)化和疊加智能化技術(shù)

  《21世紀(jì)》:飛笛在把AI技術(shù)應(yīng)用到財(cái)經(jīng)數(shù)據(jù)處理過程中,最大的難點(diǎn)是什么?

  姚坤:我們目標(biāo)比較明確,就是想做財(cái)經(jīng)資訊的自動分類和標(biāo)簽,形成一個信息引擎。資訊的分類與打標(biāo)簽屬于NLP這個方向,相比圖像識別,技術(shù)成熟度比較低。

  原因一方面是AI在語義理解上還差得很遠(yuǎn),另一方面中文有自身的特點(diǎn),比如表達(dá)簡單但內(nèi)涵豐富,需要依靠上下文和讀音才能準(zhǔn)確識別。所以我們盡量繞開語義理解,選擇可行的方向。但中文是繞不開的,得額外照顧。

  《21世紀(jì)》:有沒有走過一些彎路,掉進(jìn)過一些坑?

  姚坤:感覺是走一步就掉一個坑,爬起來后再掉到另一坑。我們從數(shù)據(jù)抓取入庫就遇到了很多問題,首先是數(shù)據(jù)源分散,每個信源的網(wǎng)站結(jié)構(gòu)各不相同,需要多種數(shù)據(jù)解析方式,還需要攻克一些反爬措施。

  其次是數(shù)據(jù)異構(gòu)。比如有些網(wǎng)站的文章有摘要,有些沒有,有些網(wǎng)站有作者字段,有些則沒有,有些文章發(fā)表時間精確到分鐘,有些則只有日期。這樣融合在一起時,各種字段殘缺。

  進(jìn)入到資訊分類打標(biāo)簽階段,問題就更多。列幾類我們在信息抽取時遇到的麻煩,這主要在于表達(dá)方式靈活多樣。比如對日期時間的識別,會有很多表述:“2019年8月31日-9月24日”,“06∶35”,“9月舉行”,“本月5日”,“10分鐘前”,“2天后”,這些要預(yù)埋很多模板邏輯來提取。

  還有歧義詞的問題,這比較分散,比如有家上市公司叫“好想你”,為了識別這三個字在一篇文章中到底是不是上市公司,需要詞法分析和句法分析輔助判斷。

  另外就是如何排除干擾項(xiàng),例如,“國泰君安證券研究所所長黃燕銘對2019年余下的A股交易時間進(jìn)行了預(yù)判”。這條按模式會匹配到“國泰君安”這家上市公司,但內(nèi)容并不是這家公司的事情,需要補(bǔ)充規(guī)則或喂語料來識別。每一個坑就意味著一項(xiàng)工藝待突破。

  《21世紀(jì)》:這些微小的,不斷疊加的工藝突破對創(chuàng)業(yè)公司意味著什么?

  姚坤:這是每一個AI創(chuàng)業(yè)公司都要經(jīng)歷的過程。大的方向和技術(shù)框架目前比較成熟,剩下的都是一個個小問題的解決和積累。比如針對分類或打標(biāo)簽任務(wù),技術(shù)方向上,可以選擇傳統(tǒng)的模式匹配——人工預(yù)先設(shè)定好模板規(guī)則和目標(biāo)關(guān)鍵詞,由機(jī)器自動進(jìn)行字符串正則匹配,也可以選擇深度學(xué)習(xí)——基于DNN(深度神經(jīng)網(wǎng)絡(luò))的NLP已經(jīng)形成了一整套相關(guān)技術(shù),包括詞向量,句向量,編碼器-解碼器,注意力機(jī)制,transformer和各種預(yù)訓(xùn)練模型,而目前大熱的預(yù)訓(xùn)練模型是以無監(jiān)督的方式使用大規(guī)模文本語料庫進(jìn)行預(yù)訓(xùn)練,然后使用特定任務(wù)的小數(shù)據(jù)集進(jìn)行微調(diào)。在實(shí)施過程中,每一種方法都可以嘗試,綜合使用,這考驗(yàn)的是團(tuán)隊(duì)執(zhí)行力。

  《21世紀(jì)》:機(jī)器學(xué)習(xí)依賴高質(zhì)量的數(shù)據(jù),財(cái)經(jīng)信息的處理在這方面是否體現(xiàn)得更明顯?

  姚坤:前面我們提到技術(shù)的前沿在不斷推進(jìn),但針對財(cái)經(jīng)領(lǐng)域的信息處理,目前仍然是非常依賴數(shù)據(jù)。首先標(biāo)注門檻高,需要有行業(yè)相關(guān)背景知識。其次,數(shù)據(jù)有隱含歧視的問題,通過數(shù)據(jù)分析,可能會得到歧視性的結(jié)果。另外數(shù)據(jù)有偏差,數(shù)據(jù)在標(biāo)注的時候請人來做,人是會偷懶的,公子耳卿會想最簡單的方法去標(biāo)注,結(jié)果標(biāo)注的數(shù)據(jù)千篇一律,基于這樣的數(shù)據(jù)學(xué)的模型也只能達(dá)到標(biāo)注范圍內(nèi)的好效果,到真實(shí)數(shù)據(jù)上一跑,就不好使了。此外還有數(shù)據(jù)隱私保?等問題。

  實(shí)際落地中,上面提到的技術(shù)我們都會結(jié)合使用。效果跟人力投入正相關(guān),訓(xùn)練機(jī)器是個長期磨合的事情。在這個過程中,我們創(chuàng)建了飛笛自有的非結(jié)構(gòu)化數(shù)據(jù)的價值評估體系,生成了上市公司圖譜以及上市公司事件庫。

  應(yīng)用未來:搭建上市公司情緒感知系統(tǒng)

  《21世紀(jì)》:聽說飛笛即將推出基于全網(wǎng)社交大數(shù)據(jù)的上市公司情緒感知系統(tǒng)?

  姚坤:飛笛從2015年成立,已經(jīng)有超過4年的財(cái)經(jīng)數(shù)據(jù)儲備,數(shù)據(jù)包含雪球,微信等活躍社交媒體,傳統(tǒng)媒體及門戶,政府官網(wǎng),垂直行業(yè)網(wǎng)站等,也包括結(jié)構(gòu)化場內(nèi)數(shù)據(jù)接入如萬得等。今年開始得到股東新浪集團(tuán)的支持,接入了微博全量財(cái)經(jīng)社交大數(shù)據(jù)。

  我們計(jì)劃于10月推出微沸點(diǎn)情緒感知系統(tǒng),它是針對上市公司,投資者和金融機(jī)構(gòu),提供的一款基于新聞媒體和社交大數(shù)據(jù)的實(shí)時風(fēng)險預(yù)警,機(jī)會提示跟蹤系統(tǒng),同期還將在《21世紀(jì)經(jīng)濟(jì)報道》旗下21財(cái)經(jīng)APP,微博推出上市公司情緒異動指數(shù)。我們認(rèn)為,這是飛笛四年厚積薄發(fā)的第一款重量級產(chǎn)品。

  《21世紀(jì)》:社交言論大數(shù)據(jù)的處理難度是不是更艱巨了?

  姚坤:難度更高了。一方面相對于傳統(tǒng)媒體生產(chǎn)的新聞資訊,微博這種匿名社交的內(nèi)容更隨意,暗語和表情更多。因此對信息做提純,分類及標(biāo)簽化難度都變大了。另一方面是結(jié)合業(yè)務(wù),有新的能力需要補(bǔ)。比如計(jì)算信息與它講到的公司的關(guān)聯(lián)度,計(jì)算情緒異動指數(shù)等。

  在此過程中,我們創(chuàng)建了上市公司事件庫,這是一個以公司為核心,多維標(biāo)簽化的資訊庫,比如信息是正向還是負(fù)向,信息是描述公司產(chǎn)品,高管還是子公司。另外,我們還創(chuàng)建了資訊的價值評估方法,從時間,熱度,價值和相關(guān)性幾個維度對信息進(jìn)行解讀,比如信息的傳播量,重要度等。我們之前積累的資訊標(biāo)簽化和知識圖譜起到了重要的能力支撐。

  《21世紀(jì)》:飛笛的起步恰好與AlphaGo戰(zhàn)勝李世石引發(fā)的中國AI浪潮同步,能否暢想下接下來的AI時代是什么樣?

  姚坤:如果機(jī)器能自己利用先驗(yàn)知識,舉一反三,主動學(xué)習(xí)新知,就完美了。也就是強(qiáng)人工智能,但目前來說還遠(yuǎn)遠(yuǎn)看不到。

  大膽猜想一下,理想未來是結(jié)合常識圖譜來給AI鋪墊底層價值觀,利用強(qiáng)化學(xué)習(xí)讓AI沿著設(shè)定的價值觀自己摸著石頭過河。

  但是眼前對于想?yún)⑴cAI的創(chuàng)業(yè)小公司,務(wù)實(shí)的方向還是下沉到傳統(tǒng)行業(yè),利用已經(jīng)積累的數(shù)據(jù),改善流程,提升效率。趁著目前AI前沿技術(shù)還能免費(fèi)共享,與大公司技術(shù)差距還不大的好年代,擼起袖子加油干。飛笛與業(yè)內(nèi)一些大公司也經(jīng)常有交流,對財(cái)經(jīng)資訊的結(jié)構(gòu)化處理這個點(diǎn),飛笛比這些大公司更有優(yōu)勢。最后,入坑之前,還是先了解下AI的能力邊界,合理預(yù)期,找到需求場景和能力滿足的結(jié)合點(diǎn)。

本文地址:http://www.help-services.cn/info/2019/09/2009071638.html

打印該頁 】【 關(guān)閉窗口
相關(guān)資訊