<form id="1tbf9"><nobr id="1tbf9"></nobr></form>

          <address id="1tbf9"></address>

            <address id="1tbf9"></address>

                    <form id="1tbf9"></form>

                    ./t20190916_925363_ext.xml ./t20190916_925363_ext.xml
                    ./t20190916_925363_taonews.html
                    科學課科學連線
                    首頁  >  專題活動  >  科技館里的科學課  >  科學課直播  >  科學課科學連線
                    直播小組
                    直播小組第一時間為您呈現精彩科學事件。
                    科學連線第三期:機器人的新紀元
                    分享到:
                    2019-09-16 17:27:23
                      演講科學家:陶大程Dacheng Tao,澳大利亞悉尼大學教授、人工智能學家、澳大利亞科學院院士,歐洲科學院外籍院士

                    特邀嘉賓:趙明國,清華大學自動化系副教授、機器人控制實驗室主任

                    時間:2018128

                    地點:中國科技館206報告廳

                     

                    科學連線是由中國數字科技館和《環球科學》雜志聯合推出的前沿科學系列講座,主辦方將邀請世界知名科學家通過視頻連線或現場演講的方式,為現場觀眾帶來精彩演講。同時,主辦方還將邀請一位國內學者作為特邀嘉賓出席,與國外知名科學家對話,幫助觀眾更輕松、更深入地理解前沿科學。

                    每一期活動結束后,我們都會上傳科學家的演講視頻,整理科學家的演講實錄,供廣大科學愛好者觀看和閱讀。下面是科學連線第三期的演講科學家陶大程教授的演講內容。

                     

                    主題演講部分:

                    很高興來到中國科技館,來為大家介紹一下我們這幾年在人工智能領域做的一些工作。那么,什么是人工智能呢,大家看這樣一張照片,然后我問大家一個小的問題。這里面有多少個人?最簡單的是數這里面有多少張人臉。整體數呢,一個個的數下來去,大概要數一個多小時,然后你能數出來多少張臉呢?你能數出來大概是900多張臉。那同樣的事情,如果我們用人工智能的算法,有一臺帶有GPU的計算機,我們用3秒鐘就能完成這個事情。這個事情聽上去很簡單。但是,實際上對計算機來說這個任務并不總是這么簡單。在2017年的時候,我們差不多能檢測出來700多張人臉。后來是800多張,最近,我們大概能檢測出來900多張,跟人的performance就差不太多了。

                    但是,我們同時也發現一個問題,我們用計算機去做檢測的時候,檢測出來一些地方,然后讓人再去看一下。當時人發現這個地方沒有檢測出來,當時沒有注意到這個地方有一張臉,然后把這張圖像放大一點點,然后人一看這里確實有一張人臉。但是也有些地方計算機檢測錯誤了,檢測出來一個實景框,它覺得是一張人臉。但實際上仔細一看,它可能又不是一張人臉。所以對于每一個框,我們也可以設置一個輸出的概率,就是說大概有多少的可能性這個框是一張人臉,或者不是一張人臉。從這個例子上我們可以看出來,如果說我們把人和機器放在一起,協同地處理這件事情,那我們就能得到一個又快又好的答案。人不用一張一張地去數,計算機也可以用30秒的時間把所有的有可能的框都圈出來,再把這些低概率的框告訴人,讓人去Double check一下,看看這里是一張臉還是不是一張臉。然后就可以得出一個非常好的結論。

                    那么這個只是人工智能的一個非常簡單的應用。到底什么是人工智能呢?人工智能實際上就是機器的智能。相對于自然智能,實際上就是人的智能。所以說人工智能的目的是什么呢?人工智能的目的就是在一定程度上模仿人的智能,然后利用模仿出來的人的智能來幫助人完成一些相關的事情。這樣的話我們就需要理解什么是人的智能。什么是人的智能呢?人有四個方面的智能,那這個就是perceiving、learning、reasoningbehaving。那這四個方面的智能實際上我們都可以用一些算法來表示。這就是我們最終所期望的人工智能。

                    這幾年大家可以說是都在說深度學習,要實現人工智能必須要深度學習。為什么這么說呢?我這里舉個例子,比如說可以看一下這個視頻。這個視頻大家一看就知道在干什么,實際上的目的就是說我們希望用這些棒棒人,這些藍色系桿、綠色系桿、紅色系桿來表征人的上半身,然后以此來跟蹤人的這些特殊的關節點,手、肘、肩和頭。通過這樣的跟蹤,我們就能夠去理解人的行為。但這里面的問題就出來了。我們看到這樣的效果不太好,但是這個是在用深度學習之前最好的算法之一了。它能夠利用這些,也就是說,我們人所涉及的這些特征,然后結合概率通過性來估計人的pose。其他的地方是一些對比的算法,我們看到對比的算法可能與這個算法又要有一些差距。所以說當你不用深度學習的時候,你大概能夠達到這樣的一個狀態,但是這樣的狀態對我們來說,實際上在現實生活中,如果真的想去實用的話還是遠遠不夠的。

                    如果說我們用了深度學習,能做到什么呢?大家可以看一下這個視頻。這個是我們在今年的前幾個月所得到的一個實驗結果。我們可以看到,我們現在利用深度學習,能夠做到非常多的,非常有意思的事情。做人的檢測,行人的檢測,物體的檢測,背景的分割,場景的離解,人臉檢測,包括pose tracking。甚至我們能夠知道人臉的表情、人臉的年齡,然后估計出來人到攝像機有多遠的距離。我們并沒有用任何的激光雷達,我們也沒有用任何特殊的傳感器,僅僅是用普通的攝像機拍下來這樣的視頻,就能夠完成所有的這些事情。所以說當我們深度學習之后,我們確實能夠做很多我們原來做不了的事情,或者說我們原來做不好的一些事情。那么這個就反映出來一個特點,就是大家確實覺得,深度學習在改變人工智能的狀態,也為我們帶來了很多可以期待的事情。

                    那除了做這些基本的東西之外,實際上我們用深度學習也好,用人工智能技術也好,還能做很多非常有意思的一些應用。比如說像這個例子,大家可以看到這個視頻和剛剛的那個視頻差不太多,但是背景可以看到像一幅油畫一樣。這實際上就是利用了干網絡,配合我們其他的一些深度學習的技術,然后把背景全部換成了一種油畫的風格。當然除了換成油畫的風格外,我們還可以把它換成中國化的風格,比如像這個。甚至是換成鉛筆畫的風格,比如像這樣。

                    那么為什么人工智能的潮流再次到來呢?可以說這一波的人工智能和前兩波的人工智能熱潮還是有些不一樣的。這波的人工智能大家都說是由大數據和超算來驅動的。但實際上不僅僅是有了大數據,有了超算,還有我們這些非常厲害的人工智能的算法。當然更重要的是,我們有來自方方面面的需要。目前的這些人工智能的算法實際上相對于過去很多年,從理論的角度上來說,實際上它的進展并不是那么跨越性的。那么為什么這一輪的人工智能能夠產生這么多的影響呢,主要原因確實是跟大數據和超算有相當的關系。原來的時候我們也有神經網絡,我們也知道可以把神經網絡不斷地加深。原來比如說我們有多重,也可以把它從一層變到兩層,變到三層甚至是更多層。但是那個時候我們沒有大數據,我們用一層的神經網絡。我們都知道,這種神經網絡理論上可以估計任何形式的分布。那么這樣的話,你在不斷的增加各種各樣的隱層已經沒有必要了。而且那個時候,數據力有限,計算能力的不足,也導致大家不會吧網絡變得很深。然后就用這種三層的神經網絡就能夠達到很多我們需要的這些要求。但是它還會產生另外一個困惑,就是說這樣一個三層的神經網絡,能夠擬合任何形式的分布。什么意思呢?就是說它可以很容易的過擬合到某一個輸入的數據上。那我們都知道過擬合不是一個很好的事情,所以說如何有效地減少過擬合,后來大家就轉移到了統計學習理論上,然后用這種凸模型,因為它保證是一個唯一的求解,所以說它能夠有一個非常好的solution。但這個話就先不說了,有點遠了。那時候還有一個制約實際上就是計算能力上的不足。那時候我們計算機的資源是非常有限的,當你有了這樣的數據之后,你的模型如果過于復雜,這個優化的過程是非常困難的,所以說它是很難去實現這種多層網絡的優化。尤其到了現在這個階段,不僅僅是我們有了這些行業的需要,更重要的是我們有各種各樣先進的傳感器設備,這種非常高精度的傳感器設備,這樣的話我們可以有效地去感知環境的這些參數。利用這些參數,配合我們的智能算法,就能夠達到有效地對環境的理解和感知。

                    那么剛才我們談了人工智能實際上我們所關心的主要是四個方面,就是perceiving、learning、reasoningbehaving?,F在呢我們就先來簡單的介紹一下perceiving。Perceiving包含的功能是非常多的,有檢測、跟蹤、特征點的跟蹤、特征點的檢測、物體的檢測、物體的跟蹤。還有很多其他的相關的一些方面,包括圖像質量評估和視頻的質量評估等等。那么我們先來說一下物體檢測??梢钥匆幌逻@是現代物體檢測的一個基本框架。比如說這是一張圖像,這里面有兩只鳥,那我們物體檢測的目標是什么呢?就是把這兩只鳥檢測出來,實際上就是要畫兩個框,把這兩只鳥都框住。我先說一下傳統的方式是怎么做的。剛開始的時候我們展示了一張圖片,就是檢測這些相關的人臉對吧。那么在檢測人臉的時候我們是怎么做的?實際上就是,我們用一些非常小的框,尺寸比如說可能從11×11開始,一直變化到21×21,間隔是2,11×11、13×13,15×15等等,一直變化到21×21,或者當然你也可以變化到更大,取決于你想檢測出來多大的人臉。那么在這樣的檢測過程中,我們可以把這樣的小檢測框從圖像的左上角然后逐像素地開始往后挪。每挪一次實際上就產生一個blob。這么一個blob實際上就是我不知道這個區域是一張臉還是不是一個人臉,我就把這個區域丟到一個人臉的分類器里去,然后來判斷這是否是一張臉。那么這個意思是什么呢?就是說我們要訓練一個非常強大的分類器,對于任何一個小的patch或者blob來說,我們要能夠精確地說出這一個patch或者blob是一張臉還是不是一張臉。這樣的挪動過程中,我們會產生多少個框呢?可能根據圖像的大小,會產生數百萬、數千萬甚至是數億的這樣的一些框。這時候你要把這些框丟到后續的分類器去分類,如果說你的分類器非常復雜的話,整個時間周期是非常長的。比如說檢測一張人臉,當你的圖像比較大的時候,你可能需要幾分鐘的時間。這樣的話對于我們實際的需要來說,是完全達不到我們的實際需要的。我們需要一張圖像能夠在1/24秒,甚至是更快的時間內,能夠把它處理完。所以說這樣的方式就達不到我們實時的需求。那么怎么去處理呢?我們可以通過proposal network。Proposal network實際上就是說這里面有可能有一個區域是有一張臉,但是不會產生大量的這樣的區域,只會產生少量的這樣的區域,然后來丟給后續的分類器來做分類。這樣的話可能我們就把原來的幾億個框減少到幾千個框,就能夠做到實時的標準。對于人臉是這樣的,對于一般的物體檢測就更是這樣的需要。因為物體檢測你所要面臨的物體的種類非常多,有鳥,有動物,各種各樣的動物,各種各樣的物體。所以說當你訓練這樣一個復雜的分類器的時候,它的這種時間開窗就非常的龐大。目前的做法是什么樣呢?是先用一個backbone network來抽取特征,然后輸入到FPA網絡中來看哪些區域有可能是我們要檢測的物體,然后再把它同時分類出來。

                    檢測完后,下面要做的事情就是跟蹤。實際上這是一些簡單的單目標跟蹤的實驗結果。我們可以看到,目前來說用深度學習來做單目標跟蹤已經不是一個很大的問題。單目標跟蹤中其實會遇到很多問題,比如說像圖像的集合變換,光照的變換,物體形狀的變換等等,都會導致跟蹤變得非常的困難。但是到了多目標跟蹤,這個任務可能就會變得更加的復雜。當兩個物體這樣的交錯的時候,就會產生這種遮擋。當一個物體被遮擋之后,從被遮擋再出來的時候,很有可能就會把這個物體當做另外一個物體,這個對我們來說我們不希望是這樣的。我們希望知道的是,這個物體雖然被遮擋了之后,但是我們希望它還是同樣的原來的物體。所以說多目標跟蹤就是一個更為復雜的問題。當我們有了這種很有效的多目標跟蹤的算法之后,那我們就能夠有效地去做球場運動員的行為的分析,去理解他們在球場的performance。

                    perceiving的過程中,還有一個非常關鍵的任務,就是多重恢復。就是說我如何從單張照片中恢復圖像的每一個像素的深度信息。這個聽起來很神奇,大家直覺上的感覺是這個事情很困難。確實很困難,因為從理論上來說,這個問題是一個病態問題。什么是病態問題呢?如果大家學過一點簡單的線性代數的知識就都知道,比如說我現在有三個位置變量X、Y、Z。但是我只有兩個線性獨立的方程組。這個時候我想要你把這三個變量求解出來,這個不可能,因為你有無數種可能性。實際上對于圖像也是這樣的,比如說在三維層面中有這樣的一條曲線。經過投影之后,這條曲線投影在一個平面上之后就編程了一條直線。那我再問你這條直線在原來的三維空間中是一條直線還是一條曲線。這個時候你是不知道的,因為你不知道它的深度信息,所以你是不知道的。從這個角度來說,從單張彩色照片中恢復深度信息似乎是不可能的??墒?,大家看這樣的一張圖像,我問一下在這張圖像上,這個黑衣服男子的高度在圖像上大概比如說是10厘米,那我現在問你一個問題,你相不相信一個成年男子他的物理身高是10厘米?你不相信。那么你會認為這個成年男子的身高大概是多少呢?大概是在1.75米到1.80米左右這個范圍內。那我同時也問你,你相不相信一棵樹在照片中的高度可能大概就是15厘米?同時你也不相信。所以說這張圖像里面,它carry了非常多的這種semantic information,而這些semantic information比如說像人的身高,人的陰影shadow,這些樹的高度,這些人和人之間的距離,包括各種各樣的信息。這些信息實際上就可以告訴你這張圖像上的某一個像素它大概距離攝像機有多遠,也就是它的深度是多少。

                    那么過去在深度學習之前我們是如何做這個東西的?在深度學習之前,通常來說我們要在每一個像素上抽取圖像的特征,比如像SIFT,還有各種各樣我們認為設定的特征。然后有了這些人為設定的特征之后,我們把它拼在一起,放到一個概率圖模型里,比如說馬爾科夫場里面,就可以去估計它的深度,然后因為我們有對照數據,就可以去回歸這個深度?;貧w出來這個深度之后,我們就弄好了這樣的一個馬爾可夫場。有了這樣一個訓練好的概率模型之后,來了一張新的圖像之后我們就可以去估計它的深度了。但是這個效果就不是特別的理想,誤差很大。

                    因此,我們就可以引入深度學習?,F在深度學習大家都知道,在transform complexation的每一個具體的任務。同時我們也可以用深度學習來transform molecular recovery。那怎么做呢?我們就可以先利用一個簡單的抽取網絡,然后結合一個最簡單的比如說soft max,就可以來解決這樣的一個問題。但是直接去求解這樣的問題之后,我們發現直接地回歸效果并不是特別的理想,雖然說比用傳統的馬爾可夫隨機場要好,但它還不是特別的理想。這樣的話就需要我們本身去理解這樣的一個問題,然后設計更好地特征提取的方式,設計更好的loss layer損失層,損失函數,然后來求取這個信息,就能得到更好地一個效果。比如說我們可以把這樣的一個模型應用到輔助駕駛系統中,我們就能夠有效地去估計前行車輛和你駕駛的車輛之間的距離,你也能夠估計出來道路的位置等等。

                    剛才我們看到了pose tracking,不用深度學習的pose tracking的效果以及可以看到。那如果使用深度學習會得到什么樣的效果?我們可以得到這樣的一個效果,除了這樣一種跳舞的視頻,還可以有一些更為復雜的街舞的視頻,我們都可以有效地去跟蹤人的pose。這樣的話我們不僅僅能夠track籃球場上、足球場上每一個球員的位置,同時還能夠去理解他們的行為。

                    人臉識別可能大家覺得已經不算是一個非常陌生的話題了,像我們現在有的商湯科技也好,康氏科技也好,等等這些公司都在人臉識別上取得非常好的效果。在2016年,我們也參加了NISTPaSC point and shooting challenge,我們也取得了非常好的效果。這個video是我們在悉尼拍攝的,并不是比賽的視頻。我們可以看一下人臉識別現在大概可以做到什么樣的效果。比如說這條紅色的線,就是我們系統的performance,這條黑色的線,上面有些點,這條線是單個人的performance。我們可以看到紅色的線已經超過了單個人的performance。然后我們還可以再看這條黑色的線,跟紅色的線很接近的這條黑色的線,是一組人的performance,它實際上和我們計算機的performance就差不太多了。這個過程是什么樣呢?首先第一點我們要做人臉的檢測,人臉檢測完了以后要做特征點的檢測,特征點的檢測完了以后要做一下人臉質量的評估、質量的提升。然后用我們獲取到的深度學習的算法,就能夠有效地去做人臉的識別。當時比賽的組委會發現現在算法的效果確實非常不錯了,如果說我們找一些非常極端的情況,到底它的效果是什么樣的。那它的效果是這樣的,比如說還是這是我們系統的performance,這個是單個人的performance,這個是一組人的performance。我們可以看到這個算法雖然說現在相對于單個人來說已經取得了很好的效果,但是對于一組人來說它還有一定的差距。這并不意味著目前人臉識別的算法放到任何地方都能夠比人效果好,但是對于一個特定的問題來說,計算機人臉識別的效果已經確實超過了人類的效果。

                    剛才我們展示了很多非常有意思的應用,但是實際上這里面的一切都取決于你輸入的這些圖像或者視頻它的質量。如果圖像或者視頻的質量效果變得比較差,那么他就會產生很多的問題。所以說第一步你要知道你輸入的圖像或者視頻的質量是一個高質量的還是低質量的,你要有一個很好的深度學習的算法,來判斷圖像的質量。如果當你知道圖像的質量不好的時候,你要知道圖像的質量是由于什么變得不好的,比如說噪聲。那是不是也有一個深度學習的算法,把這個噪聲去掉。再比如說有blur,有模糊,是不是也有一個算法,能夠幫你把模糊也去掉,這樣的話你就能夠得到高清晰的這種圖像。在比如說霧,早上的時候會有霧,如果你獲取到的圖像的質量或者視頻的質量不好,是不是有什么簡單的方法,用深度學習,也能夠把霧帶來的影響在一定程度上去掉。再比如說當我們把攝像機放到水里面去拍攝水下的照片的時候,會有湍流的問題。如何去解決湍流的問題,也是非常有意思。

                    今天我們的手機也好,攝像機也好,它們的分辨率都非常高了,能夠獲取到非常高清晰的圖像或者視頻。但是如果一個物體距離你的攝像機比較遠的時候,實際上這個物體的resolution還是非常小的。那是不是有什么辦法能夠把這個resolution也增加一下。比如說我們用簡單的方法來做一下resolutionimprovement,得到的效果是這樣的。如果說我們用深度學習的算法,那我們就可以得到這樣的一個效果,是不是就會好很多。

                    人除了perceiving的能力之外呢,還有很好的學習的功能,就是learning。Learning實際上牽扯的面就非常的廣泛了。我這里簡單介紹一下我們最近做的一些非常簡單的工作。比如說第一個工作,我們先說一下near separable NMF,也就是近似可分的非負矩陣分解。那什么意思呢?首先我們先談一下非負矩陣分解。機器學習算法實際上就是一些各種各樣的基本的數據算法,非負矩陣分解就是說我有一個矩陣,每一個元素都是大于等于零的。這時候我就希望我分解出來的基矩陣和我的表達矩陣或者說是系數矩陣都是非負的。這個就叫做非負矩陣分解法。我們都知道非負矩陣本身是一個病態問題,并且是一個NB hard problem。這個時候是不是當我們加上一些假設之后,這個問題就變得有很好的性質,就變成了一個凸問題,有唯一解。實際上就算是加上可分離的假設??煞蛛x假設或者又叫做自表達假設,什么意思呢?比如說我們在二維空間中有一個點,如果所有的點都分布在一個凸閉包里,那么這個凸閉包里的數據就具有自表達的性質。就是說對于這樣的數據,如果說我們能夠把它的這些anchors,這些腳點都檢測出來,那么有了這些點之后,我們用這些點作為它的基向量,作為它的基。那么任何一個多邊形里面的點都能夠被這些腳點線性表達。就是說所有的內點實際上都可以用其他一些點做一個線性組合把它表達出來,并且組合系數都是非負的,這樣就滿足我們的意思了。所以說對于這樣的問題來說,什么叫做自表達,就是數據本身就可以表達數據本身。你再不需要引入其他額外的數據就能夠表征這些數據。

                    大家如果做過一點計算幾何,大家都知道,這樣的問題是比較困難的一個問題。對二維空間來說,這個多邊形實際上是比較簡單的,你可以用線性規劃的方式逐點掃描,測試每一個點,看它是一個anchor還是inner point。但是如果說對于三維的問題,或者對于更高維的問題,這個D3代價上升的是非??斓?。很容易你會發現,你找的這個解它的計算的復雜度非常的高。是不是有什么很簡單的辦法能夠幫助我們解決這個問題呢?也可以有。這個使我們2013年做的一個工作。還是比如說多邊形。比如說我們現在隨便找一條線,在空間中隨機畫一條線,然后我們把所有的點往這條線上投影。投影完后我們有兩個發現。第一個是在這條隨機投影的線上,也有兩個外點,一個紅色的,一個紫色的,這兩個外點一定是原來多邊形anchor。我們也有原來的這些藍色的內點,經過投影到了這條線上之后它依然是內點。這是我們得到的兩個結果。這樣的兩個結果實際上就告訴了我們,在空間中我們不斷地做這樣的投影,隨機投影做很多很多次,然后我們只要找到這些frequent anchors就行了。如果說在二維空間中它是一個frequent anchor,那實際上在原來的高維空間中它也是一個frequent anchor,并且能夠從數學的理論上完全的證明這一點。

                    因為時間的問題我跳一下。這里我先給大家回憶一個小故事。大家應該都知道盲人摸象的故事。盲人摸象的故事就告訴了我們這樣一件事情,這些盲人因為摸到大象不同的部分,所以最后得到一個結論,大象像矛、像扇子、像一堵墻、像一棵樹等等這些結論。實際上原因就是說因為每一個盲人摸到了大象不同的位置。聽上去這個事情非常的可笑,但實際上我們人在做決策的時候,面臨的情況跟這些盲人其實是一樣的。我們也會做出很多錯誤的決定,因為我們所接觸到的信息是不完整的,或者說是有限的?;蛘哒f我們接觸到很多信息,我們沒有辦法把這些信息有效地整合起來,這樣的話就會導致我們在做判斷的時候產生一些錯誤。比如說我現在手里有一個東西,我對它照一張相,我不告訴你這個東西是什么,那我現在問你這是什么物體。如果我問這樣一個問題,對于你來說回答這樣的一個問題非常的困難。那好,沒關系,我可以多照幾張相,我可以照非常多的像相,然后給你看?,F在你是不是就能夠才出來這是個什么物體了,實際上就是一個長條凳。所以說當我們在觀測這個物體的時候,實際上當我們的觀測值是有限的時候,你對于這個事物的理解是不完整的。但是當你的觀測很多很多的時候,你對于這個事物的理解就是完整的。所以當我們在做這個事情的時候,實際上我們可以假設,有一個oracle space,或者說有一個上帝視角。在這個上帝視角里,我們對于物體的觀測都是完整的。實際中我們有各種各樣的傳感器,而每一個傳感器都是對oracle space的一個線性或非線性的投影。而在這個投影空間里,你獲取到這個物體的信息是非常有限的?,F在的問題就是,當你有很多很多傳感器的時候,你也有很多linear或者nonlinear oracle space的一個projection的時候,你如何把這些projections integrate到一起來recover 這個oracle space。我們可以從理論上證明出來,當我們有足夠的這些projections的時候,我們有很高的概率能夠recover 這個oracle space,因此能夠解決我們所有這些問題。

                    過去我們實際上是小數據時代,或者說沒有談到大數據的時候,我們的數據是非常有限的,或者說數據都是非常珍貴的。這個時候我們去標定這些數據,然后去訓練特殊的學習算法的時候,我們希望能夠有非常準確的一個標定。我們都去找專家來標定,因為我們數據都很少,專家可以幫我們標。但是現在我們是大數據時代了,數據非常的多,我們去解決數據的標定就非常的困難。那怎么辦呢?實際上我們就把數據眾包出去。有很多數據標注的公司,我們可以把這些數據分享出去,當別人來幫我們標注這些數據的時候,我們付他一點點勞務成本就能夠解決數據標注的問題??珊苓z憾的是,我們收集回來的這些標簽并不都是非常正確的,有的人標的對,有的人標的不對。有的人標注可能就是為了賺錢,網上點鼠標的時候點的很快,也不管是對還是錯。有的人標注過程中可能標注的也很認真,但是他對這個問題的理解和你的理解不一樣,所以說他也會標錯。有的人可能是標注的過程中比較辛苦,標著標著標累了就標錯了。你獲取到的信息是這樣的。但是你拿到這樣的數據時,你去建你的分類器的時候,他就會有很多的困難。這個問題在于你如何去找到一個有效的方法來解決這個問題。當然你可以花更多的錢找更多的人來標,重復標注是一種方法??墒沁@個東西成本的上升非???。那么是不是在理論上有什么方法,還是用這個數據,我們能夠找到一個sample reading的方式,或者是一些其他的方式,我們還是能夠找到正確的分類器。實際理論上告訴我們在一定的假設條件下,我們還是有機會能夠recover這樣的一個分類器。

                    時間的問題我就再跳一下。簡單介紹一下深度學習網絡。我們都知道深度學習網絡現在是越來越深,大家在做這個學習網絡的時候恨不得是幾十層、上百層甚至是幾百層,甚至有的人要做上千層這種網絡,然后來達到一個很好的學習的效果。但是隨著網絡層數的加深,這些網絡的大小是越來越大,比如說AlexNet的大小是232兆,再比如說VGG,16層的網絡572兆,再比如說Rose-net 50層的時候是95兆。當然網絡的結構不一樣,導致它內存的開銷,存儲空間的開銷也是不一樣的。但是設想一個問題,我們現在這些上百兆甚至幾百兆的網絡,只能完成一個非常單一的功能。我們手機的內存是非常有限的,你愿不愿意在你的手機上或者是在你的內置系統里用這么大的存儲空間去存儲一個完成單一功能的網絡,比如說僅僅幫你標注一下哪里是人臉,你愿不愿意?那你肯定是不太愿意。你希望這個網絡又小又好用,又能夠解決我所需要的這些問題。這實際上就是深度學習網絡壓縮的問題。我們通過引入DCT變換,可以有效地壓縮神經網絡。實際上我們現在有一些更好壓縮神經網絡的技術,比如說用遺傳算法,用拆除共享的濾波器,都可以把神經網絡壓縮的更好。用DCT變換這樣的方法壓縮之后,572兆的網絡就變成了12.4兆,95兆的網絡就變成了7.9兆。壓縮并不意味著我們會把我們網絡的性能變差,而只是說把網絡的尺寸變小。并且有時候網絡的效果不僅是沒有變差,反而是變好了。這是為什么呢?

                    大家都知道,深度學習網絡現在是越來越深,大家都有一個問題,為什么要深,為什么不用淺層的網絡來解決這個問題,為什么要用深層的網絡來解決這個問題?這實際上就牽扯到深度學習網絡基礎理論的問題。我們的測試誤差實際上等于訓練誤差加上泛化誤差。大家都有一個基本的認識,剛開始我就說到,我們用MRP這個三層有一個隱層的神經網絡的時候,我們就可以去擬合任意形式的分布。既然是這樣,我們為什么非要整一個100層的網絡來做同樣的這些事情,我們是不是就用這個三層網絡就可以了?當我們做實驗時候發現,當我們用三層網絡的時候確實可以得到一個很好的訓練誤差。我們用100層網絡或者幾十層網絡做同樣的事情的時候,我們要付出很多的代價才能夠得到同樣的訓練誤差這樣的結果,或者是跟它差不多這樣的一個結果。那既然是這樣的情況,我們訓練的如此之復雜,為什么我們還要把這個網絡變得很深?實際上我們發現,當我們用淺層的這個三層神經網絡去做這件事情的時候,我們的測試不好。再舉個簡單的例子,我們都知道現在大家考英語的能力非常強,我記得在我的那個時代讀書的時候,我的很多同學考美國的GRE考試,他甚至能考2400分。2400就是滿分。數學考滿分大家都能理解,邏輯考滿分大家也能理解,但是你想想你的語文考試誰能考滿分?這個事情是非常困難的。但是這些考滿分的學生到了美國之后,是不是就意味著他的英語水平遠遠超過了那些考不了滿分,比如只能考2100的這些美國當地的native speakers呢?這個其實好像也不是,可是為什么是這樣呢?這個實際上就是我們的學生很適合考GRE,但是對英文的掌握實際上并沒有達到native speakers的水平。這實際上就是說我們在訓練集上過擬合了。怎么樣去解決泛化的問題,這是個關鍵。深度學習實際上,我們可以證明出來的就是,當隨著網絡層數變深的時候,我們深度學習的泛化誤差,或者說是它的generalization error實際上是呈指數衰減的。當你額網絡層數更深的時候,你的網絡的泛化能力越強。所以這就回答了我們剛才的問題,你的網絡越深越好,而不是越淺越好。雖然說大家都可以去擬合這個分布,但是越深越好??墒莿偛盼乙舱f了一個問題,當你網絡層數變深的時候,你的訓練就變得非常的困難。所以說測試誤差就等于訓練誤差加上泛化誤差。當你能夠找到一個很好的學習算法的時候,能夠保證你的訓練誤差足夠的小,同時能夠把你的網絡變得非常的深,這時候就能達到一個非常好的效果。這也就解釋出來了我們為什么要去做深的神經網絡,而不是去做淺的神經網絡。隨著網絡層數的加深,它的困難就在于你如何保證你的學習算法能夠有效地收斂到一個局部極小值上,保證你的訓練誤差足夠的小,這樣的話你的泛化誤差也很小,所以它就能達到這樣一個很好的效果。

                    再來說一下reasoningbehaving。reasoningbehaving實際上牽扯到的面就非常廣泛了。比如說我們舉一些跟機器世界相關的應用的例子。比如說這樣的一些圖像,有了這樣的圖像之后,人來描述這張圖像是非常容易的。比如說這張圖,這就是一個人騎著一匹馬在賽馬。對于人來說完成這樣的任務非常容易,那我們如何利用我們已有的這些數據,利用我們已有的這些計算能力和智能算法,讓計算機也能做同樣的事情?這個我們就叫做image caption或者是video caption,這就是一個很復雜的問題。當然目前的算法已經能夠達到這樣的一些效果,并且我們不僅僅能夠給出很短的描述,還能夠給出很多很細節的描述。再比如說這樣的一些短視頻,網上有很多這樣的短視頻。所以說你要去理解這些視頻的內容,知道這些視頻的內容應該怎么去歸類,這樣的話幫助人去找到些特定的視頻。那實際上也是一樣的,我們要抽取各種各樣的深度學習的特征,或者是一些傳統的特征。然后我們要找到一種有效的方法把這些不同類型的特征結合起來,這樣的話我們就能夠分析出來這些視頻是做什么的。第一個比如說是拳擊,第二個比如說是洗臉,第三個比如說是桌面足球。有了這樣的一個很好的架構之后,我們就能夠有效的去做視頻里面事件的檢測、事件的分類。

                    再比如說這樣的一個問題,回答問題,就是說,有一張圖像,然后基于這張圖像我來問你一個問題,然后你來做回答。人當然可以很有效地完成這樣的事情,但是對于計算機來說該怎么樣去做這樣的事情?比如說這張圖像,我們都可以看到這張圖像有一個女孩子,放了兩個香蕉在自己的嘴唇上。問題是她的胡子是什么做的。答案很簡單,香蕉。對于計算機來說該怎么去做這樣的事情呢?實際上就是我們要去抽取圖像上或者文本上的attention,就像這個動畫顯示的一樣。找到這些attention region之后,把這些attention region和你的問題match起來,就能夠有效地回答這樣的問題。

                    除了做圖像問答之后,我們還可以做圖像的對話。比如說這張圖像。那我們可以問很多很多的問題,比如說這個女孩子戴沒戴帽子,比如說這里面有沒有什么動物,動物的顏色是什么。我們可以問很多很多的問題。在這樣的對話過程中實際上有一個很大的問題,就是一個指代問題。比如說這個問題,Is the women wearing a hat?答案是Yes。然后再接著問一個問題,What color is it?這個it實際上我們大家都知道它指的是hat,但是你如何讓計算機知道這個it指的是這個hat這是一個很大的問題。那么在圖像問答的過程中,對于這個指代信息的理解就非常的關鍵了。因此我們要訓練這種有效的深度神經網絡,去理解圖像和句子中的這些指代關系,去理解它們的邏輯。

                    在給大家看一個例子。我們現在的機器人是怎樣和人交互的呢?現代的機器人和人的交互實際上是通過編寫程序然后設定參數規定機器人該怎么去做運動。我們實際的期望是什么呢?我們都知道現在的機器人都裝了很多各種各樣的傳感器,比如說攝像機。那么既然有了攝像機,實際上機器人是能夠看到我們人在做什么的。那問題就在于是不是未來有一天,我們人可以通過視教學習的方式讓機器人達到學習人的行為和理解人的行為,然后和人做到這種有效的交互。這也是非常關鍵的一個問題。

                    這里到最后了,我給大家再展示一張圖像。那么這張圖像大家能夠理解他們都在(干什么)。我現在再問一個問題,當然現在我不問剛開始我問的那個問題,也是一張照片里面有很多人,我問你有多少人,你可能要數一個小時才能夠告訴我這里面有多少人?,F在這張圖我不問你這里有多少人了,我現在問你。這些人在看比賽對吧,非常容易回答出來,你瞬間就能告訴我在看比賽。那同樣這樣的問題我如果現在問計算機,這張圖像這些人在干什么,它不知道。我再問,第一張圖像的人在干什么。他們就是在照相,就是在照一張集體照。所以說對于人來說,我們能夠立刻區分出來這兩張圖像的semantic是完全不一樣的。那么對于計算機來說,要想做到這一點,我們就需要標注大量的數據,我們就要從網上扒大量的數據。機器人的數據,看比賽的數據,然后把它丟給計算機,丟給神經系統網絡,然后讓它去訓練。訓練好以后我們就可以做這樣的事情。那么這就牽扯到一個問題了,這是不是我們期待的人工智能?這不是我們所期待的人工智能。這張照片中包含很多信息,表情的信息,POSE的信息,這些人的眼睛看的位置的信息。這些信息我們都能夠檢測到。但是這些信息我們人看到后,我們能夠有效地去判斷這些人在看比賽,那些人是在照相。但計算機卻不行。是否有一天我們能夠通過更強大的概率推理方式、因果推理方式來有效地去理解圖像、有效地去理解數據,這樣能夠幫助我們更有效地去完成一些復雜的任務。謝謝大家!

                     

                    對話部分:

                        主持人:非常感謝陶教授的精彩演講,讓我們對AI時代的發展進程有了更多的了解。讓我們再一次掌聲感謝陶教授。在機器人領域,這次我們也非常榮幸地請到了一位知名的專家,就是來自清華大學的趙明國教授。趙教授是清華大學自動化系副教授,擔任機器人控制實驗室主任,主要從事仿人機器人控制及無人駕駛自行車的研究工作,獲得國家發明專利十余項,完成了國內首臺無人駕駛自行車的研制。接下來的圓桌對話環節我們就交給陶大程教授和趙明國教授,也請《環球科學》雜志的執行主編褚波老師來為我們主持。有請!

                    褚波:非常感謝大家在周末的上午來參加我們的講座,首先也非常感謝陶教授專門從澳大利亞回來,到北京來專程為我們做這場精彩的關于人工智能進展的講座,也很感謝趙教授今天趕過來。剛剛聽了陶教授的演講,相信大家對人工智能的進展已經有了一個大概的了解。其實在我們生活中,人工智能也有非常多的應用,比如手機上的語音助手,我們通過高鐵安檢時的人臉識別,還有很多比如網上購物時候的智能推薦,其實都是人工智能算法的一種應用。出了這幾個例子之外,我相信還有很多應用我們都接觸的到,但是作為人工智能領域另外的一個重要分支,機器人領域,我相信我們接觸的還不夠多,從這個角度來看,我感覺機器人技術的發展跟人工智能算法方面的發展相比有一個相對的滯后。所以第一個問題我想問一下趙教授,您怎么看待機器人技術的發展有這樣一個相對滯后的問題,您認為造成這種滯后的原因是什么,以及通向更好的機器人技術有哪些障礙需要解決?

                    趙明國: 機器人相對發展的比較緩慢,因為機器人涉及到很多硬件上的事情。硬件的研發周期要比軟件要長很多,所以相對來講周期要慢很多。另外一個硬件機器學習,大家知道在計算機里面去學一個事情可能很快,增加更多的計算資源可以很快把它學完。但實際中比如摔倒,機器人自己爬起來,在計算機里面一兩個小時可以訓練出一個動作,但在實物機器人中不可以這樣,機器人可能會摔壞,或者各種問題,實際執行時間也不是這么短,所以這個機器人整個的技術發展相對要緩慢一點。還有它的自然規律,它和算法的自然規律不是太一致。它要有一個偏重物理的規律。所以這個時候我覺得發展真正的瓶頸可能在于大家搞機電或者控制這邊可以把自己的工作做好,但是真正的困難點我覺得是怎么和AI去結合。這兩個就像兩個世界的東西,要在一個地方去融合的話它們共同的坐標系是什么,結合在一起的點在什么地方,可能會出現很大很大的問題,這也是需要重點解決的問題。所以機器人真正變成純粹的智能機器人去應用,我覺得很大的困難點,第一點就是視覺和和運動的融合,這兩個如果能合而為一,變得和人一樣自然我覺得是非常大的一個難點。如果在這一點上有新的理論新的方法能夠很快突破,就能產生比較大的進步。

                    褚波:目前世界上有比較先進的機器人公司,比如波士頓動力,趙教授的研究團隊,還有浙大的一些研究團隊,都有研發一些,至少看起來比較先進的機器人,但是實際上它們表現起來還是比較笨拙的。我想問一下趙教授,如果想讓它們像我們人類或者自然動物那樣靈活自如行動的話,您覺得這個有可能實現嗎?如果能實現的話大概還需要多長時間?

                    趙明國:這個問題非常難回答。我們可以把這問題這樣去理解,就是任何一個機器人,或者任何一個人工智能在某一方面的表現只要能定義出來,它很快就能超過人。我覺得這是我們做人工智能機器人的一個目的,就是讓機器人的某個能力能夠超過人,這肯定是我們的目標。但是人是一個更綜合性的,在多個能力上的綜合表現,尤其有些特定任務是綜合能力的表現。所以讓機器人在綜合能力上超過人類,目前還沒有特別好的結局辦法。比如說跑和跳,只要指定出來,我覺得世界范圍內科學家總能找到一個辦法讓機器來超過人。但要是換一個題目,那么機器就變得很弱了,人就變的很強了。所以人是經過幾百萬年上千萬年進化出來的,在綜合能力和更復雜的應對能力(方面要更強大),而且在智能方面更多是解決問題能力上面,機器更多是在特定問題上面。人定義好了特定問題,機器通過各種仿生辦法去模仿人,去解決,它能把效率提的更高。但是在解決問題能力上我覺得還是后面要解決的方向。還達不到人類的水平,還差的很遠呢。

                    褚波:好,謝謝。昨天在science雜志上也發表一篇重要的論文,論文的作者是研發阿爾法go的團隊deep mind,他們的論文探討了一個新的程序,阿爾法zero的相關算法。阿爾法zero大家可能聽說過,它是從零還是學習,學會圍棋、國際象棋還有日本將棋它分別打敗了能夠下其他三種棋類的人工智能程序,比如說之前很厲害的阿爾法go。從這個程度上說,阿爾法go在棋類領域上應該算是一個通用人工智能。而deep mind的創始人哈撒比斯他的目標也是創造一個通用人工智能。所謂的通用人工智能就是說它能夠從零開始學習,學習各種任務,像人一樣完成各種任務。所以第二個問題我想問陶教授:從目前來講,雖然說人工智能算法已經有很大進步,人工算法和通用算法之間有多大距離?如果我們能夠實現通用人工智能的話,您能不能給大家舉幾個例子,給大家描述一下通用人工智能是什么樣子?

                     陶大程:這個問題還是挺難回答的。第一個我先說一下阿爾法zero。阿爾法zero是從零還是訓練,也不需要人為棋譜。以前訓練時候需要有大量的棋譜,現在阿爾法zero不需要人的棋譜,我們就能夠從里面學到比賽的下期規則,甚至能比世界冠軍下的更好。聽上去還是實際操作都是非常困難的??隙ǖ囊稽c就是阿爾法go 也好,阿爾法zero 也好,大家覺得人工智能的時代已經到來,而且大家也相信人工智能的到來能夠解決很多問題,可能這些問題是我們過去想都不敢想的。但實際上換一個角度來說,下象棋或者下圍棋或則下其他的棋或者打撲克,以前沒有下過棋打過撲克,你已經是成年人了,你有很多經驗知道很多事情怎么去做,你能夠聽懂別人跟你說的話,現在我告訴你規則是什么,你是不是立刻就可以上手跟別人下棋?可能棋下的不好,打牌打的不好,臭棋簍子或者打牌打的很幼稚,但是你是不是立刻就會了。這需要找專業人士訓練你半年時間才能玩這個游戲嗎?再比如說打超級瑪麗這個游戲,你以前也沒有打過超級瑪麗,現在告訴你這個游戲就是頂更多的蘑菇,得更多的分,踩更多的壞蛋,你就能賺取更多的金幣和credits,最后一路下來就通關了。你當時有訓練過半個月一個月才能玩這個游戲嗎?是不是上來就能玩,再經過幾次簡單的訓練就可以了。當然計算機達到同樣的目標還是很困難的,因為計算機的程序還相對是比較固化的,給一個規則去完成一個事情。但為什么下棋這個事情計算機就可以做到呢?不需要訓練的情況下。我們現在也在做務監督的訓練識別,別說超過人,超過有監督的算法都比較困難。因為目標不確定。但是下棋這件事情目標很確定,比如說下圍棋這個事情就是占更多地盤,下象棋就是干掉對方的將軍。所以對于目標是完全確定的事情來說,不管棋盤多大,規則多復雜,只要事情是有規則的、目標是明確的事情,這個事情對計算機來說就好辦。因為我們可以把它變成一個搜索問題,我就是搜索最優目標。但問題在于搜索目標太過于龐大,不能說下一步棋等一年,這個時間等不了,我希望瞬間就能完成。那現在的問題就是如何完成瞬間搜索,盡快找到一個答案,不一定完美,但相對完美的答案。這就涉及另一個問題,為什么計算機下棋比人好?我們下棋和專業棋手比差在哪里?因為你下棋只能盯著眼前的這個棋盤,你能想到你這步棋下完之后對方會下什么棋嗎?可能你也能想到。但我再問一個問題,你下完這步棋對方會下哪步棋,對再下完下一步棋對方會下什么棋,這樣不斷地推演下去。你能把它推演一遍嗎?你跟專業棋手的最大區別是,你沒有推演能力,或者只有一步兩步,但專業棋手可能五步十步。但計算機可以推演到最后一步。我只要有一個強大的算法就可以了。所以當棋盤有一個固定尺寸,當目標和規則是明確的時候,計算機就可以把它轉換成一個有效的搜索問題,那么問題就可解了。那么同樣問題,圖像標注問題,在一個圖像里面又一個小兔子,小兔子可以是手畫的小兔子,可以是鉛筆畫,可以是油畫或者中國畫,甚至可以是實景照片里面的小兔子摳出來放在圖像上面。讓計算機做這件事情難度就非常大。如果沒有大量的標注和訓練是很難完成的。從今天的人工智能到未來的通用智能,距離還是挺遠的。不是說今天的人工智能就沒有用,實際上任何一種人工智能都能夠幫我們解決一些問題。比如說我們現在用的智能手機,在京東上買了一個東西,可能京東就可以立刻幫你推薦你可能還需要什么東西。這樣的人工智能也可以幫人們解決問題。比如滴滴打車等軟件,工作中使用的工具,實際上它都帶有專屬人工智能,都能夠改變生活,提高效率。那么通用人工智能,從我的理解來說,人工智能的算法能夠像人一樣聰明,不需要特殊復雜的訓練,或者哪怕需要這種訓練但可以拿來做任何事情??梢阅脕硐孪笃寤驀?,拿來打超級瑪麗,拿來解決數學問題、標注圖像等等,但這件事情還是很不容易的。雖然說有這樣一天到來,但我個人感覺還是非常困難的。

                    褚波:現在人工智能非?;?,所以現在各個國家都在推動編程教育,把它變成一個非常重要的環節。美國甚至把編程教育提高到一個國家戰略高度。我想問一下兩位教授,您們認為學習編程對學生有什么好處?能不能給這些學生提供一個建議,怎么學習編程或者人工智能?

                    趙明國:我先來拋磚引玉一下。我們從小也開始編程了,讀書時候也編程。編程肯定是對邏輯思維一個很好的訓練,邏輯思維必須很嚴密,考慮問題必須清楚,調錯誤時候更可以鍛煉思維。對小朋友們來說,大家可以學習編程,它可以是一種邏輯思維訓練和工程訓練,也是一項很好的技能。但是編程不等于人工智能,差的很遠,它只是一個實現手段和工具。人工智能需要編程,但不是劃等號的。不要認為要搞人工智能就得從編程學習,只是十分之一或二十分之一的人是從編程走來的,還有很多是從數學走過來的。我覺得大家把編程當作一種思維訓練還是挺好的,但不是說我學了編程就可以做機器人。大家在適當的年紀做適當的訓練,編程的訓練,尤其是數據結構的訓練,是很好的。

                    陶大程 非常同意趙老師說的這個。編程是實現人工智能的必要非充分條件,就是你不會編程肯定不能實現人工智能相關的功能,因為包括我展示的這些功能,包括跟機器人的交互等,每一個展示都包括大量的程序設計。從我個人來講,程序設計是對我們思維的鍛煉,是思維的體操,讓我們的思維變的更加縝密和嚴謹,讓我們的思維有序地去做某些事情。這樣的一種有序不是說對人工智能有什么幫助,它在教育中起到的作用是培養我們做事情的邏輯習慣。比如現在小朋友編的是什么程序呢,小朋友們字還不會寫的時候去編一個非常復雜的程序,但它可以通過去擺程序的組合塊去實現一個過程,比如小兔子怎么過河。這可以幫他去理解這個事情,去建立自己的思維結構。人在學習的過程中就是不斷在提升我們思考問題的能力和解決問題的能力。所以我覺得編程在于,幫助我們提升我們邏輯思維能力,學編程并不意味著我們要犧牲掉學習基本的文化課程?;疚幕n程還是非常重要的,在學習基本文化課程沒有問題的情況下再去學習編程可能是更好的一個方式。

                    褚波:因為兩位教授的研究方向偏算法、自動化這方面。如果有學生向你們咨詢專業選擇問題,你們會建議他們選擇算法這一塊還是機器人這一塊呢?

                    陶大程:我覺得是興趣。我們都說興趣是最好的老師,其實不管干什么事情都是興趣驅動。最理想的就是你能夠從事的事情就是你的興趣愛好,這樣你就能做的非常有樂趣,并且你愿意花時間在這件事情上不斷耕耘,也能夠在這件事情上取得別人很難取得的成績。因為你不僅僅是為了解決你的溫飽問題,而是你喜歡做這個事情。所以說興趣是關鍵?,F在是人工智能熱,未來時自動化熱,或者是那方面熱,我覺得都不是關鍵,而是你的興趣是什么,這是關鍵。

                    趙明國:我非常同意陶教授的看法。大的方向應該定下來。大的方向應該是興趣或者好奇心。但是落在第二層次,從專業角度這個問題很難回答是因為它涉及兩個專業問題。機器人在某些定義里面是人工智能的一個分支,在某些方面又涉及很多專業交叉,它是在知識鏈最末端的學科,所以你在前面任何一個學科都可以過渡到機器人上面來。你完全可以從數學、物理、化學、材料等方面出發,決定你深度的可能是從這些基礎學科上面來的。比如說籃球,你是業余打打籃球還是NBA、校隊國家隊打打籃球,這是不同的level,你在不同層次上得到的成就感和快樂的滿足感也都是不一樣的。所有我覺得你想取得更大的成就,或者到更高的level上去體會這些快樂的話,最開始階段可以在基礎學科上多花一些時間,而不必在終極學科上面。因為就像運動員一樣,你想成為NBA運動員,但是你的運動能力達不到,也不會被選為NBA運動員。所以我覺得在興趣的大方向下面,在能力培養方面偏向去基礎學科。比如最基礎的物理、數學、化學這方面。我覺得以前那句話說的很對,學好數理化所有問題都能解決嘛。

                    褚波:謝謝兩位教授的回答,我們訪談環節到此結束。下面趙教授團隊還會給大家帶來一個有意思的環節,我們把時間交給羅老師。有請!

                    Hello,給大家介紹一下,這位就是我們優必選公司研發的人形雙足機器人Walker。它身高135,它是您的家庭陪護小管家,可以在室內完成全向行走,還可以像人類一樣的找球和踢球。下面我們來一起看看它吧。

                    (機器人展示)

                     

                     

                    觀眾提問部分:

                     

                    主持人:感謝幾位嘉賓的分享,也謝謝趙老師的研發團隊和小機器人Walker。請坐!下面是我們的互動時間,大家如果有問題想問兩位教授,請舉手示意,我們的工作人員會把麥克風遞給您,請您在提問之前先說一下您的問題是向哪位教授提問。每位提問的觀眾我們都會有一份小禮品送給您。

                    觀眾1: 我想問問陶大程教授。我想問問比如在很多游戲,都是人類控制電腦或者手機。將來會不會真的人工智能統治世界或者人類呢?

                    陶大程:我覺得這問題可能是大家都非常關心的一個問題。也就是現在說的這個起點理論。從目前人工智能的發展階段來看,這一天還相當遙遠。不管是阿爾法go 還是阿爾法zero,它都是完成一個特定任務,當目標明確、規則是定義好的時候,目前我們的算法是有機會,只是說有機會比人做的更好。但這些東西實際上都是人來設計的。是否有一天可以做到算法的自動演化,演化強大到一定程度,它能夠做任何事情甚至控制人類,我覺得難度還非常之大。最簡單我們把電拔了它就不行了。開個玩笑??赡艿侥且惶?,你想把電拔了它都不給你機會了。所以當然我們也會有擔心人工智能的發展速度過快是否會導致其他一些問題,比如說公平性。是否說人工智能算法都是為少數人服務,而不是為大多數人服務的。我們人工智能算法發展是否更多是為比如說軍方武器服務,它對社會有破壞性?;蛘呶覀兯惴ㄒ呀洰a生的一些問題。比如一張照片中我們有一個人在廚房里面做飯,那我們的計算機很有可能把它認為成一個女人在廚房中做飯。這個事情對女人來說是不公平的,憑什么女人就要做飯。當然這對男人也是不公平的,也許這張照片中正好是一個男人在做飯,但你把這個功勞又給了女人。所以說這就產生了問題。由于算法精度不夠產生的倫理道德問題,或者由于算法、數據訓練的不充分導致的倫理道德問題。所以說現在搞人工智能的科學家也在考慮一個問題,就是如何從社會學、倫理道德問題出發來控制人工智能算法,來保證人工智能算法為人類服務而不是和人類競爭,來改善生活、提高生產力。我們要從正面角度影響人工智能,讓人工智能為人類服務。謝謝你的問題。

                    觀眾2: 本來有三個問題,小朋友問了一個起點問題我就不問了,另外兩個問題比較細節。一個是,趙教授和陶教授都可以回答。剛才提到計算機是一個交叉學科領域,最近我也在看有關大腦發育的一些問題,實際上人工智能或者機器人是一個仿生學,人工智能的發展的規律和一個嬰兒學習的規律是完全相同的。感知——統計規律——推論——行為。那么我想問一下現在生物醫學對人工智能和機器人的發展有什么影響,不知道兩位教授有沒有這方面的見解。第二個我想問趙教授,因為我看到您是國內首臺無人駕駛自行車的研制者。在環球科學雜志中有一篇文章寫道,現在無人駕駛汽車的一個缺陷就是沒能夠考慮到路上行駛的社交規則,它只是考慮了一些交通規則。請問對這個問題,目前有沒有解決,關于我們在在開車時候人與人之間、車與車之間、駕駛員與駕駛員之間的這種社交規則影響的自行車或者交通行駛的交通互動有沒有一些解決?

                    趙明國:我先來回答這個第二個問題。我們做這個無人駕駛自行車并不是為了解決交通問題,所以它和交通上面的無人駕駛車輛的很多事情不在一個范疇之內,我們更多解決的是技術問題。這些技術可以最終用在未來很多的一些交通工具或者其他的一些方向,只是大家生活中遇到的一些問題,比如物流、送餐這些問題,可以用機器人來解決,并不是無人駕駛自行車,它是一個載體,來做很多技術。汽車可能不能完全覆蓋,比如最后一公里不完全好使,這有沒有可能結合起來,需要很多技術,更多是來感知和規劃這些層面。時代可能在不停發展,包括產生的社會問題、倫理問題,需要不斷邊走邊看,邊走邊修改。不能能一下子就看到所有問題。我想繞回到第一個問題上,起點問題上來,就是大家可能過于擔心,大家首先要清楚什么是起點問題,我不是很嚴格清楚起點問題的定義是什么,大家可能就是知道起點問題有很大威脅,會不會搞著搞著對人類有很大威脅。大家想想飛機的制造,一百多年前,飛機是上不了天的,你看現在不但坐飛機是家常便飯了,稍微遠一點的地方大家都要坐飛機,人不但能坐飛機,而且能上月球。美國的火星車又一輛登錄到火星上面。昨天我們發射了嫦娥4號,將會登陸到月球的背面。大家有誤解,當下總在說阿爾法go,其實登月這個成就給我們的沖擊力遠遠(超過它了)。上世紀60年代人類就登陸月球,并在上面留下腳印,產生一些行為。那個時代的技術比現在阿爾法go戰勝圍棋給我們帶來的沖擊力要大的多,大家看到現在又什么起點發生嗎?大家想想原子彈、火藥,而且原子彈可以把整個地球毀滅,而且隕石撞到地球,我們可以發射一個原子彈去把它炸掉。這種沖擊力遠遠大于人工智能帶來的沖擊力。正常來講大家不用擔心這些事情,在一個有序的發展情況下大家一定可以找到辦法來解決。當時設定的起點,但是隨著時代發展,起點也在變,永遠是一個極限,永遠趨緊目標,所以大家不用那么擔心。

                    陶大程:我來說一下其他學科對人工智能的影響。其實現在深度學習在一定程度上來說它跟腦科學有一點點程度的聯系。它借鑒了比如注意力機制、深度神經網絡,有多層的結構,它實際上因為大腦皮層有多層結構,所以它認為多層是好的,有一個堆積。再有注意力機制,實際上當人在看一個圖像時候或者在看一個場景時候,實際上他有他的注意力機制,能夠很快的檢測到或者觀察到他想關注的點上去。所以說能夠加速人對環境的響應或者理解,幫助我們完成一些我們想要完成的任務。所以實際上腦科學的深入對于神經科學的深入實際上會回饋我們改善我們的一些算法,但并不是說腦科學中的每一個點都對我們很有用。但是腦科學的進步在一定程度上極大地推動人工智能的進展,幫助我們設計一個更為有效的算法,設計一些更為有效的機制,然后來改善我們現有模型的一些不足,幫助我們來理解到底應該怎么做這些事情。比如昨天我還和趙老師聊了一下人上樓梯的這個事情。比如說人上樓梯,很自然地就上去了,你有沒有想過這個樓梯時20節還是25節,你有沒有想過這個樓梯的高度是20厘米還是22里面,有沒有想過這個樓梯時水泥的還是木頭的,你也沒有想過是吧。但是當你走樓梯時你第一腳踩上去的時候你就可以反應到這個樓梯我不能上,我會把它踩塌了。但是讓機器人做這個事情的時候,其實每一步都是在精確的定標,精確的計算,他要去理解這個環境,所有這些東西都基于傳感器和相關算法來幫助機器人來完成相關問題,所以機器人就顯得比較笨拙,看起來就像總在猶豫什么,但其實它不是猶豫什么,是它還沒算明白,它沒算明白就不能進行下一步操作,否則它就會摔下里,或者踩壞了或者其他。包括路面,比如比較滑,它也怕摔倒,所以它在計算它是不是適合走這些地方,通過一些反饋信息。所以總的來說機器人也好人工智能也好,它需要不同學科的注入,來提高自身的完整性,來做的更好。謝謝!

                    觀眾2: 您好,我想請問二位,眾所周知,機器人代替人工的好多工作現在已經成為趨勢,包括初級的律師、會計師,包括美國的一些證券交易員。這個趨勢您能不能幫我們詳細地介紹一下,大約多長時間,像30歲或者像我這樣40歲的人,他的能力就不再對社會有貢獻了?謝謝。

                    趙明國: 這個預測是比較困難的,但是這個困惑我也有。因為我最近接騷擾電話,我就懷疑這個電話是人工智能打的。因為當你接了電話它半天也不講,當你要掛了電話時它又開始講話,講的前言不搭后語,還是掛掉就算了。這個時間非常難預測,我覺得最基本的問題,我想人工智能和機器人去代替人,這是其中最主要的一個應用,就是要把人解放出來。這個解放有兩個非常明確的方向,一個就是重復性的,不需要太多人干的,人干的話會越來越無聊,一天打500個電話或者打1000個電話,打垃圾電話的人就會很無聊,所以這個工作就可以交給人工智能來做。這種疲勞性的工作,另一種就是極度危險的事情,不希望人來干,比如化學場景、救援救災這些危險的工作,當然還有很多類似這兩類方向的特定的一些方向。當然大家還有問有沒有更高級的(可以機器人去做)。比如畫畫,大家其實很明白,機器人也可以去做。我非常不理解機器人去做古詩,機器人做古詩只能是一個大致匹配,我不太清楚它的探討意義,我覺得從非常直接的意義上看沒有什么意義,可以給大家看一下人工只能發展到什么水平了。機器人炒菜,大家看怎么理解炒菜,做盒飯可以,做五星級大廚那種炒菜(不太行)。如果沒有精神層面或者藝術層面在里面,可能可以(炒菜),但也不太適合。所以大家方向不要偏,不是什么都可以讓機器人去做,有兩類,一種簡單重復性勞動,機器人可以比人做的快,比人做的好,那就可以讓機器人去做。但是智力型勞動、創造性活動,讓機器人去做只是展示一下我們的能力到了什么水平了,大家可以簡單的直觀的看,和人做一個比較,但是這種不產生直接應用。因為真正應用的時候你可能對他的要求更高,所以他用不了。所以這個年限無法用統一的年限來衡量。因為現在給你打電話的就是就是人工客服,打騷擾電話的就是人工智能,現在已經在你身邊發生了,只不過滲透得越來越深、越來越廣而已。

                    陶大程:我非常認同老師說的,人工智能的發展已經越來越廣了,但是他的應用來說還是比較固定的。能夠幫我們去解決一些我們人不愿意去做的或者不適合去做的,比如日本的核電站的核泄漏。你讓人進入到這個場景里面去好像不安全,但是這時候如果有我們的機器人,比如趙老師的機器人,進去擰擰螺絲啊,打打開關啊這種我覺得比人進去就要好很多,至少對人沒有傷害。所以我覺得這個發展機器人技術或者這個人工智能技術來說是非常必要的。因為有的時候像救災這種場景就需要這樣一些特種的機器來幫助我們人類來完成任務,我們只要進行遠程操控、減少整個事情帶來的代價(就可以了)。

                    主持人:因為時間關系,我們現在只能提問一個問題。然后我們把機會交給后面的朋友。我們來找一個女性觀眾。

                    觀眾3: 謝謝!陶教授好,趙教授好!我本身是一個老師,從外地過來。我想請教授幫我們展望一下,在教育領域,這個機器人在多大程度上會取代教師講課的這個勞動?在哪個領域有可能最先突破?

                    陶大程:首先我是老師,趙老師也是老師,我們都是同行。我不覺得人工智能或者機器人會取代我們,不然我們覺得我們做的事情好像是自掘墳墓。但是我覺得有一點,人工智能技術、機器人技術還有其他一些技術,能夠幫助我們改善授課的質量,能夠幫助我們提升學生學習的效率,能夠讓我們的學生更加聰明、在更短的時間內獲得更多的知識,這個我覺得是有可能發生的。比如說,現在我們做智慧課堂、輔助教具,這些和機器人或者人工智能都有很大關系。學生學習情況不太好,我們就可以通過背后的大數據分析,今天這堂課內容太難,或者之前哪些講課的點學生不太理解。但是當這節課都已經講完了再去做,那么這一個小時就已經浪費了。如果在上課之前,我們就可以估計出來,我們今天上這節課涉及到哪些知識點,而這些知識點它的前序知識點有哪些。如果這些前序知識點都已經完備,我們根據這節課的受眾的狀態估計出百分之七十學生可以聽懂超過百分之七十的內容,那這節課就是成功的。如果我們預測到有哪些知識點我們以前沒有cover(覆蓋到),那我們在這堂課開始的時候就首先去講哪些東西,這對于老師來講是一個非常有效的工具。所以我們應該把人工智能首先想象成幫助我們人類的一些工具,而不是想象成是我們的競爭,來搶我們的工具,變成資本家掙錢的工具。未來都不需要老師了,都是機器人,也不需要維護成本,這些我覺得難度是非常大的。難度大到在未來的若干年看到這些事情發生,但是它確實可以幫助我們解決一些問題。比如說現在醫生不夠用,我們什么時候去醫院,醫院都是人很多,病人很多,醫生很少。說實話醫生很辛苦,有時候從早上一直看病,中午都沒有時間吃午飯,到晚上才能吃晚飯,中午也許就又一個喝水的時間。也許有一點點時間吃一個sandwich。但其實我們可以讓人工智能機器人幫他們干一些事情,幫他去減緩一下,給他一個surpport。比如原來一個小時干完的事情現在可以3分鐘干完,讓他也有時間去吃個中午飯。醫生的身體也是需要注意的,如果醫生都病倒了,誰來給我們看病呢?再比如說老師批作業,也是很累的。我們是否有一些算法可以讓機器人去批一些簡單的作業,難的作業留下來讓老師正一下。這樣老師也有時間去把課備的更好,給學生傳授更多的知識,更好地組織課堂內容。我覺得各行各業都需要這樣的技術?,F在總說用工荒,實際上是需要做的事情太多了,我們沒有人去做這么多的事情。還有全球老齡化問題,這么多孤寡老人誰來解決。我們需要各種各樣的方式來解決問題,享受人工智能帶來的各種福利。好的。

                    國:我也同意這個。大家不用擔心人工智能會取代(人類)。人工智能在各個領域都有滲透,它應該替代什么內容大家應該清楚。我們很清楚人工智能會替代重復性的、你不愿意做的這些工作,你只要很好地利用它把自己的能力延長就可以了。其他領域也一樣,像洗衣機在家里洗衣服,它不會產生別的任何變化,它還是受你支配,受你影響能夠幫你把事情做的更好,讓你有更多的時間去做更高級的事情。我覺得是這樣,不用擔心(替代人類)這個事情。

                    主持人:好,我們的互動時間到此結束。讓我們再次以熱烈的掌聲感謝陶大程教授和趙明國教授??茖W連線節目是一個系列性的活動,我們會邀請國際知名科學家連線,來分享最前沿的科學研究和成果,大家也可以關注一下中國數字科技館的微信公眾號,以及環球科學、把科學帶回家的微信公眾號。我們的活動都會發布在這些平臺上。也歡迎大家登陸中國數字科技館的網站,這是一個國家級的網絡科普平臺,上面有非常豐富的科普文章、動畫、游戲以記科技課堂和科技活動??茖W連線活動到此結束,謝謝大家!

                    ©2011-2019 版權所有:中國數字科技館
                    未經書面許可任何人不得復制或鏡像
                    京ICP備11000850號 京公網安備110105007388號
                    信息網絡傳播視聽節目許可證0111611號
                    國家科技基礎條件平臺
                    久久这里只精品国产免费99热4_一起射久久_久久在线视频_日日天天夜夜久久_日日扞夜夜燥国产