機(jī)器新聞寫作:一場(chǎng)正在發(fā)生的革命
發(fā)布時(shí)間:2020-10-14 18:00:42 點(diǎn)擊次數(shù):206
聚焦于新聞內(nèi)容生產(chǎn)的自動(dòng)化趨勢(shì),即基于算法的新聞內(nèi)容生產(chǎn)和編輯、出版。通過追溯谷歌新聞開啟的機(jī)器自動(dòng)選編和推薦新聞的做法,重點(diǎn)介紹了機(jī)器新聞目前的發(fā)展現(xiàn)狀、工作原理和應(yīng)用前景,并探討了新聞生產(chǎn)自動(dòng)化對(duì)新聞業(yè)、新聞學(xué)科以及新聞從業(yè)人員的素養(yǎng)要求帶來的深遠(yuǎn)影響。
關(guān)鍵詞:機(jī)器新聞;算法;新聞生產(chǎn)自動(dòng)化;內(nèi)容生產(chǎn);新聞寫作;數(shù)據(jù)新聞
作者簡介:
【作者簡介】金兼斌,清華大學(xué)新聞與傳播學(xué)院教授
【內(nèi)容提要】聚焦于新聞內(nèi)容生產(chǎn)的自動(dòng)化趨勢(shì),即基于算法的新聞內(nèi)容生產(chǎn)和編輯、出版。通過追溯谷歌新聞開啟的機(jī)器自動(dòng)選編和推薦新聞的做法,重點(diǎn)介紹了機(jī)器新聞目前的發(fā)展現(xiàn)狀、工作原理和應(yīng)用前景,并探討了新聞生產(chǎn)自動(dòng)化對(duì)新聞業(yè)、新聞學(xué)科以及新聞從業(yè)人員的素養(yǎng)要求帶來的深遠(yuǎn)影響。
【關(guān) 鍵 詞】機(jī)器新聞;算法;新聞生產(chǎn)自動(dòng)化;內(nèi)容生產(chǎn);新聞寫作;數(shù)據(jù)新聞
?。壑袌D分類號(hào)]G20 [文獻(xiàn)標(biāo)識(shí)碼]A
對(duì)于不斷追求創(chuàng)新和效率的人類而言,內(nèi)容生產(chǎn)行業(yè)無論是出版、報(bào)業(yè),還是影視和新聞網(wǎng)站中的內(nèi)容提供的自動(dòng)化,并不僅僅是夢(mèng)想而已。雖然包括文字、音頻、視頻、動(dòng)畫等多種媒體為載體的內(nèi)容的生產(chǎn),不同于衣物鞋帽和各類機(jī)電產(chǎn)品的生產(chǎn),但在后者早已實(shí)現(xiàn)大批量自動(dòng)化生產(chǎn)的今天,在各類自動(dòng)化手段,從設(shè)計(jì)、生產(chǎn)到質(zhì)量檢測(cè)的各個(gè)工藝環(huán)節(jié)普遍應(yīng)用的今天,內(nèi)容生產(chǎn)是否具有機(jī)器不可替代的獨(dú)特性,是值得存疑的。在傳統(tǒng)藍(lán)領(lǐng)工種所從事的工作大量被“自動(dòng)化”后,傳統(tǒng)白領(lǐng)工種所從事的工作,很多方面也在逐漸被“自動(dòng)化”。事實(shí)上,從“內(nèi)容創(chuàng)作”到“內(nèi)容生產(chǎn)”,這種措辭上的改變,已經(jīng)傳遞出某種讓“寫作”走下神壇的意味。
一、新聞的自動(dòng)選編
就新聞行業(yè)的這種自動(dòng)化浪潮而言,影響最大的早期實(shí)踐大概要算“Google News”了①。2001年,Google當(dāng)時(shí)的首席科學(xué)家克里希納-巴拉特開發(fā)出一個(gè)與Google搜索核心技術(shù)PageRank算法相關(guān)的算法StoryRank,可用于新聞的推薦排序,此即“Google News”的前身?!癎oogle News”在不同的國家和地區(qū)提供不同的版本,其本質(zhì)上是一款Web新聞聚合器,其首頁更新和新聞推薦都不依賴于人工操作,而是由后臺(tái)的聚合算法實(shí)現(xiàn)。時(shí)至今日,在中文“Google新聞”頁面的下方,仍有“所有新聞的選擇、排序、分類和搜索均由電腦程序自動(dòng)決定”的說明。而在其“關(guān)于Google新聞”說明中②,有以下3段意味深長的話:
Google新聞是一個(gè)由計(jì)算機(jī)生成的新聞網(wǎng)站。它匯集了來自中國大陸超過1000多個(gè)中文新聞源的新聞資源,并將相似的報(bào)道組合在一起,根據(jù)讀者的個(gè)人喜好進(jìn)行顯示。
一直以來,新聞讀者都是先挑選一種出版物,然后再尋找所關(guān)注的標(biāo)題。為了向讀者提供更加個(gè)性化的選項(xiàng)以及更加多樣化的視點(diǎn)供其選擇,我們采取的方式略有不同。在Google新聞中,我們?yōu)槊宽?xiàng)報(bào)道提供了指向多篇文章的鏈接,因此您可以先確定感興趣的主題,然后再選擇要閱讀每項(xiàng)報(bào)道的具體發(fā)布者的網(wǎng)頁。點(diǎn)擊您感興趣的標(biāo)題,然后您就可以直接進(jìn)入發(fā)布該報(bào)道的網(wǎng)站。
我們的文章是由計(jì)算機(jī)進(jìn)行選擇和排名的,它們會(huì)評(píng)估某項(xiàng)報(bào)道在線顯示的頻率和所顯示的網(wǎng)站及其他因素。因此,對(duì)于任何給定的報(bào)道都有多樣化的視點(diǎn)供您選擇。我們將繼續(xù)添加新聞來源,優(yōu)化技術(shù),不斷改進(jìn)Google新聞,并努力向更多地區(qū)的讀者提供這一產(chǎn)品。
顯然,Google新聞所開創(chuàng)的是新聞的機(jī)器選編,還不是本文所要著重探討的新聞的機(jī)器寫作。但寫作和編輯同為新聞內(nèi)容生產(chǎn)的兩個(gè)關(guān)鍵環(huán)節(jié)。在上述“Google新聞”的自動(dòng)選編推薦中,關(guān)鍵是以下幾點(diǎn):
1.新聞來源:來自我國大陸1000多個(gè)中文新聞源。新聞來源的選擇和把關(guān),在很大程度上決定了聚合推薦的新聞的豐富和多樣性程度;這實(shí)際上是“Google新聞”選擇和推薦的樣本框,決定了哪些新聞?dòng)袡C(jī)會(huì)被推薦。
2.推薦邏輯:即其算法(algorithm)。值得指出的是,StoryRank和PageRank類似,其對(duì)一篇報(bào)道的推薦和選擇,并不是僅僅通過分析報(bào)道本身的內(nèi)容,而是著重分析報(bào)道在網(wǎng)上的受關(guān)注程度:被哪些網(wǎng)站發(fā)布、轉(zhuǎn)發(fā)的多少和頻率、在網(wǎng)站的什么位置發(fā)布等,以此來“計(jì)算”有關(guān)新聞的價(jià)值或重要程度。
3.推薦而不提供:從新聞作品版權(quán)等角度考慮,“Google新聞”只是提供各種新聞不同的新聞來源,有點(diǎn)“述而不作”的味道,具體的新聞則仍需要到各來源網(wǎng)站去閱讀。Google新聞的這一做法最大限度地讓它避免了各種版權(quán)糾紛,換言之,它把自己定位為自己所定義的眾多新聞源的精華索引頁。
作為機(jī)器編輯肇始的“Google News”,其所開創(chuàng)的基于所選擇的樣本框進(jìn)行新聞自動(dòng)選擇和推薦、排序的方法,對(duì)各大新聞網(wǎng)站、新聞門戶和其他搜索引擎帶來了很大的沖擊和影響,包括百度新聞等跟風(fēng)者不少。值得指出的是,在“Google News”最初推出之時(shí),還是Web1.0時(shí)代。10年過去,互聯(lián)網(wǎng)特別是移動(dòng)互聯(lián)的發(fā)展,使得新聞生產(chǎn)和消費(fèi)的格局又有了很大的變化。這其中最大的變化就是社會(huì)化媒體的興起,以及基于消費(fèi)端的用戶偏好,被納入到新聞推薦的算法考慮中,從而可以為用戶推薦更加個(gè)性化、定制化、動(dòng)態(tài)化的新聞產(chǎn)品和內(nèi)容。事實(shí)上,以“今日頭條”等為代表的新聞客戶端,都是當(dāng)初“Google News”所開創(chuàng)的機(jī)器新聞編輯產(chǎn)品的變種和升級(jí)。
無論是“Google News”也好,“今日頭條”也好,這類產(chǎn)品的出現(xiàn)和風(fēng)行,揭示了這樣一種趨勢(shì),即機(jī)器學(xué)習(xí)、深度學(xué)習(xí)正在改變包括新聞生產(chǎn)在內(nèi)的諸多之前依賴人力、腦力密集的產(chǎn)業(yè)和行業(yè)的生態(tài)和業(yè)態(tài)。從工業(yè)革命開始,人類的自動(dòng)化夢(mèng)想就一直在加速膨脹,試圖在一切有可能把人力解放出來的領(lǐng)域,代之以無論是硬件還是軟件意義上的“機(jī)器”的協(xié)助甚至完全自動(dòng)化。一些前沿創(chuàng)新公司,如Google和百度,都在不約而同地研究無人或者自動(dòng)駕駛汽車③;而在自然語言處理、自動(dòng)翻譯等領(lǐng)域,近年來所取得的進(jìn)展也是令人側(cè)目的。Google的自動(dòng)翻譯近年來在準(zhǔn)確性方面有很大提升,相信隨著其每時(shí)每刻的海量語料的學(xué)習(xí),輔之以群智形式的修正反饋④,其翻譯的水平終將接近或達(dá)到專業(yè)同步翻譯的水準(zhǔn)。而百度則在2012年啟動(dòng)了其深度學(xué)習(xí)研究工作,并于2013年成立深度學(xué)習(xí)研究院,在2014年聘請(qǐng)人工智能領(lǐng)域的頂級(jí)學(xué)者吳恩達(dá)擔(dān)任公司首席科學(xué)家,負(fù)責(zé)百度研究院尤其是其“百度大腦”計(jì)劃。2013年底,百度創(chuàng)始人李彥宏出現(xiàn)在江蘇衛(wèi)視《最強(qiáng)大腦》第一期現(xiàn)場(chǎng),并對(duì)此節(jié)目有自己的關(guān)注點(diǎn):“《最強(qiáng)大腦》講的是人腦,我想的是電腦能不能做。如果你能做到的事情,我通過研究后用電腦也能做到,甚至做得更好,那不是很有意義的一件事嗎?”⑤可以預(yù)見,在不遠(yuǎn)的將來,一臺(tái)連接到特定云端支持網(wǎng)絡(luò)如百度大腦系統(tǒng)的計(jì)算機(jī),在包括人際互動(dòng)、問題解答等方面達(dá)到與“人”幾乎一致,并不是不可能的。2014年6月8日,一臺(tái)計(jì)算機(jī)成功讓人類相信它是一個(gè)13歲的男孩,成為有史以來首臺(tái)通過圖靈測(cè)試⑥的計(jì)算機(jī)。這被認(rèn)為是人工智能發(fā)展的一個(gè)里程碑事件,也進(jìn)一步驗(yàn)證了圖靈的信念,即假以時(shí)日,在一定程度上機(jī)器是可以有人一樣的智能和思維的。
如果機(jī)器真的可以具有人一樣的智能,它也許真的可以成為“他”或“她”,從事包括新聞的選編、寫作這樣的“專業(yè)性、創(chuàng)造性工作”。當(dāng)代最有影響的媒介理論家之一Douglas Rushkoff在其2010年出版的《編程,或者被編程(Program or Be Programmed: Ten Commands for a Digital Age)》一書中寫道:隨著計(jì)算機(jī)和網(wǎng)絡(luò)計(jì)算能力的不斷提升,“思考本身將不再——至少不再是獨(dú)一無二地——成為人類的特權(quán)”⑦,計(jì)算機(jī)和網(wǎng)絡(luò)終將具備寫作的能力。
下面讓我們來檢視機(jī)器新聞寫作。