&

12月

27分鐘，路透社用人工智能搶到了一條全球新聞

1609

“網(wǎng)絡(luò)的出現(xiàn)以及隨之而來的信息爆炸，讓記者準(zhǔn)確迅速地報(bào)道新聞變得越來越具有挑戰(zhàn)性。”全球新聞機(jī)構(gòu)路透社的研發(fā)團(tuán)隊(duì)本周在arXiv上發(fā)表的一篇論文用了這樣一句開場白。

對(duì)路透社而言，假新聞的出現(xiàn)讓問題變得更加嚴(yán)重，這些假新聞扭曲了事件認(rèn)知。

不過，像美聯(lián)社等新聞機(jī)構(gòu)已經(jīng)開始采用自動(dòng)化的新聞寫作服務(wù)。這些報(bào)道使用了標(biāo)準(zhǔn)化的模式，例如財(cái)經(jīng)新聞或者特定體育比賽結(jié)果，將數(shù)據(jù)填到預(yù)先寫好的模板之中：“X在第三季度的財(cái)報(bào)顯示盈利為Y百萬，這一數(shù)值超出了華爾街的預(yù)期……”

所以其他新聞機(jī)構(gòu)在自動(dòng)化新聞制作方面都面臨著很大的壓力。今天，路透社介紹了該社是如何幾乎完全自動(dòng)化地識(shí)別突發(fā)新聞報(bào)道的。劉曉莫（Xiaomo Liu，音譯）以及路透社研發(fā)部門和阿里巴巴的同事表示，新系統(tǒng)表現(xiàn)良好。事實(shí)上，它有可能能夠徹底革新新聞業(yè)務(wù)。但是它也引發(fā)了人們的擔(dān)憂——心懷叵測的人會(huì)如何利用這樣一個(gè)系統(tǒng)。

這個(gè)新系統(tǒng)被稱為路透社追蹤器（ Reuters Tracer）。它將推特（Twitter）作為一種全球傳感器加以利用，新聞事件在發(fā)生的過程中，就會(huì)在推特上有相關(guān)記錄。然后該系統(tǒng)會(huì)使用各種數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)來挑選最為相關(guān)的事件，確定它們的主題，排列它們的優(yōu)先級(jí)，并寫出標(biāo)題和摘要。這個(gè)消息隨后會(huì)被分發(fā)到該公司的全球新聞專線上。

整個(gè)流程的先進(jìn)步是提取推特的數(shù)據(jù)流。該追蹤器每天要查看大約1200萬條推特消息，占所有推特消息總數(shù)的2%。其中一半是隨機(jī)抽樣，另外一半來自路透社記者創(chuàng)建的推特賬戶列表。其中包含其他新聞機(jī)構(gòu)的賬戶、重要的公司、有影響力的個(gè)人等等。

下一步是確定新聞事件發(fā)生的時(shí)間。追蹤器（Tracer）是根據(jù)這樣一個(gè)前提假設(shè)完成這項(xiàng)工作的：如果幾個(gè)人同時(shí)開始談?wù)撨@件事，這個(gè)事件就已經(jīng)發(fā)生了。因此它使用聚類算法來尋找這些對(duì)話。

當(dāng)然，這些聚類中包括垃圾郵件、廣告、普通聊天等。其中只有一部分是具有新聞價(jià)值的事件。

所以下一個(gè)階段是對(duì)事件進(jìn)行分類和排序。追蹤器（Tracer）使用一些算法來完成這項(xiàng)工作。先進(jìn)個(gè)算法確定談話的主題。然后將它與一個(gè)主題數(shù)據(jù)庫進(jìn)行比較，這個(gè)主題數(shù)據(jù)庫中的內(nèi)容是由路透團(tuán)隊(duì)從31個(gè)官方新聞賬戶——例如@CNN、@BBCBreaking和@nytimes，以及@BreakingNews等新聞聚合器所發(fā)布的推特消息中收集的。

在這個(gè)階段，該算法還會(huì)使用包含了城市和基于位置關(guān)鍵字的數(shù)據(jù)庫來確定事件發(fā)生的地點(diǎn)。

一旦一段談話或流言被認(rèn)定為新聞，一個(gè)重要的考量就是確認(rèn)其準(zhǔn)確性。為了確定這一點(diǎn)，追蹤器（Tracer）通過識(shí)別對(duì)話中最早提及該話題的推特消息及其指向的站點(diǎn)來尋找來源。然后，它會(huì)查詢一個(gè)數(shù)據(jù)庫，其中列出了已知的假新聞的制作者，例如國家報(bào)告（National Report），或是洋蔥（The Onion）這類諷刺新聞網(wǎng)站。

最后，該系統(tǒng)會(huì)寫出標(biāo)題和摘要，并在路透社整個(gè)組織內(nèi)分發(fā)該消息。

在試驗(yàn)過程中，路透社的團(tuán)隊(duì)表示該系統(tǒng)表現(xiàn)良好。他們表示：“追蹤器（Tracer）能夠在新聞檢測和提交方面實(shí)現(xiàn)很有競爭力的準(zhǔn)確度、召回率、時(shí)效性和準(zhǔn)確度?！?/p>

他們有統(tǒng)計(jì)數(shù)據(jù)可以支持這一觀點(diǎn)。該系統(tǒng)每天處理1200萬條推特消息，將其中的大約百分之八十的內(nèi)容作為噪聲加以拒絕。其余的內(nèi)容則被劃分進(jìn)入6000個(gè)聚類，系統(tǒng)用這種方式將新聞事件劃分為不同的類型。所有的這一切工作全部由13臺(tái)運(yùn)行著10種不同算法的服務(wù)器完成。

相比之下，路透社在全球雇傭了大約2500名新聞?dòng)浾?，他們每天使用各種來源——包括推特——總共產(chǎn)生大約3000條新聞提醒。其中，大約有250條被寫成了新聞報(bào)道。

路透社將追蹤器（Tracer）識(shí)別出的新聞同BBC和CNN等新聞機(jī)構(gòu)的推送新聞進(jìn)行了比較。劉和他的同事表示，“結(jié)果表明，追蹤器（Tracer）可以用2%的推特?cái)?shù)據(jù)覆蓋大約70％的新聞報(bào)道?！?/p>

而這套系統(tǒng)的工作當(dāng)然是非常迅速的。該團(tuán)隊(duì)舉了2017年10月份在拉斯維加斯發(fā)生的槍擊案作為例證，在那次事件中，有58人喪生。一位目擊者在凌晨1點(diǎn)22分報(bào)告了這一事件，隨即觸發(fā)了一個(gè)追蹤器（Tracer）聚類。但是，該聚類到凌晨1點(diǎn)39分之前都沒有達(dá)到該系統(tǒng)確認(rèn)新聞的標(biāo)準(zhǔn)。劉和他的同事表示：“路透社在凌晨1點(diǎn)49分報(bào)道了這一事件?！?/p>

這是一個(gè)有趣的工作，引發(fā)了很多問題，特別是圍繞著該系統(tǒng)是多么容易被操縱這個(gè)問題。不難想象會(huì)有心懷叵測的人設(shè)計(jì)推特消息，以欺騙追蹤器（Tracer），實(shí)現(xiàn)特定目的。

但是這套系統(tǒng)是否會(huì)比現(xiàn)有的系統(tǒng)更好糊弄，恐怕還很難說，人類也經(jīng)常會(huì)被各種假消息欺騙。

還有人類在新聞業(yè)中扮演的角色。新聞的未來顯然會(huì)變得日益自動(dòng)化。人類如何適應(yīng)這種變化還未見端倪。