作者 Sai Teja Peddinti     , Keith W Ross     , Justin Cappos     ,譯者 姚佳靈

本文要點:

  • 本文探討了三個研究目標:測量推特用戶采用匿名或假名的數(shù)量;測量在內(nèi)容敏感性和用戶匿名之間的相關性;以及確認是否有可能構建能夠檢測敏感推特賬戶的自動分類器。
  • 為了測量推特用戶匿名的流行程度, 他們從公開的 2010 年推特數(shù)據(jù)集中的 4170 萬個賬戶中隨機選取了 10 萬個賬戶,并用 Amazon Mechanical Turk 進行標注。
  • 為了評估內(nèi)容敏感性和用戶選擇匿名的相關性,他們選擇了若干廣泛被認為敏感、有爭議的主題類別。
  • 研究人員在跨度為 5 年的不同時間點上使用了 3 個數(shù)據(jù)集。在所有的 3 個數(shù)據(jù)集中,不僅有匿名推特賬戶,還有跨越不同數(shù)據(jù)集而沒有變化的匿名賬戶與敏感推特賬戶之間的關系。

本文首先發(fā)表于《 IEEE Security & Privacy 》。對于如今的戰(zhàn)略技術問題,《IEEE Security & Privacy》提供可靠的、同行評審的信息。為了迎接經(jīng)營可靠、靈活企業(yè)的挑戰(zhàn),IT 管理人員和技術人員依靠 IT Pro 提供較先進的解決方案。

互聯(lián)網(wǎng)的急速膨脹引發(fā)出現(xiàn)了越來越多的在線社交網(wǎng)絡和論壇。為了加入這些社交網(wǎng)絡和論壇,用戶一般必須創(chuàng)建一個賬戶并設立一個在線身份。各種社交網(wǎng)絡和論壇通常在可接受的用戶身份上有不同的要求。例如,臉書實施實名制,要求用戶在創(chuàng)建賬戶時提供其真名。所述理由包括這樣的政策會增強用戶的責任感并提高了內(nèi)容質量(有助于減少垃圾郵件、欺凌和黑客行為)。然而,倡導隱私人士聲稱實名制政策侵蝕了在線自由,因為這會把用戶興趣(通過其在線活動反映出來)和其名字聯(lián)系在一起,從而生成一大堆信息。 1

推特剛好相反,不要求用戶提供真名,盡管其的確要求用戶創(chuàng)建獨特的假名。使用與真名無關的假名可以有效地讓用戶匿名(即對其他用戶匿名,盡管沒必要對服務供應商匿名)。不采用實名制政策使得推特成為流行的信息交換門戶,用戶們可以分享和獲取信息而不會被識別。 2,3

在線和離線匿名都已受到廣泛的研究 4-6 。這里,我們特別關注在線社交網(wǎng)絡中的匿名如何影響用戶行為。我們對推特實施了大范圍、數(shù)據(jù)驅動的分析,以確定用戶匿名和其內(nèi)容敏感性之間的相關性(如果要更多地了解我們使用的 3 個推特數(shù)據(jù)集,請參看原文的邊欄)。我們也探討了利用用戶匿名模式幫助識別敏感內(nèi)容的自動化系統(tǒng)的可行性。通過我們的工作,我們希望深入了解匿名在社會中的重要性和作用,以指導在現(xiàn)有及未來的在線社交網(wǎng)絡中新隱私和匿名特征的開發(fā),并在社交網(wǎng)絡中發(fā)現(xiàn)潛在的敏感或有爭議的話題。為了便于閱讀,我們將在文中采用常用術語,而不是更隱晦的假名。

推特賬戶基本信息

每個推特賬戶包含 4 項主要信息:

  • 用戶提供詳細個人信息的賬戶包括一個識別該賬戶的唯一混合了字母數(shù)字的 ID,這個稱為顯示名(screen name);一個名字字段,通常包含該用戶的全名(姓氏+名字);一張個人資料照片;一個可以鏈接到另一個社交網(wǎng)絡賬戶的地址。請注意,在賬戶中所提供的詳細資料并不總是真實的,比如,姓名字段中可能名字是假的、姓氏是假的或兩者都是假的。
  • 用戶發(fā)布的推文或消息列表。
  • 朋友列表。當一個用戶關注(follow)另一個用戶或成為“朋友(friend)”時,其會收到來自另一個用戶的推文更新。但這種關系是單向的,如果 Alice 是 Bob 的朋友,Bob 不一定是 Alice 的朋友。
  • 關注者列表。其他收到來自該用戶的推文更新的用戶被稱為“關注者(follower)”。

我們的工作

為了測量推特中匿名的普遍性,我們從公開的 2010 年推特數(shù)據(jù)集中的 4179 萬個賬戶中隨機選取了 10 萬個賬戶。 7 去掉所有被停用的賬戶、非英語賬戶(那些不以英語為偏好語言的賬戶)、垃圾郵件賬戶以及非活動或短期賬戶,我們把含有 50173 個推特賬戶的數(shù)據(jù)集用 Amazon Mechanical Turk(AMT)進行了標注。

標注推特賬戶

我們把每個推特賬戶的名字和顯示名提供給 AMT 的工作人員,請他們來確定這兩個字段是否只包含名字,或只包含姓氏,或兩者都有,或兩者都沒有。工作人員也可以標注為不確定。在 AMT 標注的基礎之上,我們把每個賬戶分配給下面幾個類別中的其中一個:

  • 匿名——推特賬戶中既沒有姓氏也沒有名字,還沒有鏈接地址(因為鏈接地址可以指向一個部分或完全可識別用戶的網(wǎng)頁)
  • 部分匿名——推特賬戶中有姓氏或者有名字,二者居其一
  • 可識別的——有姓氏和名字的推特賬戶
  • 無法分類的——只要不能被分到上述的類別中,比如有鏈接地址而無姓氏或名字的,或者是屬于組織和公司的推特賬戶,都被歸到這一類

請注意,用戶分類中的噪音是難以完全除去的。例如,標注成匿名賬戶中的一小部分也許不完全如此,比如,用戶提供的可識別的個人資料照片或用戶推文公開了他們的身份。而且,可識別的賬號中的一部分也許實際上是匿名的,因為這些用戶提供的是假的姓氏和名字。

量化用戶匿名

我們發(fā)現(xiàn)在所分析的賬戶中有 6%是匿名的,因為這些賬戶的用戶沒有透露姓氏和名字。還有 20%的賬戶是部分匿名的,只透露了姓氏或者名字。這意味著在線匿名是重要的,至少對 4 分之一的推特用戶來說是這樣的。同時,推特實名制的缺失也許是推特的強大賣點。在剩余的賬戶中,有 6%是無法分類的,68%是可識別的。當然,有些可識別的用戶用的是假的姓氏和假的名字,因此,實際上是匿名的。這意味著在推特上沒有完全披露自己身份的用戶占 26%可能有點低估了。

用戶匿名和內(nèi)容敏感性

為了評估內(nèi)容敏感性和用戶匿名之間是否相關,我們選擇了幾個主題類別,這些主題是被廣泛地認為敏感或有爭議的,包括色情、三陪服務、性取向、宗教和種族仇恨、在線毒品、槍支。為了對比,我們也選擇了幾個非敏感的主題類別,包括新聞網(wǎng)站、家庭娛樂、影視或戲劇、兒童或嬰兒、生產(chǎn)家居用品的公司或組織。我們?yōu)槊恳活悇e確定了一些與眾不同的搜索主題詞,并且手工選取了在我們用那些主題詞在推特上搜索時顯示出的賬戶。

圖 1 敏感和不敏感推特賬號類別,按照匿名關注者所占的百分比從高到低排列

我們選擇了 50 個跟敏感類別相關的推特賬戶,20 個跟非敏感類別相關的推特賬戶。圖 1 展示了每個敏感和非敏感類別的匿名關注者所占的平均百分比。這些分類是根據(jù)匿名關注者所占的百分比從高到低排列的。

敏感類別的匿名用戶所占的百分比較高,關注色情、大麻、伊斯蘭恐懼癥以及同性戀賬戶的用戶至少占 21.6%,關注色情賬戶的遠遠超過其他匿名關注者,有 37.3%之多。然而,某些敏感主題類別,比如白人之上和槍支這類的,在可識別的關注者中有著驚人的大比例。這顯示出某些類別的敏感內(nèi)容有保密性,而其他的則鼓勵開放性。這個觀察再次肯定內(nèi)容敏感性是相當微妙和復雜的。

甚至非敏感的分類賬戶也有 6.6%到 8.9%的匿名追隨者。這個觀察證實用戶不會僅僅為了關注敏感賬戶而創(chuàng)建匿名賬戶。為了避免維護多個賬戶,一個匿名用戶也許會用同個賬戶同時關注敏感和非敏感的賬戶,于是在推特上泄露了其興趣所在。

自動檢測敏感賬戶

一種識別敏感賬戶的方法是指定敏感主題的分類,識別那些通常出現(xiàn)在這些主題討論中的詞匯,然后搜索使用這些詞匯的推文和賬戶。然而,這個方法是非常主觀的,因為它依賴人類來決定敏感主題和詞匯。

另一種方法是對推文應用自動主題識別技術,比如 LDA(latent Dirichlet allocation,潛在狄利克雷分配)。這可以識別與這些敏感主題相關的賬戶。然而,這樣的技術是資源高度密集型的,無法匹配推特的規(guī)模。 8

因此,我們調(diào)查了我們觀察到的用戶匿名模式和他們與內(nèi)容敏感性之間的聯(lián)系是否可以用來開發(fā)一個有效的自動方式來識別推文中含有敏感內(nèi)容的賬戶。這種方式會更好地推廣到不可預見的主題,將不會受到語言特征的限制并且易于擴展。

我們首先考慮了自動確定賬戶是否匿名問題的一個子問題。我們依賴先前已經(jīng)被標注的推特賬戶用于訓練。因為匿名和可識別賬戶在姓氏和名字的構成上有不同之處,我們獲取了美國人口普查和社會保障局的公開姓氏和名字列表。

但是,僅僅在名字列表中搜索,得到匿名和可識別的檢測率很差。因此,我們從推特賬戶中提取了額外的可用信息,比如在公開名字列表中的姓氏和名字的流行等級;名字字符串遵循的結構約束(比如,“名 +中間名+ 姓 ”),另外還有朋友的數(shù)量、關注者、推文等等。

利用這些提取的特征,我們訓練了一個基于隨機森林的匿名機器學習分類器,這個分類器能夠精確地檢測出匿名和可識別賬戶,精度超過 90%。然后,根據(jù)這個匿名分類器在之前已知的 70 個敏感和非敏感的賬號中檢測到匿名和可識別的關注者的比例,我們開發(fā)了一個基于支持向量機的敏感分類器,它可以區(qū)分敏感和非敏感的推特賬戶。

為了測試這個敏感分類器,我們爬取了推特上隨機的 10 萬個賬戶,這些賬戶有大約 4 億 4 百萬活躍的關注者。在標注了它們的關注者是匿名或是可識別之后,我們在這些賬戶上應用了這個分類器。

手工檢查表明,被我們的分類器定義的敏感賬戶中,最主要的的確是在討論多數(shù)人認為的敏感話題:色情、毒品和成人內(nèi)容。然而,除了這些常見的嫌疑賬戶外,我們的方法發(fā)現(xiàn)很多賬戶跟社會性主題相關,這說明匿名具有很多不同的目的。

例如,我們識別出許多為同性戀、雙性戀、變性人的權利搖旗吶喊的賬戶。對于很多人來說,披露自己的性取向是個敏感的問題,因此用戶更傾向于匿名。我們發(fā)現(xiàn)了那些公開討論婚姻和其他關系問題、分享個人感受或經(jīng)歷并解決健康問題的賬戶。匿名或許為人們提供了一個尋求支持和安慰的機會。

我們也發(fā)現(xiàn)了和嚴重厭食癥、社交焦慮、抑郁和自殺傾向有關的賬戶。事實上,在其中的一些賬戶上,用戶上傳了其自殘的照片。盡管這些賬戶有不同的目的,醫(yī)療機構正利用它們對那些需要幫助的人伸出援手。 9

跟那些敏感主題有關賬戶的存在,以及它們有很多匿名關注者的事實支持了在我們這個社會中隱私和匿名是很重要的這個論點。

盡管我們識別推特敏感賬戶的新方法提供了一種可推廣和客觀的方式來了解內(nèi)容敏感性,但是要改善用戶在社交媒體內(nèi)容上的隱私偏好和期望還需要更深入的研究。

比如,值得探索和量化在不同社交應用程序中有多少敏感性內(nèi)容類別是一致的,以及有多少取決于該應用程序的特性(例如分享照片與消息傳送)。我們希望我們的發(fā)現(xiàn)會對將來隱私政策的改善和新的隱私管控上有所幫助。

致謝

本文是在作者之前發(fā)表的兩篇文章的基礎上形成的,其中一篇是《在網(wǎng)上,沒人知道你是條狗:社交網(wǎng)絡匿名性的推文案例研究》(Proc. ACM Conf. Online Social Networks [COSN 14], 2014, pp. 83–94),另一篇是《在推特上尋找敏感賬戶:基于關注者匿名的自動化方法》(Proc. Int’l AAAI Conf. Web and Social Media [ICWSM 16], 2016, pp. 665–658)。

參考文獻

  1. N. Lomas, “Facebook Users Must Be Allowed to Use Pseudonyms, Says German Privacy Regulator; Real-Name Policy ‘Erodes Online Freedoms,’” Techcrunch, 18 Dec. 2012; techcrunch.com/2012/12/18 /facebook-users-must-be-allowed-to -use-pseudonyms-says-german -privacy-regulator-real-name-policy -erodes-online-freedoms.
  2. A. Kavanaugh et al., “Microblogging in Crisis Situations: Mass Protests in Iran, Tunisia, Egypt,” Proc. Workshop Transnational Human-Computer Interaction (CHI 11), 2011; eventsarchive.org/sites/default/ les/Twi er%20Use%20 in%20Iran%20Tunisia%20Egypt .Kavanaugh.Final__0.pdf.
  3. E. Mustafaraj et al., “Hiding in Plain Sight: A Tale of Trust and Mistrust inside a Community of Citizen Reporters,” Proc. 6th Int’l AAAI Conf. Weblogs and Social Media (ICWSM 12), 2012, pp. 250–257.
  4. M.S. Bernstein et al., “4chan and /b/: An Analysis of Anonymity and Ephemerality in a Large Online Community,” Proc. 5th Int’l AAAI Conf. Weblogs and Social Media(ICWSM 11), 2011, pp. 50–57.
  5. D. Correa et al., “ e Many Shades of Anonymity: Characterizing Anonymous Social Media Content,” Proc. 9th Int’l AAAI Conf. Web and Social Media (ICWSM 15), 2015; socialnetworks.mpi-sws.org/papers/anonymity_shades.pdf.
  6. S.T. Peddinti et al., “Cloak and Swagger: Understanding Data Sensitivity through the Lens of User Anonymity,” Proc. 35th IEEE Symp. Security and Privacy, 2014, pp. 493–508.
  7. H. Kwak et al., “What Is Twi er, a Social Network or a News Media?,” Proc. 19th Int’l Conf. World Wide Web(WWW 10), 2010, pp. 591–600.
  8. B. Bi et al., “Scalable Topic-Speci c In uence Analysis on Microblogs,” Proc. 7th ACM Int’l Conf. Web Search and Data Mining (WSDM 14), 2014, pp. 513–522.
  9. J. Jashinsky et al., “Tracking Suicide Risk Factors through Twi er in the US,” Crisis, vol. 35, no. 1, 2014, pp. 51–59.

作者簡介

Sai Teja Peddinti是谷歌安全和隱私小組的研究科學家。他的研究工作是在紐約大學攻讀博士學位時期完成的。請通過 psaiteja@ google.com 與他聯(lián)系。

Keith W. Ross是上海紐約大學工程與計算機科學系主任,紐約大學計算機科學與工程系 Leonard J. Shustek 講座教授。 請通過 keithwross@nyu.edu 與他聯(lián)系。

Justin Cappos是紐約大學 Tandon 工程學院的助教。請通過 jcappos@nyu.edu 與他聯(lián)系。

查看英文原文: http://www.infoq.com/articles/user-anonymity-twitter

轉自 http://www.infoq.com/cn/articles/user-anonymity-twitter