二周一胡bot

注:此頁面絕大部分內容為Google翻譯,請參考英文頁面

(應該是)第一個真正的微博文學機器人

John C

2020 五月

於微博上關注它

@二周一胡bot

概念
微博是中國大陸最大(也是唯一)的社交媒體。老實說,在這個項目之前,我甚至沒有微博帳號。因此,該項目也是對微博的一種探索,許多人(包括我的一些朋友)都將其視為中國大陸網絡空間的縮影。

起初,我把微博想像成Twitter的大陸版。好吧,它們非常相似:它們都具有140個字符的短文本限制(儘管現在你可以超出此限制);人們發布文字,圖片和視頻,其他人發表評論,表示喜歡,不喜歡並轉發;等等。但是當我開始構建bot時,我發現微博比我想像的要復雜。儘管微博的結構類似於Twitter,但人們在Twitter上所做的工作更像是人們在Twitter(張貼文本),Facebook(擁有一個粉絲團)和Instagram(你知道在那上面發照片的美女)所做的混合。因為在中國大陸沒有其他競爭對手,所以從農民到億萬富翁,大陸的每個人都用它來評論政治,唐納德·特朗普(他在各個地方都非常受歡迎),流行音樂,新的數字產品等等。這使微博成為一個非常有趣的地方。

隨著Twitter機器人近年來的流行,微博上出現了許多“機器人”。但是,由於微博沒有提供Twitter一樣的出色API,因此這些“機器人”都是人:有些人躲在帳戶後面並假裝是機器人。 (有關於這種趨勢的文章。)因此在微博上製作一個真正的非人類機器人的想法也很有趣。

藝術角度

該機器人的名稱包含3個人。二周(TwoChow)是周樹人(S.R. Chow)和周作人(Z.R. Chow)兩兄弟,是中國近代史上最好的兩位散文家。 一胡(OneHu)指《環球時報》的編輯胡錫進,他是“微博作家”的代表。

自2010年以來,一直存在有關語言如何在中國網絡空間中變得“扁平”,“醜陋”和缺乏美學的討論。而微博,是這種語言退化最嚴重的領域。我從微博獲得的數據似乎同意這一點,人們使用的語言是高度壓縮的-只有大約1000-2000個唯一字符,與中文字符集(超過80,000個字符)相比,這不算什麼。而且在不同的微博中的詞語(通常由1-4個字符組成)也非常相似,據我估計,我得到的微博中大約只有一千或幾百個詞語。

但是這種語言是如何變化的呢?微博著作與過去作家在雜誌上發表的著作有何不同?為了比較不同的作品,二周一胡bot每小時都會發布一次生成的片段,其中一個來自微博寫作,另一個來自二周的散文和日記。 我個人認為,從生成的片段來看,微博的寫作遠不如20世紀初的文字。我知道二周是優秀的作家,微博上的人主要是老百姓,這不公平。但是它仍然顯示出一些東西:寫作風格的差異表明了我們現在閱讀的內容和人們過去所閱讀的內容的不同。而且我認為(在網絡空間中)漢語的退化是不可否認的事實。

技術

在沒有API的情況下在社交媒體上打造機器人很困難。在某種程度上,這是在駭進他們的系統。我使用puppeteer在微博上獲取內容,我花了一些時間才弄清頁面上哪些元素包含微博文本和其他信息。為了發送微博,我使用了https庫來模擬你在微博網站上發送微博時發送的POST請求。

我仍然無法解決登錄問題,因為從2018年起,微博要求每次登錄都要進行“我不是機器人”測試。我有一些想法,例如獲取測試圖片並將其發送到AI網站進行識別,但是嘗試並使其可靠運行需要很長時間。

由於它是微博機器人,因此應使用簡體中文。因此,我將二周的散文從繁體中文更改為簡體中文,但是我沒有時間瀏覽30萬個字符的文本,因此轉換過程中可能會出現一些錯誤(因為眾所周知這轉換非常不可靠)。

為了生成文本,我使用了Rita version1,其中包含許多(奇怪的)規則來清理文本。人們在微博上使用了很多奇怪的符號。