由 mugicha 在 發表
沒想到這麼快三個月就過去了!富奸了這麼久,終於要來繼續進行書名的分析啦!
先稍微幫我自己複習一下上次我寫了些什麼:上一次我對書名作了一些最簡單的前處理之後作了敘述統計,找重複出現三、四次的書名以及計算常見職業出現次數。
這樣一列才發現我上次寫的知識密度有夠低哈哈哈哈哈
這次則是要開始對書名進行自然語言處理了,但是因為我最近有點忙,只好先抓喵喵屋來做個比較小型的研究……而且只有一半(對不起我就是理由伯)
為什麼會想選喵喵屋?上一篇專欄我有提到一篇文獻回顧 (?),是之前 CC 發現喵喵屋的書名常常異常相似,因此,事不宜遲讓我們來看看喵喵屋的書名分布到底長怎樣吧。
同樣要描述一下資料集:這次使用的是喵喵屋臉紅紅書系(書系號碼英文開頭為:BR)的書,從 2007 年 3 月出版的書號 BR001,到 2021 年 6 月出版的書號 BR1160。
這次的資料前處理有:
- 刪掉 BL 部分,但誰來告訴我為什麼 BL 會同樣放在臉紅紅書系XDDD
- 刪除書名後的系列名,例如:「擒君共枕眠~婚從天將系列之三」→「擒君共枕眠」;比較值得注意的是,最後一次出現有在書名上清楚掛出系列名的書號是 BR1019,於 2018 年 7 月出版,也就是說,喵喵屋這三年的接近 150 本出版新作都沒有在書名上掛系列,至於主角本身是否有關係呢?我這幾年比較少看喵喵屋所以無法回答XDDD 不過感覺禾馬紅櫻桃書系也幾乎不掛系列了?
- 刪除分成兩冊以上的書,只留一筆資料,例如:「很難不愛《上》、很難不愛《下》」→「很難不愛」;這邊同樣也有玩味之處,最後一本有分兩冊應該是 2015 年 5 月出版的「天下第一寵《續》」,不過接著就沒有出兩冊以上的書了嗎?應該是喵喵屋換了一個策略:同套作品不再同名分上中下,而是取相似的書名,舉例來說去年有一套三冊的書名是:徐秘書把總裁離了、總裁讓徐秘書又有了、總裁的徐秘書又跑了XDDD
做完前處理後,剩下了 1031 個不同的書名!
進行文字的研究有幾種不同的方式,但因為這只有前半部,因此我只作最簡單的那種,基本上還是敘述統計:把書名切成一個一個的詞 (Bag of Words) 再來算這些詞出現的頻率 (Term Frequency)。
華文的處理比較特別,因為華文的字 (character) 本身就是一個詞 (word),和英文不同。
因此我用兩個方式來處理,第一個是把每個字分開、第二個是使用斷詞的方式分詞。
首先是各字獨立的情況:
字 | 頻率 |
妻 | 172 |
的 | 159 |
不 | 142 |
老 | 126 |
婚 | 104 |
夫 | 102 |
小 | 95 |
夜 | 89 |
總 | 76 |
裁 | 75 |
愛 | 74 |
公 | 70 |
上 | 70 |
女 | 67 |
人 | 61 |
嬌 | 55 |
床 | 53 |
我 | 51 |
婆 | 49 |
情 | 49 |
寵 | 49 |
秘 | 47 |
書 | 45 |
大致上我都能理解,但為什麼「小」的頻率這麼高我比較遲疑XDD
於是我又回去翻了一下,有很多「小姐/大小姐」似乎還可以理解,但竟然有很多「小秘書」……
好的,我果然不夠懂喵喵屋。
第二個是透過斷詞的方式,跟之前藍海文案研究一樣,使用 CKIP 中研院的套件:
字 | 頻率 | 比例 (N = 1,031) |
的 | 156 | 15.13% |
不 | 92 | 8.92% |
總裁 | 74 | 7.18% |
老公 | 57 | 5.53% |
妻 | 54 | 5.24% |
愛 | 51 | 4.95% |
我 | 51 | 4.95% |
老婆 | 46 | 4.46% |
秘書 | 43 | 4.17% |
了 | 36 | 3.49% |
夜 | 35 | 3.39% |
小 | 34 | 3.30% |
嫁 | 29 | 2.81% |
婚 | 29 | 2.81% |
okay 這很喵喵屋!
總裁有 7% 的出現率啊!假設裏面有一半是古代稿,那就代表現代稿的總裁比例大概有 30% 啊!(至於確切的現代/古代比,雖然我有資料但我懶得算,抱歉了XDD)
這邊插一個題外話,我原本只有用到 2016 年 BR897 以前的資料,那時候的總裁倒沒這麼常見,反而是 BR898 到 BR1160 這 268 本中,總共出現了 41 次的總裁(雖然上面那個徐秘書就貢獻了 3 次XD),比例高達 15.3%……
舉 BR1060 到 BR1068 的 9 本書為例,總裁他出現了整整 6 次!6 次!剩下兩本古代稿有王爺、侯爺,另一本現代稿則有金主,根本是男主角的職業/身分大集合XDD
BR1060 | 寡情總裁被撩了 |
BR1061 | 不情願的總裁夫人 |
BR1062 | 氣噗噗的總裁夫人 |
BR1063 | 水噹噹的總裁夫人 |
BR1064 | 送上門的總裁先生 |
BR1065 | 王爺,妾身不嫁 |
BR1066 | 我被侯爺欺負上了 |
BR1067 | 金主的床不能爬 |
BR1068 | 總裁與前妻 |
不過這也不代表以前的喵喵屋命名就好得很多,事實上我邊整理還是覺得這也太難記,像是有一個老大系列,七本書名分別是:老大的窩邊草、老大的圓仔花、老大的小家花、老大的牽牛花、老大的小冤家、老大的牆頭草、老大的回頭草,其他花花草草也就算了,但為什麼第五本是小冤家啊?Whyyyyyyyyyyyyyyyyy?
好的,這一篇大概就這樣,雖然我知道有失水準啦 (?),只好硬塞一點笑點讓大家看得比較愉快一點(有吧!有嗎?),我真的是硬擠時間出來了嗚嗚嗚,下一次一定一定會進行向量化跟相似度的研究的。
至於那是多久之後的事就不好說了……
- mugicha 的專欄
- 發表回應前,請先登入或註冊
- 瀏覽次數:5071
回應
mugicha replied on 固定網址
實不相瞞,我也覺得不掛系列名是這個原因XD
實不相瞞,我也覺得不掛系列名是這個原因XD
CHENG-CHEN replied on 固定網址
掛系列...
突然想到,不掛系列可能是和出版業界不穩定有關,市場萎縮成這樣看不到未來(?),掛系列萬一後面就沒了也麻煩,乾脆不要掛。
喵喵屋還是有系列啦,金晶有幾本吧。
Brina replied on 固定網址
再來一個
再來一個
《總裁老公的小秘書老婆》 <-- 有沒有老梗大集合 XD
mugicha replied on 固定網址
幫 CC 多湊一個XD
幫 CC 多湊幾個XD
《我的總裁老公不愛妻》
聽起來是不是有夠合理?(一直笑
CHENG-CHEN replied on 固定網址
總裁妻的老公不愛我
喵喵屋果然很多總裁啊~
用前幾個頻率最高的字眼湊出一本書名:
《總裁妻的老公不愛我》
...
好吧很喵喵屋但我不會想看