Case4 - NTHU Library

108024467 及嘉杰 , 108024503 莊仕祺 , 108024507 張文騰 , 108024522 劉軒成 , 108024701 張佩榕 , 108024702 陳信諺
2021/6/23

資料預處理

  1. 第18筆資料為空白故移除。
  2. 如下圖所示,有些資料重複(只留其中一筆),故再移除19筆資料。

整理完後,共剩下513筆資料做分析。

基本項目分析

基本資料次數分配統計

因母體中有部分類別與問卷樣本類別不一致的狀況發生,故我們將其合併,如上方簡報中粗體所示。

其中我們之所以將兼任教師與專任教師合併之主要原因為兼任教師填寫問卷之人數過少,未來將難以做統計估計或推論,故下方再做問卷(交叉、基本)分析時會將其合併,故在此為滿足一致性,也將其合併做檢定。

我們可以發現到 p-value 皆小於型一錯誤 \(\alpha=0.05\),故不論是性別、身分、單位其有填問卷之樣本分配皆與母體分配不同。因此,未來與性別、身分、單位有關的交叉分析結果皆需抱持懷疑態度,但仍依舊可作為參考

第一部分:基本資料

第二部分:圖書館服務品質與滿意度

1. 館藏資源 - 實體館藏資源

可以看出,對於實體館藏資源的各類問題,同意或有點同意的人基本都佔總人數的60%以上

2. 館藏資源 - 電子資源

對於電子資源,使用頻率為一個月1~5次的人最多,滿意或有點滿意的人約佔總體的80%

3. 活動表現

可以看到,樣本中僅有30%的人在三個月内參加過活動,大多原因是沒有參加的習慣

4. 網站介面

可以看出,對於介面的各類問題,同意或有點同意的人基本都佔總人數的60%以上

5. 館別服務表現 - 使用次數統計

可以看出,樣本是以總圖書館爲主

6. 館別服務表現 - 工作人員服務表現

可以看出,對於工作人員服務表現的各類問題,同意或有點同意的人基本都佔總人數的70%以上

7. 館別服務表現 - 環境表現

可以看出,對於環境表現的各類問題,同意或有點同意的人基本都佔總人數的80%以上

8. 館別服務表現 - 設施表現

可以看出,對於設施表現的各類問題,除了視聽設備需求(問題41),同意或有點同意的人基本都佔總人數的70%以上;視聽設備需求(問題41)的中立意見較多,結合前面問題3,可推測原因可能是由於無使用過視聽設備的人較多。

交叉分析

第一部分:基本資料

1. 不同性別讀者使用圖書館頻率差異

  1. 男女生一個月去6次以上的人數差異最大

2. 不同身分讀者使用圖書館頻率差異

  1. 教師以及博士班學生偏向不去圖書館
  2. 大學生使用圖書館的頻率最為頻繁

3. 不同單位讀者使用圖書館頻率差異

  1. 行政單位使用頻率最低
  2. 大部分都集中在3次以上

4. 不同性別讀者使用圖書館網站頻率差異

  1. 不同性別使用圖書館網站頻率無顯著差異

5. 不同身分讀者使用圖書館網站頻率差異

  1. 碩士學位以上的人員較常使用圖書館網站
  2. 教師偏向天天使用圖書館網站

6. 不同單位讀者使用圖書館網站頻率差異

  1. 人社院偏向天天使用圖書館網站
  2. 工學院大部分偏向不使用圖書館網站

7. 不同性別讀者使用圖書館服務項目差異

  1. 女生查詢各類實體館藏資源較男生多
  2. 女生借閱圖書或視聽媒體較男生多
  3. 男生使用閱覽座位較女生多

8. 不同身分讀者使用圖書館服務項目差異

  1. 研究人員查詢實體館藏資源比例最高
  2. 研究人員使用各類電子資源比例最高
  3. 大學部學生最高比例使用空間,設備及閱覽座位

9. 不同單位讀者使用圖書館服務項目差異

  1. 藝術學院查詢實體館藏資源的比例最高
  2. 人社院使用各類電子資源及借閱圖書或視聽媒體的比例最高
  3. 原科院使用空間及閱覽座位的比例最高

第二部分:服務品質與滿意度

1. 不同性別讀者使用實體館藏資源滿意度

女性對實體館藏資源滿意度較高

2. 不同身分讀者使用實體館藏資源滿意度

研究人員及教師皆偏向不滿意實體館藏資源 碩士班學生傾向有點不同意

3. 不同單位讀者使用實體館藏資源滿意度

不同單位使用實體館藏資源滿意度無顯著差異

4. 不同性別讀者使用電子資源情形及滿意度

不同性別讀者使用電子資源滿意度無顯著差異

5. 不同身分讀者使用電子資源情形及滿意度

不同身分使用電子資源滿意度無顯著差異

6. 不同單位讀者使用電子資源情形及滿意度

電資院偏向不滿意電子資源

7. 不同性別讀者參加圖書館活動情形及滿意度

男女性參加圖書館活動滿意度並無顯著差異

8. 不同身分讀者參加圖書館活動情形及滿意度

不同身分參加圖書館活動滿意度無顯著差異

9. 不同單位讀者參加圖書館活動情形及滿意度

不同單位參加圖書館活動滿意度無顯著差異

10. 不同性別讀者對網站介面表現滿意度

男女性對網站介面滿意度無顯著差異

11. 不同身分讀者對網站介面表現滿意度

研究人員偏向不滿意網路介面 教師與博士班學生則偏向滿意

12. 不同單位讀者對網站介面表現滿意度

不同單位對網站介面滿意度無顯著差異

第三部分:跨面向交叉分析

本部分主要分析讀者對於實體圖書館、圖書館網站的不同使用頻率,所對應到的圖書館各個服務面向的滿意度交叉分析,以及針對不同館別所對應到的圖書館滿意度交叉分析。

1. 讀者使用圖書館頻率與使用實體館藏資源滿意度

可以發現越少使用圖書館的讀者就越傾向於中立意見與不滿意,而最常使用圖書館的讀者在滿意比例則是最高的,代表讀者對圖書館實體館藏的滿意程度與使用頻率之間成正比

2. 讀者使用圖書館頻率與使用電子資源滿意度

從卡方檢定結果得知,使用圖書館頻率與電子資源滿意度之間無顯著差異。

3. 讀者使用圖書館頻率與對圖書館活動表現滿意度

從卡方檢定結果得知,使用圖書館頻率與對圖書館活動表現滿意度之間無顯著差異。

4. 讀者使用圖書館頻率與使用網站介面滿意度

從卡方檢定結果得知,使用圖書館頻率與對網站介面滿意度之間無顯著差異。

5. 讀者使用圖書館網站頻率與使用電子資源滿意度

從卡方檢定結果得知,使用圖書館網站頻率與對電子資源滿意度之間無顯著差異。

6. 讀者使用圖書館網站頻率與使用網站介面滿意度

可以發現天天使用圖書館網站的使用者,對於網站介面滿意度則越低。這代表有部分讀者可能基於個人需求而必須經常使用圖書館網站,但這些讀者的使用體驗是不好的,因此讀書館的網站介面可能是在交叉分析的環節中,比較明確顯示出需要改良的部分。

接下來是針對館別所進行的圖書館滿意度交叉分析。

7. 經常使用總館、人社分館、南大分館讀者對該館工作人員服務表現滿意度

在29到32題中,可以發現不同館別對服務態度的滿意度都很高,並沒有顯著差異。但在現場諮詢服務以及處理讀者問題方面則是人社分館擁有最高的滿意度,而南大分館的滿意度則是相對較低

而在第33題中,可以看到在整體的圖書館工作人員服務表現滿意度中,南大分館的使用者主要偏向有點不同意,說明該館的使用者對工作人員服務表現最不滿,而人社分館在這個問題中則是最傾向同意

8. 經常使用總館、人社分館、南大分館讀者對該館環境表現滿意度

在34到37題中,可以看到三個館別對實體館藏的取得滿意度沒有明顯差異,都是較為滿意的。而對空間指示、動線的問題,皆為總圖書館擁有最高的滿意度。而針對環境舒適整潔的問題,總圖書館與人社分館的滿意度都明顯高於南大分館。

最後在第38題可以看到,整體而言對圖書館環境的滿意度問題中,南大分館是最傾向於有點不同意的結果,而人社分館傾向較為中立總圖書館則最傾向於同意,這代表南大分館可能是三個館別中最需要針對環境做出改善的分館。

9. 經常使用總館、人社分館、南大分館讀者對該館設施表現滿意度

接下來針對各館設施的滿意度問題裡,可以看到三個館別對於自助借書、公用電腦與視聽設備的滿意度皆沒有顯著差異,但對於影印機與掃描機的意見則是總圖書館的滿意度最高。而在第43題對於無線網路的意見中,則是三個館別的滿意度都相對較低,代表在圖書館設施中,無線網路可能是最需要做出改善的項目。

最後在第44題中,可以看到對圖書館設施的整體滿意度裡,南大分館仍然是最傾向於有點不同意,而總圖則是有最高的滿意度,說明南大分館在圖書館設施上同樣也還有改善空間。

關鍵字分析

複選題 – 「其他」選項填答情形

首先,因為有複選題有其他的選項可供填卷者填寫,我們將此些題目挑選出來作文字探勘。有其他這個選項可以填寫意見的問題有 6-7 / 9-12 / 16-20,我們進而去看裡頭的填答率,發現到除了 7 / 11 / 18 之外,回答率都偏低,我們將只對 7 / 11 / 18 作詞頻統計來了解讀者感興趣議題。

複選題 – 其他選項填答情形 (第 6 / 9 / 10 / 17 / 19 / 20 題)

在我們做 7 / 11/ 18 的詞頻統計前,我們先將回覆其他率較低的複選題回答放在上圖中供您做參考。

詞頻統計 (其他)

7. 您未使用過本館電子資源的原因為何?

於上圖中我們可以觀察到:

  1. 未使用本館電子資源原因最常出現的字詞為:需求、沒有、需要、使用、喜歡
  2. 我們進一步去看原始填答狀況,發現前四常出現字詞多組合成沒有需求、沒有需要、無需要、不常使用和無使用等。
  3. 而與使用有關的出現回答為使用介面難以操作及不好查詢+使用。
  4. 喜歡有關的回答為喜歡紙本或實體書。

11. 您使用電子資源遇到的困難包括:

  1. 此題中最常出現的詞語為 無法文獻,但分別也只出現過 43 次。
  2. 無法有關的建議為:無法閱讀、無法打開。
  3. 文獻有關的建議為:無法區分簡體與繁體文獻、文獻傳遞數量限制、文獻沒有授權下載。

18. 您未參加過展覽或推廣活動的原因為何?

  1. 前五最常出現的詞語為:時間、參加、近三個月、沒有、因素
  2. 而與時間有關的建議為:沒有時間、時間不允許、時間因素等。
  3. 參加、近三個月有關的建議為:近三個月沒有感興趣的,先前有參加過清沙瀧、是有參加過,只是不是近三個月內。

詞頻統計 (第 45 / 46 題)

接下來,我們將進入45, 46題的簡答題回答狀況。

簡答題回答狀況統計

上圖呈現為45, 46題的回答比例,我們發現兩題都有將近1半的人做回答。

45. 我最喜歡的圖書館服務以及理由

首先我們可以看到在45題中喜歡圖書館服務的理由最常出現詞語為:空間、環境、舒適、乾淨、方便、讀書、資源。我們將對空間、環境、資源這三個名詞做進一步詞頻統計;更進一步的作法舉例而言,給定一個讀者回覆包含空間,統計這些回答中詞語出現的頻率。對於環境、資源詞語也採用同樣手法。

  1. 從左邊的圖我們可以看到,與空間最常同時出現的詞語有舒適(16)、安靜(10)、寬敞(6)、明亮(6),這些皆有可能是對空間的形容詞。
  2. 從中間的圖我們可以看到,與環境最常同時出現的詞語有舒適(21)、整潔(8)、安靜(7)、乾淨(6)、明亮(4),這些也皆有可能是對環境的形容詞。
  3. 從右邊的圖我們可以看到,與資源最常同時出現的詞語有豐富(12)

備註:同時出現並不一定代表該組形容詞即為名詞的修飾,舉例而言,若有一句建議為 - 喜歡圖書館空間寬敞且環境整潔、明亮。 若將以上句子做詞頻統計我們可以發現到,喜歡、圖書館、空間、寬敞、環境、整潔、明亮各出現1次,但形容空間的為寬敞,而形容環境的為整潔、明亮。故若需要知道讀者真正的評價還是須仰賴原始的資料,但上面的詞頻加上領域知識仍具參考價值,譬如說資源對應豐富空間對應寬敞等是合理的。

46. 我對圖書館的建議

首先我們可以看到在46題中對圖書館的建議最常出現詞語為:希望、圖書館、使用、冷氣、空調、沒有、預約。我們將對希望、冷氣、空調、預約這四個詞語做進一步詞頻統計。

首先因為希望出現非常頻繁,故我們給定希望這個詞出現在建議中再來看看常一同出現的名詞為:空調、預約、桌子、夜讀區、網路,故我們將挑選出桌子、夜讀區、網路做更進一步分析。

以下將更進一步做詞頻分析詞語總共有:冷氣、空調、預約、桌子、夜讀區、網路

  1. 從左邊的圖我們可以看到,與預約最常同時出現的詞語有夜讀區(14)、書本(6)
  2. 從中間的圖我們可以看到,與冷氣最常同時出現的詞語有夏天(5)、很熱(4)、溫度(4)、開(加)強(6)、很爛(13),其中冷氣很爛為同一人所重複複製貼上故出現較多次。
  3. 從右邊的圖我們可以看到,與空調最常同時出現的詞語有夏天(9)、改善(7)、(太)悶(熱)(10)、不舒服(3)、加強(3)

  1. 從左邊的圖我們可以看到,與夜讀區最常同時出現的詞語有時段(7)、時間(6)
  2. 從中間的圖我們可以看到,與網路最常同時出現的詞語有無線(7)、改善(7)、速度(5)
  3. 從右邊的圖我們可以看到,與桌子最常同時出現的詞語有橡皮擦(4)、寫字(3)

問卷資訊總結

基本項目分析

  1. 綜合所有與滿意度調查相關的問題中,每個題目其整體滿意度(同意+有點同意)的比例皆高於60%
  2. 就非滿意度調查的問題中,我們發現讀者在三個月內有參加過圖書館舉辦之展覽或推廣活動的比例並不高,只有約30%。綜合觀察與活動表現有關的問題中(第二部分-第15題至第21題),我們認為主要的問題是讀者沒有參加圖書館活動的習慣,有些讀者對於圖書館的印象仍然偏向傳統的借還書與閱讀,甚或是有些讀者認為參與圖書館活動對他自己來說是非必要的。因此若要增加讀者的興趣或是參與意願,或許可以從讀者興趣較大的活動著手。而問卷結果顯示,讀者傾向於參加主題展覽、閱讀推廣的活動,故我們建議圖書館不妨可以朝這兩種活動面向下手,以增加讀者對於圖書館活動的興趣。

交叉分析

資本資料

使用圖書館:

  1. 以性別探討之,整體而言男性較女性有更高的頻率使用圖書館。
  2. 以身分或是單位來探討,大學部學生最常使用圖書館,而教師、博士班學生、行政單位則較少使用。
  3. 在性別對於讀者使用圖書館的服務項目中,男性傾向於使用閱覽座位,而女性則是傾向使用實體電子資源

使用圖書館網站:

  1. 就讀者的身分來看,具碩士以上學位與研究人員有較高的頻率使用圖書館網站。
  2. 若以讀者的單位探究,人文社會學院相對其他學院較常使用圖書館網站,至於工學院的使用頻率則較少。

\(\rightarrow\) 綜觀上述兩項目的結果,可發現大學生較常使用實體圖書館,學歷為碩班以上的讀者偏好使用網站。可能緣由為大學生在學校不像研究生、教授、行政人員等擁有研究室或是屬於自己的做事空間,故使用實體圖書館的頻率便會相對提升;而碩士學歷以上的讀者需要透過圖書館網站以找尋相關文獻,故使用網站的頻率會比較高。

使用服務項目:

  1. 男性傾向於使用閱覽座位,而女性則是傾向使用實體館藏資源
  2. 大學部學生最少使用實體或電子館藏資源,最常使用閱覽空間設備
  3. 行政單位人員使用實體或借閱圖書或視聽媒體的比例較高,但有較少的比例使用圖書館的閱覽空間。我們推測對於行政人員而言,圖書館比較屬於休閒活動的一環,故行政單位在使用圖書館的行為模式自然與學生或是教師不太相似。

  

服務品質與滿意度

  1. 實體館藏:碩士學歷以上的讀者與教師、研究人員身分對於實體館藏的滿意度較低
  2. 電子資源: 與實體館藏相比,大學生對於電子資源有更多比例保持中立意見,而博士班與教師的滿意度則更高。
  3. 活動表現: 多數人傾向滿意與中立的意見,但就性別、身分、單位等面向探討之,不同類別並無特別突出的差異。
  4. 網站介面: 研究人員對網站介面較為不滿,其他身分多為滿意與中立。

\(\rightarrow\) 綜觀上述四項目的結果,我們認為碩班以上讀者基於研究需求,較需要使用電子資源,並對於實體館藏較為不滿。而大學部學生對於電子資源的需求較少,因此在滿意度調查中傾向中立意見。

  

跨面向交叉分析

使用圖書館及圖書館網站頻率:

  1. 使用圖書館頻率越高的讀者對館藏有越高的滿意度
  2. 使用圖書館網站頻率越高的讀者對網站介面滿意度越低

經常使用館別滿意度分析:

  1. 讀者對南大分館的工作人員服務表現、環境與設施的不滿意度皆較其他兩館高
  2. 人社分館的工作人員服務表現滿意度高,但環境與設施的滿意度則是中立意見比例偏高。

  

關鍵字分析

  1. 電子資源遇到的困難 : 介面不便、文獻閱覽困難。
  2. 喜歡圖書館的原因 : 空間、環境、資源豐富。
  3. 對圖書館的建議 :
      空調方面: 夏天的冷氣太過悶熱,希望冷氣可以開強一點。
      設備方面: 使用桌子的震動問題,而造成書寫方面有所影響。
      服務方面: 書本與夜讀區的預約方法和對於夜讀時間做調整。

附錄

Problem Formulation

Problem 1 - 基本資料分析

首先,我們希望透過卡方適合度檢定分別去了解性別、身分、單位之有填寫問卷的人之比例與母體比例是否存在顯著差異,若存在差異,則未來再做性別、身分、單位之分析時應對結果保持存疑態度。

而對於所有題目的問卷調查結果,將會計算每個類別下的樣本比例,以觀察樣本的分布情形且推估母體的實際狀況。

Problem 2 - 交叉分析

對於交叉分析的部分,我們希望分別將性別、身分、單位與讀者回答形成列連表如上表格所示,再透過卡分獨立性檢定來檢定兩者間是否獨立若獨立,我們將再進一步做對應分析(Correspondance Analysis)來了解類別之間的關聯。舉例而言,若我們發現身分與電子資源的滿意度是不獨立的,我們將會進一步畫出對應分析的bi-plot來了解兩類別變數之間的關係。

Problem 3 - 關鍵字分析

因 python 套件 jieba 為我們做詞語拆分的工具,而其使用到了 HMM (隱藏式馬可夫模型),故在此形成一個統計問題。此問題的設定為,首先,我們有一組文字序列 \(W\),我們先將其拆分成數個文字 \(\textbf{w} = [w_1,\ldots,w_k]\),再設定 4 種隱藏狀態分別為 \(B(Begin), M(Middle),E(End),\)\(S(Single)\)。我們希望去找說在哪種隱藏狀態序列中出現 \(\textbf{w}\) 的可能性為最大。舉例而言,若有一文字序列 \(W\) = 我就讀統計學研究所,且找出使這組 \(W\) 出現機率為最大的隱藏狀態序列為 \(SBEBMEBME\)\(W\) 這句話即可拆分成我\((S)\)/就讀\((BE)\)/統計學\((BME)\)/研究所\((BME)\)

Statistical Modeling

Problem 1 - 基本資料分析

當假設觀測值總個數為\(N\)的狀況下,在每個類別的總數將服從多元常態分配,且參數為總個數\(N\)、每個類別的母體真實比例\(\pi_1,\pi_2,...,\pi_k\)。而在虛無假設成立的情況下,表示所有類別的樣本比例皆與母體比例一致。相反地,對立假設則為至少有一個類別其樣本比例與母體比例不一致。至於檢定則是使用卡方適合度檢定,且該檢定之統計量在虛無假設成立之下,將會服從卡方分配且自由度為\((k-1)\)

Problem 2 - 交叉分析

在交叉分析的部分,首先我們會先使用兩種類別變數以建立一個列聯表。 其中假設兩類別變數為\(X_1\)以及\(X_2\),且分別有\(I\)種以及\(J\)種類別變數。

此列聯表的每個cell皆服從Poisson分配,且自由度分別為每個cell的母體個數。當兩類別變數為獨立時,模型可以表示成每個cell的樣本個數將由\(X_1\)\(X_2\)兩個變數所影響;相較之下,若兩類別變數不獨立,則模型則會多一個\(X_1\),\(X_2\)的交互作用項。(如上圖的\(M_1\)以及\(M_2\))

該檢定為卡方獨立性檢定,且自由度為\((I-1)(J-1)\)。若檢定結果顯示兩變數獨立,則可以說明當其中一個變數的不同類別並不會影響另外一個變數的分配。而若兩變數不獨立,則我們將會感興趣於這兩變數在哪些類別的組合下,出現頻率會比較高。

為了觀察當兩變數不獨立時,哪種組合的出現頻率比較高,在此我們會使用到 Correspondence Analysis。
其方法為先計算出 Pearson Residuals,接著再使用 Singular Value Decomposition 找出影響力較大的幾個數值(eigenvalues,此方法通常為找兩個),且找出所對應的 eigenvectors (如上圖所示)。
經過一些轉換後,接著將這兩種變數的每個類別所對應之向量繪製於同一張圖中。若其中一種組合在同一個象限且離原點的距離大,即代表此種組合的出現頻率高。反之,若一組合離原點距離近,則出現頻率越接近獨立狀況。

Problem 3 - 關鍵字分析

HMM 的定義為當我們有兩個離散型馬可夫序列 \(X_n, Y_n\)\(n\geq 1\),則我們稱 \(\{X_n,Y_n\}\) 為隱藏式馬可夫模型如果滿足以下定義:

  1. \(X_n\) (隱藏狀態)為馬可夫過程且其行為是無法觀測到的。
  2. 可觀測狀態 \(Y_n\) 只與同期的隱藏狀態 \(X_n\) 有關,而不與過去的隱藏狀態有關。

HMM 由五個元素所組成,如上方簡報所示,舉例如下:

假設情境為有一病人可能發生暈眩、正常、感冒之生理反應,而醫生必須要去判斷,此病人為健康還是發燒

  1. 隱藏狀態集合 \((S)\),可代表 {健康,發燒}。
  2. 可觀測狀態集合 \((O)\),可代表 {暈眩、正常、感冒}。
  3. 初始機率 \((\pi)\) 代表一開始醫生基於過去經驗認為一病人來看診為發燒與健康分別的機率。
  4. 轉移機率 \((A)\) 代表兩次看診間發燒轉移至健康的機率,或健康轉移至發燒的機率。
  5. 放射機率 \((B)\) 代表給定醫生判斷一病人為健康或發燒的的前提下,病人發生暈眩、正常、感冒之機率。