整理完後,共剩下513筆資料做分析。
因母體中有部分類別與問卷樣本類別不一致的狀況發生,故我們將其合併,如上方簡報中粗體所示。
其中我們之所以將兼任教師與專任教師合併之主要原因為兼任教師填寫問卷之人數過少,未來將難以做統計估計或推論,故下方再做問卷(交叉、基本)分析時會將其合併,故在此為滿足一致性,也將其合併做檢定。
我們可以發現到 p-value 皆小於型一錯誤 \(\alpha=0.05\),故不論是性別、身分、單位其有填問卷之樣本分配皆與母體分配不同。因此,未來與性別、身分、單位有關的交叉分析結果皆需抱持懷疑態度,但仍依舊可作為參考。
可以看出,對於實體館藏資源的各類問題,同意或有點同意的人基本都佔總人數的60%以上
對於電子資源,使用頻率為一個月1~5次的人最多,滿意或有點滿意的人約佔總體的80%
可以看到,樣本中僅有30%的人在三個月内參加過活動,大多原因是沒有參加的習慣
可以看出,對於介面的各類問題,同意或有點同意的人基本都佔總人數的60%以上
可以看出,樣本是以總圖書館爲主
可以看出,對於工作人員服務表現的各類問題,同意或有點同意的人基本都佔總人數的70%以上
可以看出,對於環境表現的各類問題,同意或有點同意的人基本都佔總人數的80%以上
可以看出,對於設施表現的各類問題,除了視聽設備需求(問題41),同意或有點同意的人基本都佔總人數的70%以上;視聽設備需求(問題41)的中立意見較多,結合前面問題3,可推測原因可能是由於無使用過視聽設備的人較多。
女性對實體館藏資源滿意度較高
研究人員及教師皆偏向不滿意實體館藏資源 碩士班學生傾向有點不同意
不同單位使用實體館藏資源滿意度無顯著差異
不同性別讀者使用電子資源滿意度無顯著差異
不同身分使用電子資源滿意度無顯著差異
電資院偏向不滿意電子資源
男女性參加圖書館活動滿意度並無顯著差異
不同身分參加圖書館活動滿意度無顯著差異
不同單位參加圖書館活動滿意度無顯著差異
男女性對網站介面滿意度無顯著差異
研究人員偏向不滿意網路介面 教師與博士班學生則偏向滿意
不同單位對網站介面滿意度無顯著差異
本部分主要分析讀者對於實體圖書館、圖書館網站的不同使用頻率,所對應到的圖書館各個服務面向的滿意度交叉分析,以及針對不同館別所對應到的圖書館滿意度交叉分析。
可以發現越少使用圖書館的讀者就越傾向於中立意見與不滿意,而最常使用圖書館的讀者在滿意比例則是最高的,代表讀者對圖書館實體館藏的滿意程度與使用頻率之間成正比。
從卡方檢定結果得知,使用圖書館頻率與電子資源滿意度之間無顯著差異。
從卡方檢定結果得知,使用圖書館頻率與對圖書館活動表現滿意度之間無顯著差異。
從卡方檢定結果得知,使用圖書館頻率與對網站介面滿意度之間無顯著差異。
從卡方檢定結果得知,使用圖書館網站頻率與對電子資源滿意度之間無顯著差異。
可以發現天天使用圖書館網站的使用者,對於網站介面滿意度則越低。這代表有部分讀者可能基於個人需求而必須經常使用圖書館網站,但這些讀者的使用體驗是不好的,因此讀書館的網站介面可能是在交叉分析的環節中,比較明確顯示出需要改良的部分。
接下來是針對館別所進行的圖書館滿意度交叉分析。
在29到32題中,可以發現不同館別對服務態度的滿意度都很高,並沒有顯著差異。但在現場諮詢服務以及處理讀者問題方面則是人社分館擁有最高的滿意度,而南大分館的滿意度則是相對較低。
而在第33題中,可以看到在整體的圖書館工作人員服務表現滿意度中,南大分館的使用者主要偏向有點不同意,說明該館的使用者對工作人員服務表現最不滿,而人社分館在這個問題中則是最傾向同意。
在34到37題中,可以看到三個館別對實體館藏的取得滿意度沒有明顯差異,都是較為滿意的。而對空間指示、動線的問題,皆為總圖書館擁有最高的滿意度。而針對環境舒適整潔的問題,總圖書館與人社分館的滿意度都明顯高於南大分館。
最後在第38題可以看到,整體而言對圖書館環境的滿意度問題中,南大分館是最傾向於有點不同意的結果,而人社分館傾向較為中立、總圖書館則最傾向於同意,這代表南大分館可能是三個館別中最需要針對環境做出改善的分館。
接下來針對各館設施的滿意度問題裡,可以看到三個館別對於自助借書、公用電腦與視聽設備的滿意度皆沒有顯著差異,但對於影印機與掃描機的意見則是總圖書館的滿意度最高。而在第43題對於無線網路的意見中,則是三個館別的滿意度都相對較低,代表在圖書館設施中,無線網路可能是最需要做出改善的項目。
最後在第44題中,可以看到對圖書館設施的整體滿意度裡,南大分館仍然是最傾向於有點不同意,而總圖則是有最高的滿意度,說明南大分館在圖書館設施上同樣也還有改善空間。
首先,因為有複選題有其他的選項可供填卷者填寫,我們將此些題目挑選出來作文字探勘。有其他這個選項可以填寫意見的問題有 6-7 / 9-12 / 16-20,我們進而去看裡頭的填答率,發現到除了 7 / 11 / 18 之外,回答率都偏低,我們將只對 7 / 11 / 18 作詞頻統計來了解讀者感興趣議題。
在我們做 7 / 11/ 18 的詞頻統計前,我們先將回覆其他率較低的複選題回答放在上圖中供您做參考。
於上圖中我們可以觀察到:
接下來,我們將進入45, 46題的簡答題回答狀況。
上圖呈現為45, 46題的回答比例,我們發現兩題都有將近1半的人做回答。
首先我們可以看到在45題中喜歡圖書館服務的理由最常出現詞語為:空間、環境、舒適、乾淨、方便、讀書、資源。我們將對空間、環境、資源這三個名詞做進一步詞頻統計;更進一步的作法舉例而言,給定一個讀者回覆包含空間,統計這些回答中詞語出現的頻率。對於環境、資源詞語也採用同樣手法。
備註:同時出現並不一定代表該組形容詞即為名詞的修飾,舉例而言,若有一句建議為 - 喜歡圖書館空間寬敞且環境整潔、明亮。 若將以上句子做詞頻統計我們可以發現到,喜歡、圖書館、空間、寬敞、環境、整潔、明亮各出現1次,但形容空間的為寬敞,而形容環境的為整潔、明亮。故若需要知道讀者真正的評價還是須仰賴原始的資料,但上面的詞頻加上領域知識仍具參考價值,譬如說資源對應豐富,空間對應寬敞等是合理的。
首先我們可以看到在46題中對圖書館的建議最常出現詞語為:希望、圖書館、使用、冷氣、空調、沒有、預約。我們將對希望、冷氣、空調、預約這四個詞語做進一步詞頻統計。
首先因為希望出現非常頻繁,故我們給定希望這個詞出現在建議中再來看看常一同出現的名詞為:空調、預約、桌子、夜讀區、網路,故我們將挑選出桌子、夜讀區、網路做更進一步分析。
以下將更進一步做詞頻分析詞語總共有:冷氣、空調、預約、桌子、夜讀區、網路
使用圖書館:
使用圖書館網站:
\(\rightarrow\) 綜觀上述兩項目的結果,可發現大學生較常使用實體圖書館,學歷為碩班以上的讀者偏好使用網站。可能緣由為大學生在學校不像研究生、教授、行政人員等擁有研究室或是屬於自己的做事空間,故使用實體圖書館的頻率便會相對提升;而碩士學歷以上的讀者需要透過圖書館網站以找尋相關文獻,故使用網站的頻率會比較高。
使用服務項目:
\(\rightarrow\) 綜觀上述四項目的結果,我們認為碩班以上讀者基於研究需求,較需要使用電子資源,並對於實體館藏較為不滿。而大學部學生對於電子資源的需求較少,因此在滿意度調查中傾向中立意見。
使用圖書館及圖書館網站頻率:
經常使用館別滿意度分析:
首先,我們希望透過卡方適合度檢定分別去了解性別、身分、單位之有填寫問卷的人之比例與母體比例是否存在顯著差異,若存在差異,則未來再做性別、身分、單位之分析時應對結果保持存疑態度。
而對於所有題目的問卷調查結果,將會計算每個類別下的樣本比例,以觀察樣本的分布情形且推估母體的實際狀況。
對於交叉分析的部分,我們希望分別將性別、身分、單位與讀者回答形成列連表如上表格所示,再透過卡分獨立性檢定來檢定兩者間是否獨立,若獨立,我們將再進一步做對應分析(Correspondance Analysis)來了解類別之間的關聯。舉例而言,若我們發現身分與電子資源的滿意度是不獨立的,我們將會進一步畫出對應分析的bi-plot來了解兩類別變數之間的關係。
因 python 套件 jieba 為我們做詞語拆分的工具,而其使用到了 HMM (隱藏式馬可夫模型),故在此形成一個統計問題。此問題的設定為,首先,我們有一組文字序列 \(W\),我們先將其拆分成數個文字 \(\textbf{w} = [w_1,\ldots,w_k]\),再設定 4 種隱藏狀態分別為 \(B(Begin), M(Middle),E(End),\)\(S(Single)\)。我們希望去找說在哪種隱藏狀態序列中出現 \(\textbf{w}\) 的可能性為最大。舉例而言,若有一文字序列 \(W\) = 我就讀統計學研究所,且找出使這組 \(W\) 出現機率為最大的隱藏狀態序列為 \(SBEBMEBME\) 則 \(W\) 這句話即可拆分成我\((S)\)/就讀\((BE)\)/統計學\((BME)\)/研究所\((BME)\)。
當假設觀測值總個數為\(N\)的狀況下,在每個類別的總數將服從多元常態分配,且參數為總個數\(N\)、每個類別的母體真實比例\(\pi_1,\pi_2,...,\pi_k\)。而在虛無假設成立的情況下,表示所有類別的樣本比例皆與母體比例一致。相反地,對立假設則為至少有一個類別其樣本比例與母體比例不一致。至於檢定則是使用卡方適合度檢定,且該檢定之統計量在虛無假設成立之下,將會服從卡方分配且自由度為\((k-1)\)。
在交叉分析的部分,首先我們會先使用兩種類別變數以建立一個列聯表。 其中假設兩類別變數為\(X_1\)以及\(X_2\),且分別有\(I\)種以及\(J\)種類別變數。
此列聯表的每個cell皆服從Poisson分配,且自由度分別為每個cell的母體個數。當兩類別變數為獨立時,模型可以表示成每個cell的樣本個數將由\(X_1\)、\(X_2\)兩個變數所影響;相較之下,若兩類別變數不獨立,則模型則會多一個\(X_1\),\(X_2\)的交互作用項。(如上圖的\(M_1\)以及\(M_2\))
該檢定為卡方獨立性檢定,且自由度為\((I-1)(J-1)\)。若檢定結果顯示兩變數獨立,則可以說明當其中一個變數的不同類別並不會影響另外一個變數的分配。而若兩變數不獨立,則我們將會感興趣於這兩變數在哪些類別的組合下,出現頻率會比較高。
為了觀察當兩變數不獨立時,哪種組合的出現頻率比較高,在此我們會使用到 Correspondence Analysis。
其方法為先計算出 Pearson Residuals,接著再使用 Singular Value Decomposition 找出影響力較大的幾個數值(eigenvalues,此方法通常為找兩個),且找出所對應的 eigenvectors (如上圖所示)。
經過一些轉換後,接著將這兩種變數的每個類別所對應之向量繪製於同一張圖中。若其中一種組合在同一個象限且離原點的距離大,即代表此種組合的出現頻率高。反之,若一組合離原點距離近,則出現頻率越接近獨立狀況。
HMM 的定義為當我們有兩個離散型馬可夫序列 \(X_n, Y_n\) 且 \(n\geq 1\),則我們稱 \(\{X_n,Y_n\}\) 為隱藏式馬可夫模型如果滿足以下定義:
HMM 由五個元素所組成,如上方簡報所示,舉例如下:
假設情境為有一病人可能發生暈眩、正常、感冒之生理反應,而醫生必須要去判斷,此病人為健康還是發燒: