知識依賴度約簡的論文

時間：2021-06-11 19:18:41 論文我要投稿

相關推薦

關于知識依賴度約簡的論文

　　基于知識依賴度約簡的知識發(fā)現(xiàn)研究

關于知識依賴度約簡的論文

　　摘要：粗糙集理論中的屬性約簡問題屬于NP難問題。以教育技術學專業(yè)讀者2013學年度圖書借閱歷史數(shù)據(jù)為原型，采用借閱類目的次數(shù)多少作為屬性重要度進行啟發(fā)式選擇，利用粗糙集理論中的知識依賴度對類目約簡，挖掘出本專業(yè)和各年級借閱類目的核心集，并經(jīng)問卷調查證明其規(guī)律的正確性。通過與教育技術學專業(yè)學科知識體系結構的比較，能夠發(fā)現(xiàn)學科知識體系結構建設的不足之處，以促進其更科學完善。

　　關鍵詞：粗糙集；知識依賴度；數(shù)據(jù)挖掘；知識發(fā)現(xiàn)

　　0 引言

　　高校圖書館自動化建設經(jīng)過多年發(fā)展，已經(jīng)積累了大量歷史數(shù)據(jù)，這些數(shù)據(jù)不但完整，而且質量高，充分反映了讀者學習成長的過程。如何對其進行挖掘提煉并從中發(fā)現(xiàn)有價值的知識，是了解讀者需要、開展知識推送服務的重要信息來源。前人研究主要是根據(jù)讀者的借閱歷史數(shù)據(jù)，利用關聯(lián)規(guī)則算法發(fā)現(xiàn)某類書籍之間的關聯(lián)規(guī)則[14]，或利用聚類算法挖掘具有共同閱讀興趣的讀者群體[5]，以及通過時間流分析得到讀者借閱時間的分布規(guī)律[6]等。

　　也可以利用粗糙集進行挖掘。例如，柳炳祥等[7]只是介紹有關理論，文章中并沒有對粗造集挖掘進行深入闡述。這些挖掘結果往往只是反映讀者已往的借閱規(guī)律，而不能反映其當前和今后一段時間的真實需要，因為這些讀者還需要不斷地進行知識更新和深化學習。本文通過對教育技術學專業(yè)讀者群進行數(shù)據(jù)挖掘，利用知識依賴度約簡方法發(fā)現(xiàn)其學科知識體系結構，并通過與相關專業(yè)的知識體系結構建設進行比較，以發(fā)現(xiàn)建設中的不足之處。如果利用所得的知識庫進行推送服務，則能把讀者真正需要的知識推送給他們。

　　1 粗造集有關理論

　　粗糙集理論認為“知識是一種對對象進行分類的能力”，它將分類理解為在特定空間上的等價關系，而等價關系構成了對該空間的劃分[8]。

　　定義1（論域、知識）：設U 是感興趣的對象組成的非空有限集合，稱為一個論域。論域U 上的任一子集XU，稱為論域U 的一個概念或范疇。論域U 中的任何子集簇（概念簇）稱為關于U 的抽象知識，簡稱知識[9]。在二維表中，知識是由某些列對所有行的劃分構成的集合所表示。

　　定義2（知識庫）：給定一個論域U 和U上的一簇等價關系S，稱二元組K=（U，S）是關于論域U 的一個知識庫或近似空間。因此，論域上的等價關系即代表著劃分和知識。這樣，知識庫就表示了論域上由等價關系導出的各種知識，即劃分或分類模式，同時代表了對論域的分類能力，并隱含著知識庫中概念之間存在的各種關系[9]。

　　定義3（不可分辨關系）：給定一個論域U 和U上的一簇等價關系S，若PS，且P≠，則∩P（P中所有等價關系的交集）仍然是論域U 上的一個等價關系，稱為P上的一個不可分辨關系，記作IND（P）。IND（P）的等價類稱為知識P的基本范疇[9]。

　　2 知識發(fā)現(xiàn)

　　2.1 樣本數(shù)據(jù)選取

　　2.2 數(shù)據(jù)預處理

　　在進行數(shù)據(jù)挖掘之前，需要對數(shù)據(jù)進行去噪、補缺和轉換等預處理操作。數(shù)據(jù)預處理步驟如下：①根據(jù)年級、專業(yè)代碼和時間段獲取讀者借閱歷史記錄，并通過匯總獲得借閱圖書的人數(shù)、未借閱人數(shù)和總借閱冊數(shù)；②去除借閱書目的.種次號，得到借閱類目，匯總后得到借閱類目數(shù)。由于中圖法是通過標記符號代表各級類目和固定先后次序的分類體系，標記符號不同，其表示的知識類目也不同，故不能把相近類目合并為一類；③按類目進行匯總，求得各類目借閱冊數(shù)和所有類目的平均借閱冊數(shù)，并刪除低于平均借閱冊數(shù)的類目，因為其表現(xiàn)的只是某個學生的個人愛好，不是大家共同學習的知識，相當于噪音數(shù)據(jù)；④求出借過大于平均借閱冊數(shù)類目的所有讀者，這些讀者即是進行知識約簡的對象；⑤生成上述讀者對象和其借閱類目的二維表，并對表中數(shù)據(jù)進行轉換處理，如果此讀者借過該類目書籍則為1，否則為0。類目列按類目總借閱冊數(shù)降序添加到表中。

　　2.3 知識約簡

　　經(jīng)過上面的數(shù)據(jù)預處理后，得到了知識庫的關系簇S 和論域U，即不小于平均借閱冊數(shù)的類目和借閱這些類目的讀者。然而，即使經(jīng)過上述預處理后，其約簡的類目數(shù)還有幾十種；如果直接利用知識依賴度（定義5）來約簡，其需要計算的次數(shù)為M*logM*2n（M是讀者數(shù)，n是類目數(shù)），這是指數(shù)級時間復雜度，需要消耗大量計算時間。為了得到多項式時間算法，采用以類目借閱的冊數(shù)多少作為屬性重要度的啟發(fā)式策略，應用知識依賴度來約簡二維表，具體算法如下：

　　（1）置K={}，R={}；// K表示約簡后得到的知識，R表示臨時約簡知識

　　//如果單個知識把論域全覆蓋則作為約簡知識放入K中

　　（2）For r0=1 to count（類目） do

　　取出count（r0）類目I，計算其劃分。

　　如果I全覆蓋論域U ，則把I并入K中；否則，退出循環(huán)。

　　（3）把I并入R中。

　　//計算剩下的類目依賴關系（4）For r1=r0+1 to count（類目） do

　　取出count（r1）類目Q，根據(jù)類目Q求其對論域U 的劃分。

　　根據(jù)R中的知識求其對論域U 的劃分。

　　利用知識依賴度公式，求Q對R的知識依賴度γ；如果γ小于0.5，則把Q并入R中，否則認為知識Q歸屬于R而被約簡掉。

　　（5）K=K∪R，并退出。 //即K就是所求的約簡集合

　　2.4 結果分析

　　因此，通過對相關數(shù)據(jù)的分析，給出如下建議：①給大一、大二學生適當介紹本學科知識體系結構，使其開始就明確學習目標、方向和內容組成；②通過與教育學院教師交流發(fā)現(xiàn)，學院已開設《學科導論》課程，但效果不夠理想。因此，對于開設《學科導論》課的院系，需要扎實推進本導制，發(fā)揮其引導作用；③深入研究小說等文學類與教育技術學專業(yè)之間的內在關系，將其納入學科體系結構中，完善學科知識體系結構建設；④在低年級中適當開設“TP393.092 網(wǎng)絡瀏覽器”課程，做好相關理論基礎知識鋪墊，使學科知識結構布局更加合理。

　　3 知識驗證

　　4 結語

　　本文利用粗糙集理論中的知識依賴度約簡方法對某專業(yè)讀者群借閱歷史數(shù)據(jù)進行挖掘，獲得其學科體系結構知識，并通過比較，發(fā)現(xiàn)相應學科體系結構建設中的不足之處，促使學科結構體系建設更加合理、完善。如果利用所得的知識進行推送服務，則能夠根據(jù)學生知識結構的變化進行預判，做到有的放矢，提高服務質量。當然，本文還有一些問題尚待解決，如表4類目順序變化的真正原因是什么，蘊含了哪些知識？小說等文學類中哪些知識是教育技術學專業(yè)的本質需要，如何合理設計它在學科體系結構的布局等？相關問題有待進行下一步更深入的研究。

　　參考文獻：

　　[3]張紅燕. 關聯(lián)規(guī)則挖掘在高校圖書館借閱流通中的應用[J]. 數(shù)字技術與應用，2012（5）：76，78.

　　[4]薛琴榮，李響. 基于數(shù)據(jù)挖掘技術的圖書館個性化借閱服務研究[J]. 情報探索，2013（4）：110113.

　　[7]柳炳祥. 基于數(shù)據(jù)挖掘的圖書館個性化服務系統(tǒng)[J]. 現(xiàn)代情報，2007（3）：108109.

　　[9]苗奪謙，李道國. 粗糙集理論、算法與應用[M]. 北京：清華大學出版社，2008.

　　[14]中國圖書館分類法編輯委員會. 中國圖書館分類法[M]. 第4版. 北京：書目文獻出版社，1999.