• <menu id="scusm"><strong id="scusm"></strong></menu>
    <nav id="scusm"><nav id="scusm"></nav></nav>

    面向眾籌眾創教育資源知識圖譜的生成與質量評價探討

    論文價格:150元/篇 論文用途:碩士畢業論文 Master Thesis 編輯:碩博論文網 點擊次數:
    論文字數:36566 論文編號:sb2022091414211649399 日期:2022-10-05 來源:碩博論文網

    本文是一篇軟件工程論文,本文對知識圖譜基本概念做出介紹,并對知識圖譜生成技術與質量評價相關工作進行調研與分析,提出了當前工作的不足之處,為本文的創新點做鋪墊。第三章中,為了改進傳統信息抽取中命名實體識別對教育實體抽取存在的準確性問題,本文提出了一種基于遷移學習的命名實體識別編碼器ConvEncoder,使用全局特征抽取模塊提取語義特征,使用多重卷積提取術語的局部特征,并接入注意力機制使模型判別各模塊權重,抽取得到最后的結果。
    第一章 緒論
    1.1研究背景和研究意義
    隨著信息技術的發展,網絡教育資源越來越豐富,學習者可以不受教學環境的限制,便利地獲取海量符合自身需求的優質教育資源,極大得提高了學習者的主動性,推動了傳統教育模式的變革。人工智能、深度學習等技術的發展更助推了在線教育模式的發展,智慧教育、個性化教育越來越受到人們的關注,成為當前教育研究與實踐的熱點。然而,我國教育行業面臨個性化教育的普遍需求與優質教育資源短缺的主要矛盾,針對教育資源供給側改革是推動和發展線上教育新模式的重要手段。

    軟件工程論文怎么寫
    軟件工程論文怎么寫

    1.1.1 眾籌眾創教育模式研究背景
    眾籌眾創教育模式是一種面向開放資源與共享平臺的模式,其目的是將各個領域的教育資源共享,并提倡不同的教育者、教育機構參與到創建資源的過程中[1]。早在90年代末,國內的中小學在線教育便開始發展,不同學校的師資團隊將課程錄制成視頻資源進行共享,開啟了數字化教育資源建設的新模式。
    隨著互聯網技術的發展,以 EDX、Udacity、Coursera為代表的在線教學平臺與全球頂尖的大學合作,免費向各國學習者提供優質的教學資源,推動了優質教學資源全球化的發展[2]。當前,數字教育資源建設已從初期的國家教育局集中建設,逐步轉變為一種資源共創共享的模式,以適應不同層次、不同類型的教育需求。眾籌眾創模式推動了優質教育資源的產生和共享,例如維基百科、百度百科以眾籌眾創的模式加速了知識的傳遞、集成與協同;IMOOC軟件技能學習平臺支持用戶制作并上傳教學視頻,并劃分等級進行收費[3]。與此同時,眾籌眾創模式的發展可依賴市場機制,豐富優質的教學資源,加大資源創新的力度,為構建開放、協同的教育生態系統提供了新的途徑。
    ..........................
    1.2教育知識圖譜研究現狀
    谷歌公司于2012年提出知識圖譜(Knowledge Graph)的概念之后,各個領域開始將傳統技術與知識圖譜融合。谷歌最初采用FreeBase[5]知識圖譜改善搜索引擎的檢索效率,隨著知識圖譜發展的成熟化,知識圖譜被運用于更多的場景,如智能問答、輔助決策、個性化推薦等。
    在教育領域,知識圖譜旨在為學習者提供更加組織化的教學內容,提高學習者獲取知識的效率,同時為學習者制定個性化的學習路徑。教育知識圖譜是學科知識點間的相互關聯,而這種關聯往往自身也是一種知識表現,需要學習者掌握。同時,合理運用知識點的關聯數據能為學習者循序漸進地推薦優質的教學資源,提高學習者的積極性[6]。在傳統教學理念中,知識圖譜是一種概念圖[7]的表現形式,其需要大量的構建成本。以慕課為例,在專家構建的知識系統中,知識點通常是相對固定的。在眾籌眾創模式下,新的知識和資源會源源不斷的涌入,如何對其進行抽取、融合、表示乃至最后的運用,都是值得探討的問題。
    其中,很多研究者對教育知識圖譜的構建進行了研究,早期學者圍繞概念圖進行研究,概念圖是以圖示化的方式組織概念以及概念間關系的圖模型[8],用于表示概念體系。其中LAOS模型以概念圖的方式對領域知識進行建模[9];KAO等人將概念圖與模糊推理相結合,用于評估學習效率[10]。后來,研究者將研究方向從概念圖轉變為知識地圖。由于教育知識圖譜最終圍繞教育資源進行構建,因此需要將概念圖與教育資源進行鏈接,形成知識地圖[11]。隨著知識圖譜時代的到來,各組織機構開展了教育知識圖譜的構建工作。其中,Knewton機構構建了基于知識圖譜的跨學科知識體系,其中包含概念及其先決關系;Wolfram Research 融合了多元異構的互聯網垂直領域知識構建了Wolfram Alpha知識庫,提高了知識檢索的效率。在國內,清華大學許斌等人組成的研究團隊搭建了eduKG基礎教育知識圖譜系統,包含知識檢索、智能問答等多應用場景;北京師范大學開發了基于知識圖譜的教育輔助決策系統[12];華中師范大學提出了基于潛在語義分析教育的知識圖譜構建方法[13]。
    .................................
    第二章 知識圖譜生成與質量評價相關研究基礎
    2.1知識圖譜研究基礎
    知識圖譜是一種基于圖存儲技術的信息表示結構,與傳統的關系型數據結構不同,知識圖譜能反映不同信息之間的多種聯系,并基于算法對潛在知識進行推理、預測,為智能問答、推薦系統等上層應用提供底層支持。本章主要基于眾籌眾創教育知識圖譜生成場景,介紹了知識圖譜生成的相關技術以及其質量評價的基礎研究。
    2.1.1 知識圖譜基本概念
    知識圖譜是一種知識組織結構,由相關領域知識庫中的異構數據提取整合得到的關聯實體構成,是描述實體間關系的語義網絡[24],分為模型層(model layer)與數據層(data layer)。模型層構建又稱為本體構建,研究者通?;谡J知構建某一領域的常識性模型。常用的本體構建語言包括RDF、RDFS、OWL等[25]。數據層的構建以實體(entity)和關系(relation)為基準單元,其中實體代表當前知識圖譜本體的實例,關系反映了實體間的關聯。知識圖譜構建的中間單位是實體關系三元組(tuple),其中包含頭實體(head)、關系(relation)、尾實體(tail),以<head,relation,tail>的形式存儲,例如<姚明,妻子,葉莉>表示了人物關系,<數據結構,包含,數組>表示了學科知識點的關系等。知識圖譜的數據格式結合可視化技術,可以直觀的表現出數據間的關聯,結合圖查詢技術能對三度關聯以上復雜的數據進行高效的檢索。
    知識圖譜在知識覆蓋范圍上可分為專業知識圖譜與通用知識圖譜[26],前者基于領域內數據構建,知識具有專業性和精確度;后者數據量大,具有通用性,實體關系一般為常識,能為用戶提供搜索與推薦服務,通常采用網絡聚合的方式對知識庫進行擴充更新,如基于Wiki的DBpedia[27],基于多數據源的Yago[28]等。由于眾籌眾創教育資源知識圖譜的特性,其構建可認為是兩者的結合,基礎框架為專業性較強的學科知識圖譜,教育資源實體作為擴充數據鏈接到學科圖譜中。隨著時間的增長,用戶為平臺提供優質的教學內容,教育資源知識圖譜也需要隨之擴展。因此,一種好的知識圖譜構建方案對其質量有著重要的影響。
    .................................
    2.2知識圖譜生成技術
    知識圖譜生成技術將多源異構數據自動抽取候選知識要素,提取整合并進行初步質量篩選,獲得候選三元組。近年來,信息抽取的研究分為實體抽取、關系抽取和事件抽取等方向;研究內容主要為半結構化與非結構化數據的抽取,其中從非結構化數據中抽取三元組信息,被海內外學者廣泛關注。本章節主要介紹針對非結構化文本的知識抽取方法。
    2.2.1 實體命名識別
    命名實體識別(Named Entity Recognition,NER)又稱為實體抽取,是自然語言處理的基本任務,其目的是挖掘非結構化文本數據中的命名實體并對其進行分類。實體抽取是知識圖譜生成的基礎,為后續的關系抽取提供高置信度的命名實體,對生成知識的質量有很大的影響。
    實體抽取自從1991年被提出這一概念起[37],研究方向包括領域內抽取與開放域的抽取,領域內抽取又分為基于規則與字典、機器學習、深度學習等多個研究方向。早期研究者基于模板與規則的系統[38]進行知識抽取,利用規則體系與字符模板為某一類待命名實體指定規則,基于模式匹配算法對實體進行識別。其中經典的抽取系統包括Netowl[39]、Proteus[40]等,其優勢在于構建好的專家系統抽取的實體置信度較高,且構建字符模板相對簡單,無需大量數據的訓練測試。然而,這種方法也具有很大的局限性。其一,規則模板編寫成本高,針對新的數據集需要新增規則,增加了人力成本;其二,對于不同數據源,規則模板不可移植,在通用知識圖譜的構建上缺少擴展性。
    考慮到規則模板的抽取能力有限,研究者逐步用機器學習代替規則模板。機器學習將實體抽取轉化為序列預測問題,早期研究者基于訓練好的隱馬爾可夫模型對標記的命名實體進行預測,使用文本塊標記器進行實體命名識別[41]。Finkel等人使用條件隨機場預測實體序列,提出BIO標注模式,將實體劃分為頭部、中部、尾部序列組,使用概率模型進行預測[42]。在此基礎上,衍生出動態CRF的理論,結合隨機場與動態貝葉斯的思想,學習推理模型的參數[43]。Prokofyev等人提出借助外部百科資源可提高抽取準確度的理論,為先驗知識的引入提供了理論導向[44]。
    .................................
    第三章 知識圖譜實體關系抽取方法研究 ............................ 14
    3.1 知識抽取問題研究 ............................... 14
    3.2 命名實體序列標注模型 ........................ 14
    第四章 知識圖譜生成資源評價算法研究 ........................... 30
    4.1 知識圖譜質量評價問題研究 ................................... 30
    4.2 眾籌眾創網絡資源質量評價方法 .............................. 30
    第五章 教育資源知識圖譜生成評價系統設計與實現 ........................ 44
    5.1 教育知識圖譜生成評價系統設計 .................. 44
    5.1.1 系統需求分析 ....................... 44
    5.1.2 數據庫設計 ................................... 45
    第五章 教育資源知識圖譜生成評價系統設計與實現
    5.1教育知識圖譜生成評價系統設計
    5.1.1 系統需求分析
    在基于眾籌眾創教育資源生成聚合平臺運營過程中,除了結構化組織的數據,往往包含大量圖結構的數據,如知識導圖、關系圖等。隨著教育資源的生成與聚合,為了給資源提供推薦、搜索等基礎算法服務,需要實時更新教育資源知識圖譜,并對其進行管理。
    教育資源知識圖譜生成評價系統主要使用對象為教育資源的管理者或組織者,或對資源推薦、搜索、智能問答有需求的第三方用戶,旨在為其提供基礎或定制的服務。因此,系統需要具有面向構建流程、可操作性強、異構高可用擴展的特點。
    (1)面向構建流程
    領域知識圖譜的構建經歷知識生成、融合、質量評價等多個步驟。平臺在支持各項算法服務的基礎上,需要有串聯這些服務的能力,將具體的服務流程化,使算法輸入、輸出對用戶不具有可見性,降低用戶操作難度,并實現流程追蹤,構建過程可視化管理。
    (2)異構高可用擴展
    由于知識圖譜算法服務部分基于python進行訓練與服務搭建,Web端采用基于java語言的springboot框架構建,因此系統為異構服務架構。傳統微服務架構下的服務通信由于其數據驅動、IO密集的特點,因此使用同步的網絡通信。但在異構服務架構下,算法服務包含耗時的IO密集型任務,同步阻塞請求會造成線程阻塞,浪費計算資源,降低用戶體驗。再者,網絡通信的可靠性隨著數據量的增加而下降。因此,需要引入一種異步、可靠的消息通信機制作為異構服務的通信中間件。
    具備高可用性(High Availability)特性的系統,通常需要經過專門的設計,長時間保持其服務的高度可用性,減少停工時間。由于系統的計算密集任務在算法服務中進行,算法服務需要具有高可用的特點,支持算法模塊的橫向與縱向擴展,在后端網關處實施負載均衡策略,保證任務的均衡分配。

    軟件工程論文參考
    軟件工程論文參考

    ................................
    第六章 總結與展望
    6.1論文總結
    本文提出了一種針對眾籌眾創教育資源知識圖譜的生成與質量評價方法。文章首先對當下數字教育領域的眾籌眾創教育資源的產生與發展做了介紹,并分析其中存在的問題與解決方案。其次對當下教育知識圖譜的發展和生成質量評價進行研究,對本文研究內容與結構做出安排。
    本文對知識圖譜基本概念做出介紹,并對知識圖譜生成技術與質量評價相關工作進行調研與分析,提出了當前工作的不足之處,為本文的創新點做鋪墊。第三章中,為了改進傳統信息抽取中命名實體識別對教育實體抽取存在的準確性問題,本文提出了一種基于遷移學習的命名實體識別編碼器ConvEncoder,使用全局特征抽取模塊提取語義特征,使用多重卷積提取術語的局部特征,并接入注意力機制使模型判別各模塊權重,抽取得到最后的結果。實驗表明該模型在教育術語的抽取比傳統模型擁有更高的準確度。同時,本文基于BERT模型對教育學科知識點實體進行了關系抽取研究,根據先驗知識獲得知識點的上下位關系,得到了較好的效果。
    在本文第四章中,為了解決眾籌眾創教育資源知識圖譜生成質量的缺陷問題,本文提出了一種基于多決策模型的知識圖譜生成資源質量評價方法,使用多個機器學習分類器對待評價資源進行分類,再基于熵增益權重與投票機制對資源進行打分和評級,并在眾創資源社區的代表——百度百科提供的詞條數據集上進行實驗,獲得了較好的結果。
    在基于上述工作,本文構建了一套教育知識圖譜生成與質量評價系統,將教育資源知識圖譜的抽取方法、質量評價工具進行整合,以可視化的形式展現給用戶,將相關的算法研究進行初步的落地實踐。
    參考文獻(略)


    上一篇:基于特征關聯的人物關系理解
    下一篇:沒有了
    如果您有論文相關需求,可以通過下面的方式聯系我們
    點擊聯系客服
    QQ 1429724474 電話 18964107217
    局长揉搓少妇人妻第一章
  • <menu id="scusm"><strong id="scusm"></strong></menu>
    <nav id="scusm"><nav id="scusm"></nav></nav>