人名歧義性分析之研究__臺灣博碩士論文知識加值系統

文章推薦指數: 80 %
投票人數:10人

本論文探討人名歧義性的問題。

如同一個字具有多個意思,一個人名可能同時為多人所擁有,如何判別不同文章中所出現的相同人名是否屬於同一個人,是本研究的主要目標。

資料載入處理中... 跳到主要內容 臺灣博碩士論文加值系統 ::: 網站導覽| 首頁| 關於本站| 聯絡我們| 國圖首頁| 常見問題| 操作說明 English |FB專頁 |Mobile 免費會員 登入| 註冊 功能切換導覽列 (159.65.11.210)您好!臺灣時間:2022/07/1420:15 字體大小:       ::: 詳目顯示 recordfocus 第1筆/ 共1筆  /1頁 論文基本資料 摘要 外文摘要 目次 參考文獻 紙本論文 QRCode 本論文永久網址: 複製永久網址Twitter研究生:魏煜娟研究生(外文):Yu-ChuanWei論文名稱:人名歧義性分析之研究論文名稱(外文):AStudyofPersonalNameDisambiguation指導教授:陳信希學位類別:碩士校院名稱:國立臺灣大學系所名稱:資訊工程學研究所學門:工程學門學類:電資工程學類論文種類:學術論文論文出版年:2006畢業學年度:94語文別:英文論文頁數:76中文關鍵詞:人名解歧、資訊檢索外文關鍵詞:NameDisambiguation、InformationRetrieval相關次數: 被引用:0點閱:195評分:下載:0書目收藏:1 本論文探討人名歧義性的問題。

如同一個字具有多個意思,一個人名可能同時為多人所擁有,如何判別不同文章中所出現的相同人名是否屬於同一個人,是本研究的主要目標。

近年來,人名歧義性分析受到愈來愈多的重視,相關的應用包括個人資料建立、個人網頁搜尋、專家搜尋、社群關係分析等。

我們提出兩種類型的人名解歧義性的方法,目的是希望將提及此名字的文件分群,使得每一群中的文件所談的特定對象均指同一個人。

多分類器方法鏈結五種分類器來分群文件,五種分類器分別代表著從文章中擷取出來的五種特徵,是用於區別不同個體的依據,最前面的兩個分類器分別採用職稱與社群為分群的依據,期望能夠獲得較高的精確率,接著再以詞彙、時間、網址等分類器來判斷,藉由提高召回率使整體效能得以提昇。

此外我們也針對其中三種分類器分別提出了不同的演算法,以探討所造成的影響。

單分類器是另一種人名解歧的方法,它同時考慮了多個特徵值,並且直接做文件分群,在此,我們探討使用不同分群演算法以及不同特徵時的分群結果。

在我們的實驗資料中,選用了三個真實人名,並且同時考慮了人名的知名度(名人、一般人)、不同類型的資料(新聞、網頁)以及不同資料來源(臺灣地區、中國大陸)對人名解歧的影響。

結果顯示:在多分類器的方法中,使用直接職稱分群的效果好於複雜的兩階段判斷法;使用全文分析將引入更多的雜訊,並降低系統的效能;對於單分類器的方法,同時考慮所有特徵的結果比僅利用詞彙來的好;利用網路擴充社群對兩種分類法均有正面的影響。

在多分類器的方法中,最好結果可以達到70%的F值,與只有考慮詞彙為特徵的單分類器(最基本的人名解歧的方法)相比,效能大約提升了原本的40%。

最後,在結論的部分,我們將提出在此研究議題中未來仍可努力的地方。

Inthisthesis,westudytheproblemofpersonalnamedisambiguation.Asweknow,manyindividualshavethesamename.Theobjectiveofourworkistoidentifydifferentindividualsfromasetofdocumentsandclusterthedocumentsingroupssuchthateachgrouprelatestooneperson.Twotypesofapproachesareproposedandcompared.Inthemultiple-classifierapproach,severalclassifiersareintegratedtodisambiguatethedenotationsofpersonalnames.Eachclassifierisbuiltbasedononefeature.Alternativesareproposedandreplacedinthethreeclassifiers.Inthesingle-classifierapproach,documentsareclusteredatatime.Differentclusteringalgorithmsanddifferentfeaturesareconsideredandcomparedinthisapproach.Inthetestdatasets,weaddresstheissuesofawarenessdegreeofanentity(householdnamevs.generalname),thesourcesofmaterials(newswirevs.webpages),andwebpagesindifferentareas(MainlandofChinavs.Taiwan).Theexperimentalresultsinthemultiple-classifierapproachshowthatpersonaltitlesandcommunitiesaretwostrongcuesforclustering.Thefirsttwoclassifiersachieveveryhighprecisions,andthelastthreeclassifiersimprovetherecallsatonlysomeexpenseofprecisions.TheaverageF-scoreincreasesgraduallyfromthefirstclassifiertothelastone.Theresultsofseveralalternativesshowthatclusteringpersonaltitlesdirectlyperformsbetterthanthetwostepsstrategy,andtermsextractedfromthefulltextseemstobringinmanynoisesfornamedisambiguation.Inthesingle-classifierapproach,highperformanceisachievedwhenalltypesofthefeaturesareapplied.ExpandingcommunitiesfromtheWebimprovestheperformanceinbothapproaches.Thealternativeinthemultiple-classifierapproachachievesthebestF-score70%andhasabout40%increasescomparedtothegeneralnamedisambiguationmethod.Weclosewithdiscussionofthecomparisonoftwoproposedclusteringalgorithmsandmaketheconclusion. Chapter1Introduction11.1Motivation11.2ProblemStatement11.3RelatedWork21.4MainIssues51.5TheOrganizationofThisThesis5Chapter2EvaluationCorpora72.1SelectionStrategiesofTestingNames72.2DescriptionofResources82.2.1Newswire82.2.2WebPages112.3ComparisonofThreeMaterials132.3.1Newswirevs.WebPages132.3.2WebPagesinTaiwanvs.WebPagesinChina15Chapter3Multiple-ClassifierApproach163.1Overview163.2DataPreprocessing173.2.1.1DataExtraction,CodeTranslation,ContextExtraction,andPOSTagging173.2.2FeatureExtraction183.2.2.1PersonalTitleExtraction183.2.2.2CommunityExtraction193.2.2.3TermExtraction193.2.2.4TemporalExpressionExtraction203.2.2.5URLExtraction203.3FiveClassifiersintheMultiple-ClassifierApproach203.3.1AClassifierUsingPersonalTitles(C1)213.3.1.1DividingbyTitleKeywordsandOrganizationNames(C11)223.3.1.2MergingbyOrganizationNames(C12)233.3.2AClassifierUsingCommunities(C2)243.3.2.1DisambiguatingbyCommunities(C21)243.3.2.2Self-DividingbyCommunities(C22)253.3.3AClassifierUsingTermVectors(C3)263.3.3.1DisambiguatingbyTermVectors(C31)263.3.3.2MergingbyTermVectors(C32)273.3.4AClassifierUsingTemporalExpressions(C4)283.3.5AClassifierUsingURLsofDocuments(C5)283.4ClusterLabeling29Chapter4ExperimentsofMultiple-ClassifierApproach314.1EvaluationMetrics314.2BaselineModels324.3ExperimentalResults334.3.1PerformanceofPersonalTitleClassifier334.3.2PerformanceofCommunityClassifier344.3.3PerformanceofTermVectorClassifier354.3.4PerformanceofTemporalExpressionandURLsofDocumentsClassifiers364.3.5OverallPerformanceandDiscussion374.4AlternativeApproaches414.4.1PersonalTitleClassifier414.4.1.1DirectlyClusteringbyPersonalTitles424.4.1.2MergingbyRatio424.4.1.3MergingbyChi-square434.4.2CommunityClassifier444.4.2.1CommunityExpansion444.4.2.1.1BuildinganNEontology444.4.2.1.2SettingupaCommunityChainfromTwoOntologies454.4.2.1.3WebSearchwithDoubleCheckingModel464.4.2.1.4CommunityExpansionfromtheWeb474.4.2.2ExpansioninCommunityClassifier474.4.3TermVectorClassifier484.5ResultsofAlternativeApproaches484.5.1PersonalTitleClassifier484.5.2CommunityClassifier494.5.3TermVectorClassifier50Chapter5Single-ClassifierApproach515.1AgglomerativeClusteringAlgorithms515.2TwoAlternatives525.3ExperimentalResults525.3.1ThreeAgglomerativeClusteringAlgorithms525.3.2TwoAlternativeSingle-Classifiers545.4ComparisonbetweenMultiple-ClassifiersandSingle-Classifiers575.5DynamicThresholdSetting605.5.1Average-linkwithDynamicThreshold605.5.2Experiments615.6VisualizationofResults62Chapter6ConclusionandFutureWork656.1Conclusion656.2FutureWork66References68Appendix70ІStatisticsof“Chien-MingWang”inUDN,TW,andCN70�DPerformancesofMultiple-ClassifierApproach75�MTestDataandScoresinDynamicThresholdSetting76 Al-Kamaha,R.andEmbley,D.W.(2004)“GroupingSearch-EngineReturnedCitationsforPerson-NameQueries,”Proceedingsofthe6thannualACMInternationalWorkshoponWebInformationandDataManagement,2004,pp.96-103.Anh,V.N.andMoffat,A.(2002)“HomepageFindingandTopicDistillationUsingaCommonRetrievalStrategy,”ProceedingsofTREC2002.Bagga,A.andBaldwin,B.(1998)“Entity-basedCross-DocumentCo-ReferencingUsingtheVectorSpaceModel,”Proceedingsofthe17thInternationalConferenceonComputationalLinguistics,1998,pp.79-85.Bekkerman,R.andMcCallum,A.(2005)“DisambiguatingWebAppearancesofPeopleinaSocialNetwork,”ProceedingsofWWW2005,2005,pp.463-470.Borgatti,S.P.(1994)“HowtoExplainHierarchicalClustering,”INSNA,17(2),1994,pp.78-80.OnlineAvailable:http://www.analytictech.com/networks/hiclus.htm.Chen,H.H.andBian,G.W.(1998)“WhitePageConstructionfromWebPagesforFindingPeopleinInternet,”InternationalJournalofComputationalLinguisticsandChineseLanguageProcessing,3(1),1998,pp.75-100.Chen,H.H.,Ding,Y.W.andTsai,S.C.(1998)“NamedEntityExtractionforInformationRetrieval,”ComputerProcessingofOrientalLanguages,SpecialIssueonInformationRetrievalonOrientalLanguages,12(1),1998,pp.75-85.Chen,H.H.,Lin,M.S.andWei,Y.C.(2006)“NovelAssociationMeasuresUsingWebSearchwithDoubleChecking,”COLING-ACL2006,2006,toappear.Culotta,A.,Bekkerman,R.,andMcCallum,A.(2004)“ExtractingSocialNetworksandContactInformationfromEmailandtheWeb,”ProceedingsofCEAS-1,2004.Fleischman,M.andHovy,E.(2002)“FineGrainedClassificationofNamedEntities,”Proceedingsofthe19thInternationalConferenceonComputationalLinguistics,Taipei,Taiwan,2002,pp.1-7.Fleischman,M.andHovy,E.(2002)“Multi-DocumentPersonNameResolution,”ProceedingsofACLReferenceResolutionWorkshop,2004,pp.1-8.Gooi,C.H.andAllan,J.(2004)“Cross-DocumentCo-ReferenceonaLargeScaleCorpus,”Proceedingsof2004HLT-NAACL,2004,pp.9-16.Han,H.,Giles,L.andZha,H.(2004)“TwoSupervisedLearningApproachesforNameDisambiguationinAuthorCitations,”Proceedingsofthe2004ACM/IEEEJointConferenceonDigitalLibraries,2004,pp.296–305.Kuo,J.J.andChen,H.H.(2005)“CrossDocumentEventClusteringUsingKnowledgeMiningfromCo-ReferenceChains,”ProceedingsoftheSecondAsiaInformationRetrievalSymposium,LectureNotesinComputerScience,3689,2005,pp.121-134.Lloyd,L.,Bhagwan,V.,Tomkins,A.,Gruhl,D.(2005)“DisambiguationofReferencestoIndividuals,”IBMResearchReport,2005.Malin,B.(2005)“UnsupervisedNameDisambiguationviaSocialNetworkSimilarity,”ProceedingsoftheWorkshoponLinkAnalysis,Counterterrorism,andSecurity,inconjunctionwiththeSIAMInternationalConferenceonDataMining2005.NewportBeach,CA.,2005,pp.93-102.Mann,G.S.andYarowsky,D.(2003)“UnsupervisedPersonalNameDisambiguation,”ProceedingsofCoNLL-7,2003,pp.33–40.Lin,M.S.andChen,H.H.(2006)“ConstructingaNamedEntityOntologyfromWebCorpora,”ProceedingsoftheFifthInternationalConferenceonLanguageResourcesandEvaluation,Genoa,Italy,2006,pp.1450-1453.Pedersen,T.,Purandare,A.andKulkarni,A.(2005)“NameDiscriminationbyClusteringSimilarContext,”ProceedingsoftheSixthInternationalConferenceonIntelligentTextProcessingandComputationalLinguistics,2005,pp.226-237.Raghavan,H.,Allan,J.andMcCallum,A.(2004)“AnExplorationofEntityModels,CollectiveClassificationandRelationDescription,”ProceedingsofSIGKDD2004,2004.Yang,W.andLi,X.(2002)“ChineseKeywordExtractionBasedonMax-DuplicatedStringsoftheDocuments”Proceedingsofthe25thACMSIGIRConference,Tampere,Finland,2002,pp.439-440.  國圖紙本論文 推文 網路書籤 推薦 評分 引用網址 轉寄                                                                                                                                                                                                                    top 相關論文 相關期刊 熱門點閱論文 無相關論文   1. 7. 李長貴、諸承明、戚樹誠(1998)。

我國大型企業薪資設計現況及其成效之研究-以薪資設計四要素模式為分析架構。

輔仁管理評論,1,97-116。

2. 29. 黃建銘(1999)。

組織績效指標的運用與管理意涵-英國經驗之探討。

人力發展月刊,127,70-72。

  1. 多文件文章摘要系統之研究 2. 意見探勘在關連發掘上的應用 3. 自然語言處理空詞辨識問題之研究 4. 中文詞性標示與部分剖析問題之研究 5. 圖文生活日誌之圖片回憶研究 6. 詞彙刪簡模型用於中文句子精練 7. 利用路徑差之路徑排序以保持知識庫完整性 8. 運用語意角色標註技術建構個人知識庫之研究 9. 從圖文故事排序中學習並探索序列化視覺語義嵌入 10. 適用於點對點中文語篇剖析的遞迴類神經網路統一架構 11. 非中文母語學習者中文寫作用詞錯誤偵測及更正之研究 12. 整合主體、類別和屬性識別的知識庫簡單問題問答系統 13. 學習將自然語言敘述映射為知識圖譜表示形式以利知識庫之建立 14. 知識庫實體之敘述生成 15. 高覆蓋率中文關連樣式探勘以加速及完備知識圖譜之建立     簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室



請為這篇文章評分?