人名歧義性分析之研究__臺灣博碩士論文知識加值系統
文章推薦指數: 80 %
本論文探討人名歧義性的問題。
如同一個字具有多個意思,一個人名可能同時為多人所擁有,如何判別不同文章中所出現的相同人名是否屬於同一個人,是本研究的主要目標。
資料載入處理中...
跳到主要內容
臺灣博碩士論文加值系統
:::
網站導覽|
首頁|
關於本站|
聯絡我們|
國圖首頁|
常見問題|
操作說明
English
|FB專頁
|Mobile
免費會員
登入|
註冊
功能切換導覽列
(159.65.11.210)您好!臺灣時間:2022/07/1420:15
字體大小:
:::
詳目顯示
recordfocus
第1筆/
共1筆
/1頁
論文基本資料
摘要
外文摘要
目次
參考文獻
紙本論文
QRCode
本論文永久網址: 複製永久網址Twitter研究生:魏煜娟研究生(外文):Yu-ChuanWei論文名稱:人名歧義性分析之研究論文名稱(外文):AStudyofPersonalNameDisambiguation指導教授:陳信希學位類別:碩士校院名稱:國立臺灣大學系所名稱:資訊工程學研究所學門:工程學門學類:電資工程學類論文種類:學術論文論文出版年:2006畢業學年度:94語文別:英文論文頁數:76中文關鍵詞:人名解歧、資訊檢索外文關鍵詞:NameDisambiguation、InformationRetrieval相關次數:
被引用:0點閱:195評分:下載:0書目收藏:1
本論文探討人名歧義性的問題。
如同一個字具有多個意思,一個人名可能同時為多人所擁有,如何判別不同文章中所出現的相同人名是否屬於同一個人,是本研究的主要目標。
近年來,人名歧義性分析受到愈來愈多的重視,相關的應用包括個人資料建立、個人網頁搜尋、專家搜尋、社群關係分析等。
我們提出兩種類型的人名解歧義性的方法,目的是希望將提及此名字的文件分群,使得每一群中的文件所談的特定對象均指同一個人。
多分類器方法鏈結五種分類器來分群文件,五種分類器分別代表著從文章中擷取出來的五種特徵,是用於區別不同個體的依據,最前面的兩個分類器分別採用職稱與社群為分群的依據,期望能夠獲得較高的精確率,接著再以詞彙、時間、網址等分類器來判斷,藉由提高召回率使整體效能得以提昇。
此外我們也針對其中三種分類器分別提出了不同的演算法,以探討所造成的影響。
單分類器是另一種人名解歧的方法,它同時考慮了多個特徵值,並且直接做文件分群,在此,我們探討使用不同分群演算法以及不同特徵時的分群結果。
在我們的實驗資料中,選用了三個真實人名,並且同時考慮了人名的知名度(名人、一般人)、不同類型的資料(新聞、網頁)以及不同資料來源(臺灣地區、中國大陸)對人名解歧的影響。
結果顯示:在多分類器的方法中,使用直接職稱分群的效果好於複雜的兩階段判斷法;使用全文分析將引入更多的雜訊,並降低系統的效能;對於單分類器的方法,同時考慮所有特徵的結果比僅利用詞彙來的好;利用網路擴充社群對兩種分類法均有正面的影響。
在多分類器的方法中,最好結果可以達到70%的F值,與只有考慮詞彙為特徵的單分類器(最基本的人名解歧的方法)相比,效能大約提升了原本的40%。
最後,在結論的部分,我們將提出在此研究議題中未來仍可努力的地方。
Inthisthesis,westudytheproblemofpersonalnamedisambiguation.Asweknow,manyindividualshavethesamename.Theobjectiveofourworkistoidentifydifferentindividualsfromasetofdocumentsandclusterthedocumentsingroupssuchthateachgrouprelatestooneperson.Twotypesofapproachesareproposedandcompared.Inthemultiple-classifierapproach,severalclassifiersareintegratedtodisambiguatethedenotationsofpersonalnames.Eachclassifierisbuiltbasedononefeature.Alternativesareproposedandreplacedinthethreeclassifiers.Inthesingle-classifierapproach,documentsareclusteredatatime.Differentclusteringalgorithmsanddifferentfeaturesareconsideredandcomparedinthisapproach.Inthetestdatasets,weaddresstheissuesofawarenessdegreeofanentity(householdnamevs.generalname),thesourcesofmaterials(newswirevs.webpages),andwebpagesindifferentareas(MainlandofChinavs.Taiwan).Theexperimentalresultsinthemultiple-classifierapproachshowthatpersonaltitlesandcommunitiesaretwostrongcuesforclustering.Thefirsttwoclassifiersachieveveryhighprecisions,andthelastthreeclassifiersimprovetherecallsatonlysomeexpenseofprecisions.TheaverageF-scoreincreasesgraduallyfromthefirstclassifiertothelastone.Theresultsofseveralalternativesshowthatclusteringpersonaltitlesdirectlyperformsbetterthanthetwostepsstrategy,andtermsextractedfromthefulltextseemstobringinmanynoisesfornamedisambiguation.Inthesingle-classifierapproach,highperformanceisachievedwhenalltypesofthefeaturesareapplied.ExpandingcommunitiesfromtheWebimprovestheperformanceinbothapproaches.Thealternativeinthemultiple-classifierapproachachievesthebestF-score70%andhasabout40%increasescomparedtothegeneralnamedisambiguationmethod.Weclosewithdiscussionofthecomparisonoftwoproposedclusteringalgorithmsandmaketheconclusion.
Chapter1Introduction11.1Motivation11.2ProblemStatement11.3RelatedWork21.4MainIssues51.5TheOrganizationofThisThesis5Chapter2EvaluationCorpora72.1SelectionStrategiesofTestingNames72.2DescriptionofResources82.2.1Newswire82.2.2WebPages112.3ComparisonofThreeMaterials132.3.1Newswirevs.WebPages132.3.2WebPagesinTaiwanvs.WebPagesinChina15Chapter3Multiple-ClassifierApproach163.1Overview163.2DataPreprocessing173.2.1.1DataExtraction,CodeTranslation,ContextExtraction,andPOSTagging173.2.2FeatureExtraction183.2.2.1PersonalTitleExtraction183.2.2.2CommunityExtraction193.2.2.3TermExtraction193.2.2.4TemporalExpressionExtraction203.2.2.5URLExtraction203.3FiveClassifiersintheMultiple-ClassifierApproach203.3.1AClassifierUsingPersonalTitles(C1)213.3.1.1DividingbyTitleKeywordsandOrganizationNames(C11)223.3.1.2MergingbyOrganizationNames(C12)233.3.2AClassifierUsingCommunities(C2)243.3.2.1DisambiguatingbyCommunities(C21)243.3.2.2Self-DividingbyCommunities(C22)253.3.3AClassifierUsingTermVectors(C3)263.3.3.1DisambiguatingbyTermVectors(C31)263.3.3.2MergingbyTermVectors(C32)273.3.4AClassifierUsingTemporalExpressions(C4)283.3.5AClassifierUsingURLsofDocuments(C5)283.4ClusterLabeling29Chapter4ExperimentsofMultiple-ClassifierApproach314.1EvaluationMetrics314.2BaselineModels324.3ExperimentalResults334.3.1PerformanceofPersonalTitleClassifier334.3.2PerformanceofCommunityClassifier344.3.3PerformanceofTermVectorClassifier354.3.4PerformanceofTemporalExpressionandURLsofDocumentsClassifiers364.3.5OverallPerformanceandDiscussion374.4AlternativeApproaches414.4.1PersonalTitleClassifier414.4.1.1DirectlyClusteringbyPersonalTitles424.4.1.2MergingbyRatio424.4.1.3MergingbyChi-square434.4.2CommunityClassifier444.4.2.1CommunityExpansion444.4.2.1.1BuildinganNEontology444.4.2.1.2SettingupaCommunityChainfromTwoOntologies454.4.2.1.3WebSearchwithDoubleCheckingModel464.4.2.1.4CommunityExpansionfromtheWeb474.4.2.2ExpansioninCommunityClassifier474.4.3TermVectorClassifier484.5ResultsofAlternativeApproaches484.5.1PersonalTitleClassifier484.5.2CommunityClassifier494.5.3TermVectorClassifier50Chapter5Single-ClassifierApproach515.1AgglomerativeClusteringAlgorithms515.2TwoAlternatives525.3ExperimentalResults525.3.1ThreeAgglomerativeClusteringAlgorithms525.3.2TwoAlternativeSingle-Classifiers545.4ComparisonbetweenMultiple-ClassifiersandSingle-Classifiers575.5DynamicThresholdSetting605.5.1Average-linkwithDynamicThreshold605.5.2Experiments615.6VisualizationofResults62Chapter6ConclusionandFutureWork656.1Conclusion656.2FutureWork66References68Appendix70ІStatisticsof“Chien-MingWang”inUDN,TW,andCN70�DPerformancesofMultiple-ClassifierApproach75�MTestDataandScoresinDynamicThresholdSetting76
Al-Kamaha,R.andEmbley,D.W.(2004)“GroupingSearch-EngineReturnedCitationsforPerson-NameQueries,”Proceedingsofthe6thannualACMInternationalWorkshoponWebInformationandDataManagement,2004,pp.96-103.Anh,V.N.andMoffat,A.(2002)“HomepageFindingandTopicDistillationUsingaCommonRetrievalStrategy,”ProceedingsofTREC2002.Bagga,A.andBaldwin,B.(1998)“Entity-basedCross-DocumentCo-ReferencingUsingtheVectorSpaceModel,”Proceedingsofthe17thInternationalConferenceonComputationalLinguistics,1998,pp.79-85.Bekkerman,R.andMcCallum,A.(2005)“DisambiguatingWebAppearancesofPeopleinaSocialNetwork,”ProceedingsofWWW2005,2005,pp.463-470.Borgatti,S.P.(1994)“HowtoExplainHierarchicalClustering,”INSNA,17(2),1994,pp.78-80.OnlineAvailable:http://www.analytictech.com/networks/hiclus.htm.Chen,H.H.andBian,G.W.(1998)“WhitePageConstructionfromWebPagesforFindingPeopleinInternet,”InternationalJournalofComputationalLinguisticsandChineseLanguageProcessing,3(1),1998,pp.75-100.Chen,H.H.,Ding,Y.W.andTsai,S.C.(1998)“NamedEntityExtractionforInformationRetrieval,”ComputerProcessingofOrientalLanguages,SpecialIssueonInformationRetrievalonOrientalLanguages,12(1),1998,pp.75-85.Chen,H.H.,Lin,M.S.andWei,Y.C.(2006)“NovelAssociationMeasuresUsingWebSearchwithDoubleChecking,”COLING-ACL2006,2006,toappear.Culotta,A.,Bekkerman,R.,andMcCallum,A.(2004)“ExtractingSocialNetworksandContactInformationfromEmailandtheWeb,”ProceedingsofCEAS-1,2004.Fleischman,M.andHovy,E.(2002)“FineGrainedClassificationofNamedEntities,”Proceedingsofthe19thInternationalConferenceonComputationalLinguistics,Taipei,Taiwan,2002,pp.1-7.Fleischman,M.andHovy,E.(2002)“Multi-DocumentPersonNameResolution,”ProceedingsofACLReferenceResolutionWorkshop,2004,pp.1-8.Gooi,C.H.andAllan,J.(2004)“Cross-DocumentCo-ReferenceonaLargeScaleCorpus,”Proceedingsof2004HLT-NAACL,2004,pp.9-16.Han,H.,Giles,L.andZha,H.(2004)“TwoSupervisedLearningApproachesforNameDisambiguationinAuthorCitations,”Proceedingsofthe2004ACM/IEEEJointConferenceonDigitalLibraries,2004,pp.296–305.Kuo,J.J.andChen,H.H.(2005)“CrossDocumentEventClusteringUsingKnowledgeMiningfromCo-ReferenceChains,”ProceedingsoftheSecondAsiaInformationRetrievalSymposium,LectureNotesinComputerScience,3689,2005,pp.121-134.Lloyd,L.,Bhagwan,V.,Tomkins,A.,Gruhl,D.(2005)“DisambiguationofReferencestoIndividuals,”IBMResearchReport,2005.Malin,B.(2005)“UnsupervisedNameDisambiguationviaSocialNetworkSimilarity,”ProceedingsoftheWorkshoponLinkAnalysis,Counterterrorism,andSecurity,inconjunctionwiththeSIAMInternationalConferenceonDataMining2005.NewportBeach,CA.,2005,pp.93-102.Mann,G.S.andYarowsky,D.(2003)“UnsupervisedPersonalNameDisambiguation,”ProceedingsofCoNLL-7,2003,pp.33–40.Lin,M.S.andChen,H.H.(2006)“ConstructingaNamedEntityOntologyfromWebCorpora,”ProceedingsoftheFifthInternationalConferenceonLanguageResourcesandEvaluation,Genoa,Italy,2006,pp.1450-1453.Pedersen,T.,Purandare,A.andKulkarni,A.(2005)“NameDiscriminationbyClusteringSimilarContext,”ProceedingsoftheSixthInternationalConferenceonIntelligentTextProcessingandComputationalLinguistics,2005,pp.226-237.Raghavan,H.,Allan,J.andMcCallum,A.(2004)“AnExplorationofEntityModels,CollectiveClassificationandRelationDescription,”ProceedingsofSIGKDD2004,2004.Yang,W.andLi,X.(2002)“ChineseKeywordExtractionBasedonMax-DuplicatedStringsoftheDocuments”Proceedingsofthe25thACMSIGIRConference,Tampere,Finland,2002,pp.439-440.
國圖紙本論文
推文
網路書籤
推薦
評分
引用網址
轉寄
top
相關論文
相關期刊
熱門點閱論文
無相關論文
1.
7. 李長貴、諸承明、戚樹誠(1998)。
我國大型企業薪資設計現況及其成效之研究-以薪資設計四要素模式為分析架構。
輔仁管理評論,1,97-116。
2.
29. 黃建銘(1999)。
組織績效指標的運用與管理意涵-英國經驗之探討。
人力發展月刊,127,70-72。
1.
多文件文章摘要系統之研究
2.
意見探勘在關連發掘上的應用
3.
自然語言處理空詞辨識問題之研究
4.
中文詞性標示與部分剖析問題之研究
5.
圖文生活日誌之圖片回憶研究
6.
詞彙刪簡模型用於中文句子精練
7.
利用路徑差之路徑排序以保持知識庫完整性
8.
運用語意角色標註技術建構個人知識庫之研究
9.
從圖文故事排序中學習並探索序列化視覺語義嵌入
10.
適用於點對點中文語篇剖析的遞迴類神經網路統一架構
11.
非中文母語學習者中文寫作用詞錯誤偵測及更正之研究
12.
整合主體、類別和屬性識別的知識庫簡單問題問答系統
13.
學習將自然語言敘述映射為知識圖譜表示形式以利知識庫之建立
14.
知識庫實體之敘述生成
15.
高覆蓋率中文關連樣式探勘以加速及完備知識圖譜之建立
簡易查詢 |
進階查詢 |
熱門排行 |
我的研究室
延伸文章資訊
- 1關於論文中的英文姓名 - Celavia's Note
這也是我要求學生進行論文文獻編碼的基本功。 先講姓名的一般規則。 英文以名(first name)在前、姓(last name, family name 或surname) ...
- 2citation :: 文中引用文獻(人名)之書寫格式 - Keep my balance
身為研究生在寫論文這段過程碰到不少壁瘋狂退稿修改退稿修改.... (ಥ_ಥ) 今天的篇幅很小就只是個小知識這樣通常我們在文中要引用前人研究的內容後面 ...
- 3如何在您的論文中正確使用Et Al. - AsiaEdit
如何在您的論文中正確使用Et Al. 24 March 2021. Quick Takeaways: 'et al. ' 意思是“以及其他”; 當要在內文引用一篇有三位或以上作者的文獻時使用'e...
- 4文獻引用格式與"et al."的使用方法 - Wordvice
撰寫論文,卻不知道各種常見引用格式怎麼做? ... 為”et alii”的縮寫,意思是”and others” ,主要用於表示人名列表,功能有點像是”et cetera” 。
- 5人名歧義性分析之研究__臺灣博碩士論文知識加值系統
本論文探討人名歧義性的問題。如同一個字具有多個意思,一個人名可能同時為多人所擁有,如何判別不同文章中所出現的相同人名是否屬於同一個人,是本研究的主要目標。