自然語言處理是機器學習當前最神秘,最紅火,最具難度,也最讓引人關注的分支。在搜索引擎,語音識別,情感分析,大批量文檔處理,機器翻譯,自動應答等各個領域有著前程無可限量的應用??梢栽囅胍慌_能理解自然語言,并且和人類能用語言純熟交流的機器,那還能叫機器么?文本挖掘(Text Mining)是數(shù)據(jù)挖掘以及自然語言處理技術衍生的一個分支,挖掘對象通常是非結構化的文本數(shù)據(jù),常見的文本挖掘對象包括網(wǎng)頁所產(chǎn)生的BBS留言、博客、微博、新聞跟貼與轉貼等。此外,擁有大型呼叫中心或郵件系統(tǒng)的企業(yè),call center或mail積攢下來的大量語言記錄也可以通過文本挖掘獲得眾多具有商業(yè)價值的知識。我們用計算機去處理文字,語音,理解語言,這些本來是高等生物人類才能做的事情,使到系統(tǒng)能產(chǎn)生“機器也具有人類同樣的智慧”的震驚效果,無需置疑肯定會給顧客和觀眾留下極其深刻的印象。
第1節(jié) 自然語言處理與文本挖掘概述。強大的系統(tǒng)后面都有一個強大的語料庫。形式語言,機器詩人是怎樣煉成的?
第2節(jié) 自動機及其應用,文稿自動校正,歧義消除
第3節(jié) 語言模型,平滑方法。應用案例:語音識別,分詞消岐
第4節(jié) 概率圖模型,生成式模型與判別式模型,貝葉斯網(wǎng),馬爾科夫鏈,隱馬爾科夫模型HMM,應用案例:語音識別與分詞
第5節(jié) 馬爾科夫網(wǎng),最大熵模型,條件隨機場CRF,實現(xiàn)HMM和CRF的軟件。應用案例:使用最大熵消除歧義,使用CRF進行標注
第6節(jié) 漢語分詞專題。世界上最難的語言名不虛傳
第7節(jié) 命名實體識別,詞性標注,從文本里挖出最重要的內(nèi)容
第8節(jié) 句法分析,找出句子的重點
第9節(jié) 語義分析與篇章分析,讓機器象語言學家那樣思考
第10節(jié) 文本分類,情感分析。應用案例:互聯(lián)網(wǎng)自動門戶,評論傾向性分析
第11節(jié) 信息檢索系統(tǒng),搜索引擎原理,問答系統(tǒng),應用案例:客服機器人是怎么造出來的?
第12節(jié) 文本深度挖掘:自動文摘與信息抽取
第13節(jié) 機器翻譯與語音識別技術介紹。IBM Watson系統(tǒng)的認知智慧。 |