企劃書很厚,兩三百頁,內容寫得很詳細。
肖遠在翻看的時候,並沒有去逐字逐句的讀,實際上也沒有那個必要,他只需要通過企劃書,把握其中的脈絡和關鍵,對唐新宇和顧狼的想法有所瞭解就行了,好在企劃書雖然厚,但是條理很清楚,所以肖遠讀起來也不費事。
在肖遠把企劃書讀到一半的時候,楊靜宸在外邊喊他吃飯,於是他暫停了閱讀,起身出門吃飯去了。
吃過飯後,他跟隨老媽去了書房,想要問她一些事情。
“怎麼,還要媽幫你做什麼?”書房裡,楊靜宸問道,很顯然,她以爲肖遠還要說開源社區的事情。
“不是,我想問問,您對中文自然語言處理知道多少,實驗室有沒有誰在研究這個?”肖遠問道。
“爲什麼想起問這個了?”楊靜宸問道。
“玄涅公司準備做一個全文搜索引擎,目的是想讓用戶通過在搜索框輸入日常用的語言,搜索引擎應該能夠自動對他們的語言進行分析理解,然後從網絡上海量的網頁中搜索到他們想要的信息,這裡面需要用到自然語言處理。”肖遠說道。
“全文搜索引擎?”楊靜宸眼前一亮,由衷道,“這個想法好啊,如果能做成,比玄涅現在主要經營的玄涅防火牆,更有前景,更容易做成大產業。”
“是的,我們也是看到了這一點兒,但是這其中有一些既需要理論支持,又需要大量基礎工作的東西,自然語言處理也在其中,而且很重要,您不是人工智能專家嗎,所以我纔想到問問您。”肖遠說道。
“自然語言處理嚴格來說,應該是一個以人工智能爲核心的跨學科研究方向,它牽涉到的,不僅僅是計算機和人工智能,還牽涉到語言學,心理學等其他社會學分科,雖然這個學科在西方起源挺早,四十年代就有了,但是自然語言系統太過複雜,所以,直到現在,全世界範圍內,也沒有什麼突破性進展。”
楊靜宸顯然對這個領域很熟悉,給肖遠介紹了一下當前國際上關於這方面的研究情況,然後又說了國內的研究情況:“咱們國內對這方面的研究,相比國外,還處於一個水平更低的基礎信息積累階段,一方面是因爲國內的起步比西方晚,二來,是因爲,中文和西方拉丁語系的那些語言有很大不同,拉丁語系是拼音語系,而且句式本身就是結構化的,所以計算機處理起來也相對容易,但是中文卻是一種古老的象形文字,句式靈活隨意,充滿了各種虛詞助詞,想將這樣的語言轉化成計算機可以分析處理的形式,本身就是一個很大的難題。”
“嗯,這倒是事實,那麼咱們國家現在的研究狀況究竟是什麼樣子的?”聽了老媽的話,肖遠稍稍有些失望,前世他也只是稍稍關注過這方面的理論,具體的細節瞭解也不是太多,於是就想更深入的瞭解一些。
“現在國內進行這方面研究的,主要是幾個大學,其中京華大學的研究比較前沿,國內其他大學在這方面的研究,也大都在配合京華大學的研究,做一些基礎詞庫整理工作,媽的實驗室也有人在做這方面的研究,主要承擔的是H到P的詞彙整理建庫工作,目前完成度已經到百分之八十了。”楊靜宸說道。
聽了楊靜宸的介紹,肖遠說道:“基礎詞庫大概什麼時候能夠建好?”
“這個很難估計。”楊靜宸說道,說完看到肖遠眉頭皺了起來,又說道,“你要真的想在搜索引擎中使用自然語言處理算法,媽倒是能給你一些建議。”
肖遠用詢問的目光看著老媽,等著她繼續。
“人們要利用你說的搜索引擎在網上檢索信息的話,我想他們用的最多的,肯定不會是完整的句子,而是一些關鍵詞,或者一些短句,僅僅分析關鍵詞和短句的話,難度就沒有那麼大了,而且你也沒必要一下子就把產品做的那麼完美,人們以前從來沒有接觸過這樣的產品,所以,只需要一些簡單的智能性,就足以對用戶產生足夠的吸引力了。”楊靜宸說道。
肖遠點了點頭,說道:“這個我自然是知道的,不過咱們國內的研究狀況讓我有些失望罷了,第一版肯定不能一下子往裡面放太多的東西,只需要做出一個基本的東西,然後根據用戶的反饋和新技術的成熟,再擴充,讓它越來越完善,這好像是軟件工程上有名的XP編程。”
“你知道XP編程?”
楊靜宸卻是因爲肖遠提到XP編程(此處的XP指的是eXtremeProgramming的簡寫,極限編程的意思,而WindowsXP中的XP指的是experience的簡寫,意思是體驗,而且99年還沒有WindowsXP之說。)感到很驚訝,大概是想不到肖遠還會去看軟件工程方面的書吧,更何況XP開發方法還是近幾年纔有人提出來的一種很新的方法。
“瞭解一些。”肖遠卻是沒有想到自己隨口的一句話,都能讓老媽感到驚訝,於是就把話題又拉回了正題,說道,“媽,我倒有個想法。”
“什麼想法?”楊靜宸問道。
“我想讓玄涅搜索和你的人工智能實驗室進行深度合作,一方面,你們能夠從玄涅得到一定的資金支持,而且你們還可以利用玄涅搜索所採集的海量網絡信息資源,另一方面,玄涅也能夠第一時間將你們的研究成果應用到自己的產品中,提升公司的技術含量,我認爲這是一件雙贏的事情。”肖遠說道。
“學校科研和企業合作,儘快轉化成生產力,是咱們國家一直提倡的,人工智能實驗室這些年,也一直在尋求與企業合作,聯合研發,所以,如果玄涅想要合作的話,實驗室當然歡迎了。”楊靜宸說道。
“那好,等時機成熟後,我讓唐新宇和你們談,具體過程我就不參與了。”肖遠說道。
…………
和老媽又聊了一會兒,肖遠再次回到了自己的房裡,把企劃書看完,思索片刻,他拿出紙筆,開始構思玄涅搜索引擎的技術架構了。
PS:這幾章需要講一些技術方面的知識,爲了保證不出現什麼紕漏,綠茶需要思考很多東西,查很多資料,寫的很慢,很費腦。
今天仍然三更,第二更送到。