国产午夜福利精品久久2021-欧美mv日韩mv国产网站-免费看黄a级毛片-三级在线看中文字幕完整版

首頁(yè) 資訊 > 產(chǎn)業(yè) > 正文

中華智慧芯片跨越古今的時(shí)空鏈接

中文漢字竟天然具備普適全球的原生接口?完全沒(méi)有漢字教育背景的外國(guó)漢字盲,竟能當(dāng)場(chǎng)自學(xué)掌握超七萬(wàn)字大字集漢字的便捷數(shù)字化管理?

百年來(lái)無(wú)數(shù)仁人志士、專(zhuān)家學(xué)者殫精竭慮探尋無(wú)解的千古難題,竟被二十個(gè)年輕學(xué)子當(dāng)場(chǎng)幾分鐘憑基本常識(shí)推導(dǎo)解決?關(guān)切人人日常的拼音兩大天然短板被完美彌補(bǔ)?

近年的AI大模型,其技術(shù)架構(gòu)、生成路徑竟在二十八年前的故紙堆中已被完整揭示?早已證實(shí)漢字的底層邏輯架構(gòu)決定了中文注定是AI母語(yǔ)?

一個(gè)小分享會(huì)回望的四十年漢字叢林漂泊孤旅——

4月20日下午,鐵城先生帶著尚帶油墨香的中華芯碼時(shí)光檔案《漢字漢字》書(shū)冊(cè),邀請(qǐng)部分媒體朋友及一些中外大學(xué)生,在北京一酒店會(huì)議室舉辦了一個(gè)小型的軟件分享會(huì)。

作者上世紀(jì)八十年代大學(xué)學(xué)習(xí)有關(guān)微機(jī)課程時(shí),了解到漢字是世界上檢字效率最低的文字,便捷檢字是漢字千百年來(lái)無(wú)數(shù)專(zhuān)家學(xué)者探尋而無(wú)解的世界難題。而計(jì)算機(jī)的發(fā)明,及七八十年代逐漸開(kāi)始走進(jìn)中國(guó),又延伸出漢字輸入計(jì)算機(jī)的難題,一時(shí)幾乎使?jié)h字到了面臨生死存亡的歷史關(guān)口。

用作者自己的話說(shuō),他大概屬于天生的無(wú)條件的“民族主義者”,當(dāng)然限于覺(jué)得自己民族的東西最優(yōu)秀這種世界公民眼里的偏執(zhí)“無(wú)腦主義”。在他眼里,漢字毫無(wú)疑問(wèn)是不證自明的最優(yōu)越最完美的文字。一方面打心眼里受不了漢字竟有這么個(gè)什么“之最”短板,另一方面根本就不相信完美的漢字會(huì)有什么短板缺陷。很“盲目自信”覺(jué)得這種什么所謂“難題”“缺陷”,根本就不是事,遲早會(huì)有專(zhuān)家搞定的,而且就這塊也同樣一定會(huì)超越一切拼音文字。而作為一個(gè)初入大學(xué)不兩年的理工學(xué)生,當(dāng)然不想會(huì)與自己一個(gè)外行有什么瓜葛,相信歸相信,沒(méi)放自己心上。

后因一兩個(gè)因素刺激,他突然覺(jué)得,“便捷檢字”說(shuō)白了就是要特別特別簡(jiǎn)單,而“簡(jiǎn)單”就不一定要專(zhuān)家才能搞,甚至可能根本與“專(zhuān)家”就是相悖的。專(zhuān)家怎么可能搞特別“簡(jiǎn)單”的東西嘛,太“簡(jiǎn)單”搞出來(lái)也讓人笑話,可能正是必須要最笨最蠢的人,反而才能干這種活。所以之后不時(shí)躺在鋪位上翻動(dòng)字典自己瞎琢磨,想著要笨到什么樣才能最最簡(jiǎn)單快捷呢?直到八七年三月,臨畢業(yè)前的某一天,照例躺床上翻字典瞎想時(shí),突然靈光一現(xiàn)想到一個(gè)思路,覺(jué)得如果能證實(shí)可行,那么真是簡(jiǎn)單到就是完全不懂漢字的外國(guó)人也能掌握,不輸英文盲也能鍵盤(pán)輸入查找單詞。

可這僅僅是一個(gè)思路而已,雖然感覺(jué)可行性很大,但要證實(shí)這種可行性并且得到完善實(shí)用方案,談何容易?無(wú)數(shù)前輩,可能僅僅在數(shù)千常用字范圍折騰,就耗盡畢生心血而最終徒勞無(wú)功失敗告終。而漢字總數(shù)可能超過(guò)八萬(wàn)十萬(wàn),面對(duì)如此浩如煙海的文字海洋,個(gè)人的幾十年實(shí)在太微不足道了,甚至極可能折騰一生,到最后關(guān)頭發(fā)現(xiàn)一個(gè)無(wú)法解決的bug而功虧一簣徹底失敗。而作為即將邁出校門(mén)的學(xué)渣,卻也不知天高地厚的想著開(kāi)萬(wàn)世太平呢,這樣交代一生可不是事。作為一個(gè)關(guān)系全民的中華文化重大課題,國(guó)家曾教育部、科學(xué)院等四部委聯(lián)合成立工作組希望解決,這個(gè)思路可能還是很有價(jià)值,很自然想應(yīng)該提供給國(guó)家有關(guān)方面,個(gè)人無(wú)力對(duì)付,有國(guó)家組織力量研究就是小菜一碟了。于是省會(huì)跑了些腿,一個(gè)毛頭小子,當(dāng)然是天真了。

只好還落到自己頭上。到單位后,兩三年利用業(yè)余時(shí)間先幾千常用字簡(jiǎn)化方式試水,基本可行。但真要投入,海量工作量,意味著與正常的工作 、正常的生活是無(wú)法相容的,只能辭職離鄉(xiāng)。心理學(xué)說(shuō)自卑的人都好面子,最終真一世報(bào)銷(xiāo),可以不知所終,不用對(duì)誰(shuí)交代。

90年簡(jiǎn)易驗(yàn)證,出來(lái)到94年完成基本集6763字集數(shù)字三碼初步可行方案,97年購(gòu)入電腦提速,完成基本集四碼優(yōu)化,98年完成基本集全方位擴(kuò)展“友善漢字體系”,及字海超30000字三碼驗(yàn)證,07年基本集新版四碼,規(guī)則趨向極簡(jiǎn),發(fā)現(xiàn)可以基于常識(shí)推導(dǎo),08年推進(jìn)擴(kuò)展集、超七萬(wàn)字大字集四碼實(shí)用,10年開(kāi)發(fā)26鍵逍遙碼,15年完成電腦臺(tái)植入,規(guī)則基本趨零,完全不懂漢字外國(guó)人也基本能實(shí)用,找到數(shù)字第五碼附碼,數(shù)字映射中排字母鍵,實(shí)現(xiàn)數(shù)字與拼音融合,常用字可以完全字母鍵實(shí)現(xiàn)全數(shù)字、數(shù)字加拼音、全拼音、拼音加數(shù)字輸入,生僻字中排字母映射全數(shù)字輸入,無(wú)需切換,完美彌補(bǔ)拼音輸入同音字詞多時(shí)需翻頁(yè)找及生僻難字不懂音無(wú)法輸入兩大自身無(wú)解短板,也使新時(shí)代淪落“無(wú)用”的檢字法復(fù)活人人相關(guān)的現(xiàn)實(shí)實(shí)用價(jià)值。

這兩年開(kāi)始整理這前后四十年的漢字芯碼時(shí)光,人生欲遲暮,做個(gè)了結(jié)。某天恍然驚覺(jué),芯碼不但是漢字作為智慧芯片本身天然具備的序?qū)?span id="fgdn8432" class="keyword">性,并且可以通過(guò)基本常識(shí)直接推導(dǎo)出來(lái),更令人喟嘆的是,所有一切,竟是古人早已幾百上千年的用老了的日常,也就是說(shuō),自己幾十年的孜孜矻矻,不過(guò)是從新蹚順了一條古已有之的千年故道!

這才敢想著扯這么個(gè)所謂“分享會(huì)”,如果借此機(jī)緣其能離了悖時(shí)舊主混出點(diǎn)生機(jī),也是先人之功,如果一切依舊,反正先人東西要跟悖時(shí)人一起灰飛煙滅,也不賴自己哈。

上面當(dāng)然這些大部是事后從作者閑扯了解,當(dāng)日走進(jìn)這個(gè)主題有些語(yǔ)焉不詳又頂著個(gè)“漢字·全球”夸張而不得要領(lǐng)唬人名頭的什么“分享會(huì)”,不過(guò)偶然機(jī)緣如例行公事填場(chǎng)個(gè)無(wú)所謂的活動(dòng)。

稍有些訝異的是小會(huì)場(chǎng)一邊排開(kāi)五個(gè)貌似洋留學(xué)生在看電腦不知忙什么。后作者開(kāi)始通過(guò)PPT介紹關(guān)于漢字檢字法的一些故紙堆拉雜。說(shuō)實(shí)話,現(xiàn)在大家都泡在手機(jī)里,都是輕閱讀,有生字大都無(wú)視跳過(guò),就算較真也或直接點(diǎn)搜獲復(fù)制、手寫(xiě)什么的,誰(shuí)還能記得什么老古董檢字法啊。大略了解到漢字檢字繁難,以前一直是困擾中國(guó)文化人的一個(gè)大麻煩,千百年許多文化大家參與其中自不待言,甚至王竹溪、錢(qián)偉長(zhǎng)等大科學(xué)家都曾親自投入,發(fā)明新部首檢字法、錢(qián)碼等,對(duì)外國(guó)人就更是學(xué)習(xí)中文的一大攔路虎了,有漢學(xué)家夸張為“光學(xué)習(xí)檢字法就相當(dāng)于秘書(shū)學(xué)校一個(gè)學(xué)期的課程”。

所以約半小時(shí)后,作者介紹說(shuō),旁邊五個(gè)洋學(xué)生基本不懂漢字,剛剛現(xiàn)場(chǎng)臨時(shí)通過(guò)十幾頁(yè)的圖示PPT自學(xué),應(yīng)已基本掌握稱(chēng)為“芯碼”的漢字編碼方法,可以為任意漢字編碼而實(shí)現(xiàn)輸入檢索,一時(shí)有些愕然,將信將疑。但接下來(lái)作者拿出整本打印好的數(shù)萬(wàn)生僻字,由大家任意選字現(xiàn)考,幾個(gè)洋學(xué)生竟然真的基本能夠磕磕絆絆編出四位數(shù)字碼,作者在電腦上輸入,果然正確打出相應(yīng)生僻字!

一時(shí)有些不明覺(jué)厲,在座不乏學(xué)中文的,要輸入檢索這些生僻字都不免撓頭。但誰(shuí)知道呢,表面看到這出奇的一幕,也許背后不知道有什么貓膩呢。大約不過(guò)精心設(shè)計(jì)的一出把戲,隨后的戲碼,不出意料將是作者開(kāi)始出來(lái)介紹推廣他自以為得意的某種莫名其妙稀奇古怪的東東了。

但萬(wàn)沒(méi)想到,真正讓人吃驚的是隨后一幕!作者根本沒(méi)有來(lái)兜售他自己什么東西,而是和大家一起討論到幾個(gè)常識(shí),然后讓大家自己根據(jù)邏輯一二推導(dǎo),竟然就直接得到了一個(gè)簡(jiǎn)單方法,可以非常便捷直觀給任何漢字編出四位數(shù)字編碼!所以稱(chēng)這不是他個(gè)人自以為是鼓搗的什么東西,而是漢字內(nèi)在固有的屬性,或可稱(chēng)為第四屬性——序?qū)?span id="fgdn8432" class="keyword">性。

大家各各一試,還真不是幻覺(jué),真真如此!就這?簡(jiǎn)單、自然,直是漢字一萬(wàn)年前娘胎自帶。千百年無(wú)數(shù)仁人志士、專(zhuān)家學(xué)者前赴后繼費(fèi)盡心血苦尋無(wú)果,結(jié)果卻就簡(jiǎn)單是幾句話捅破窗戶紙“山在那!”?這簡(jiǎn)直是老天開(kāi)了個(gè)大號(hào)玩笑。

作者也開(kāi)玩笑說(shuō)在座各位今天不但是見(jiàn)證歷史、參與歷史,還千真萬(wàn)確親手創(chuàng)造了歷史!但還真是個(gè)玩笑,大家還沒(méi)從“被歷史”的懵圈中醒過(guò)味,臺(tái)上話鋒一轉(zhuǎn),哈哈玩笑了其實(shí)和大家各位或者說(shuō)和任何現(xiàn)代人沒(méi)有一毛錢(qián)關(guān)系,全部都是古人早已用了幾百年上千年的日常操作!然后說(shuō)出兩個(gè)事實(shí),大家啞然無(wú)言繼續(xù)懵圈中。

云山霧罩一大篇,那么就如此簡(jiǎn)單連外國(guó)漢字盲都能掌握的便捷數(shù)字化檢字,到底作者揭示出是古人什么樣的日常操作???

大家知道小時(shí)學(xué)偏旁部首檢字,有個(gè)很重要也很煩人的步驟是數(shù)筆畫(huà),因漢字結(jié)構(gòu)復(fù)雜筆畫(huà)多,數(shù)起來(lái)非常費(fèi)心費(fèi)力,甚至許多字很難數(shù)準(zhǔn)。

但漢字稱(chēng)為方塊字,如果避開(kāi)復(fù)雜的漢字內(nèi)部結(jié)構(gòu),就沿著漢字方塊四邊數(shù),結(jié)合古人用了一兩千年以上的珠算規(guī)則數(shù),就會(huì)發(fā)現(xiàn)簡(jiǎn)單的不費(fèi)吹灰之力!連完全不懂漢字的外國(guó)人都手拿把掐,而且正好得到一個(gè)四位數(shù),千古檢字難題迎刃而解。

具體說(shuō),相對(duì)方塊有上右下左四面,相對(duì)每面,只有兩種筆畫(huà),一種是只露出端點(diǎn)稱(chēng)為“點(diǎn)”,一種是整個(gè)筆畫(huà)平行該面(上下面的橫、左右面的豎)稱(chēng)為“平”,一個(gè)平按珠算規(guī)則當(dāng)上珠以一當(dāng)五。

1、“點(diǎn)”為1,一到三個(gè)點(diǎn)容易一眼看清,而四個(gè)點(diǎn)以上,要一一數(shù)清費(fèi)勁,就一律算4,即超過(guò)四個(gè)以上的點(diǎn)不管多少都忽略不計(jì)。因而光“點(diǎn)”筆畫(huà),可能得到1、2、3、4四個(gè)任一數(shù)字,一如珠算下珠永遠(yuǎn)只用到1~4珠。如“木”四位數(shù)碼為1232,“林”四位數(shù)碼為2242;

2、“平”算5,任意面有“平”的話,則加上可能的任意點(diǎn),可得到5、6、7、8、9任意結(jié)果數(shù)字,一如算盤(pán)如果有一顆上珠,則該位一定是5~9。如“杏”四位數(shù)碼為1757,“和”四位數(shù)碼為6583;

3、如果任一面同時(shí)又兩個(gè)“平”,就直接算0,多余其他任何筆畫(huà)忽略不計(jì),一如算盤(pán)上檔一旦有兩個(gè)上珠,一定進(jìn)位本檔清空。如“倡”四位數(shù)碼為6061,“居”四位數(shù)碼為5061。

簡(jiǎn)單說(shuō)就是“點(diǎn)1平5四邊數(shù),過(guò)四計(jì)四平0”,就如此徹底的簡(jiǎn)單明了、直觀便捷,所謂漢字便捷檢字難檢字效率世界最低消弭于無(wú)形,轉(zhuǎn)身成為世界檢字效率最高最簡(jiǎn)單全球普適的檢字效率頂流。

只要涉足過(guò)漢字相關(guān)研究者,都會(huì)對(duì)漢字無(wú)限復(fù)雜多樣的結(jié)構(gòu)構(gòu)成嘆為觀止,不論你總結(jié)出任何規(guī)律規(guī)矩,都會(huì)有大量的例外或難以取舍的情況,就是最基礎(chǔ)的偏旁部首檢字法,不到一萬(wàn)頭的《新華字典》選用了189個(gè)部首的“龐大”陣容,也仍然有四五百字因難以取舍歸類(lèi)而在后面另行單列了一項(xiàng)“難檢字”表,很難想象上面如此簡(jiǎn)單的一條規(guī)則就能應(yīng)對(duì)數(shù)以萬(wàn)計(jì)無(wú)限復(fù)雜的所有漢字。

實(shí)際也確實(shí)如此。無(wú)限復(fù)雜無(wú)級(jí)變速的構(gòu)成,疊加對(duì)碼分效率同碼字分布均衡的追求,在簡(jiǎn)單明了的總思路之下,前期各種規(guī)范、簡(jiǎn)化、分流規(guī)則,歷經(jīng)無(wú)數(shù)次“無(wú)用功”般的調(diào)整、取舍,無(wú)數(shù)次版本迭代,無(wú)數(shù)次奧卡姆剃刀砍削,最終讓附加規(guī)則基本歸零,僅僅需要硬性保留的幾乎就一條“國(guó)(囗)型后三取內(nèi)形”。因這類(lèi)字不調(diào)整一下,則同類(lèi)字編碼都是“5555”,對(duì)大字集,同碼字將達(dá)到數(shù)百個(gè)。

此外,分化為電子詞典和紙質(zhì)字詞典兩類(lèi)。電子詞典容錯(cuò)能力極強(qiáng),大量增加容錯(cuò)碼也幾乎不影響使用效率,畢竟不是用于盲打的專(zhuān)業(yè)輸入法。比如“耳”字下橫一般帶點(diǎn)斜,那么下碼取不取呢?電子詞典就兩種都收,因而“5222、5212”都能打出“耳”字,“千”字外國(guó)人可能判斷不清首筆是撇還是橫,那就“5212、1212”都能打出“千”。而對(duì)主要面對(duì)國(guó)人的紙質(zhì)字詞典,經(jīng)過(guò)大漢字集數(shù)萬(wàn)漢字實(shí)際分化總結(jié),最終僅僅只需分三五種情況說(shuō)明一下,有漢字基礎(chǔ)的,一看就明白,無(wú)須專(zhuān)門(mén)學(xué)習(xí),即使不管不看,實(shí)際使用中也能判斷個(gè)八九不離十,如“耳、斗”這里習(xí)慣性裝飾性傾斜,仍然歸為“橫”,下面不計(jì)入其“點(diǎn)”。

可以說(shuō)“奔騰萬(wàn)碼”那數(shù)百數(shù)千種各類(lèi)輸入法檢字法,毫無(wú)例外每種在本就非常復(fù)雜的規(guī)則下,都隱藏了大量沒(méi)有明示的不合理或不符合規(guī)則或無(wú)法納入規(guī)則的硬性例外規(guī)定,也就是說(shuō)從“科學(xué)”角度來(lái)說(shuō),幾乎沒(méi)有任何一款不是漏洞百出的,但“芯碼”則可以一條最簡(jiǎn)明的規(guī)則做到科學(xué)、規(guī)范,幾乎沒(méi)有硬傷或無(wú)法合理處理的字。

新世紀(jì)以來(lái),以前非常被關(guān)注、文化意義社會(huì)價(jià)值都非常重大的檢字法研究逐漸了無(wú)聲息。一方面是進(jìn)入電子化時(shí)代,多種因素消解了檢字法以前的獨(dú)門(mén)重要性;另一方面,實(shí)際上是千百年努力、特別是近現(xiàn)代三次全國(guó)性檢字法研究熱潮幾乎顆粒無(wú)收,使得專(zhuān)家、學(xué)界基本已經(jīng)給實(shí)現(xiàn)便捷檢字判了死刑,搞什么勞什子“檢字法”幾乎成為“永動(dòng)機(jī)”一樣的笑話。

但時(shí)代真已經(jīng)終結(jié)了檢字法重要性乃至其本身?事實(shí)大謬不然!是沒(méi)有好的檢字法才造成我們很多日常不便被當(dāng)成理所當(dāng)然,比如翻頁(yè)找字、難字輸入大費(fèi)周章、一些單位人名輸入很麻煩等等,但漢字芯碼使這些問(wèn)題都迎刃而解。

將芯碼十個(gè)數(shù)字映射到中排字母鍵,A~L分別代表1~9,M為0,實(shí)現(xiàn)芯碼與拼音的完美融合。大家知道光“yi”常用字同音字就有一百四五十個(gè),要輸入姓氏“伊”字,實(shí)際操作某拼音輸入法翻頁(yè)四次,但用芯碼輸入法,yi加一個(gè)上碼6(h),輸入“yih”就直接出現(xiàn),如果進(jìn)一步加入右碼1(a),輸入“yiha”,則選字都不用,一鍵上屏,極為方便。大家日常輸入大多是想打,如果不是很熟練,要去腦中想出一個(gè)字的四邊情況數(shù)出四邊數(shù)字碼,有一定難度,但僅僅要想出第一個(gè)上碼,卻是非常簡(jiǎn)單的,而拼音即使僅僅加上一個(gè)芯碼數(shù)字上碼為附碼,也幾乎能減少90%甚至99%以上翻頁(yè)需要。

至于偶爾遇到姓名生僻字等情況,比如前面舉例遇到一個(gè)人名“李翯”,“翯”字直接“mmjm”上屏,更是無(wú)縫連接信手拈來(lái)。

所以似乎這個(gè)芯碼還真不完全是一個(gè)無(wú)聊某人自?shī)首詷?lè)自迷自道的過(guò)氣冷門(mén)玩意,而疑似真有一定現(xiàn)實(shí)意義和價(jià)值,可能可以為每個(gè)人都多帶來(lái)一點(diǎn)便利。

至于分享會(huì)主題中提到“中文AI母語(yǔ)”云云,本來(lái)感覺(jué)大抵就是蹭熱點(diǎn)而已。但不想作者翻出蒙塵二十八年的舊稿《友善漢字體系》,其“江河湖海”四篇的“海篇”,除個(gè)別片段,從未在包括個(gè)人博客等任何場(chǎng)所曬過(guò),作者半自嘲半慶幸“deepseek問(wèn)世揭示了中文之于AI世界的天然優(yōu)勢(shì),我這篇扒拉出來(lái)的舊文,應(yīng)該可以不太被噴為神經(jīng)病囈語(yǔ)了”。這二十幾年前的荒誕怪文,竟然自以為是的“分析、論證”“自圓其說(shuō)”了中文漢字將是智能時(shí)代、信息世界的母語(yǔ)乃至唯一“世界語(yǔ)”,寫(xiě)下“是先人數(shù)千年前洞徹抑或安排了一切,還是信息人類(lèi)預(yù)向漢字先人下過(guò)訂單?”自以為是的設(shè)問(wèn)??慈缦逻@個(gè)似乎荒唐可笑的片段——

竟然仿佛真切設(shè)計(jì)描摹了暗合今日天才們基于transformer架構(gòu)、大模型訓(xùn)練、蒸餾、專(zhuān)家模型、深度思索推理等構(gòu)建的人工智能世界,甚至猶有過(guò)之,所以要吐槽人家提前二三十年凹好了姿勢(shì)來(lái)碰今天的磁,確乎有些下不了口哇。

哈,偶然參加這么個(gè)奇怪的“分享會(huì)”,被“分享”了這么些亂七八糟東東,一時(shí)也不知怎么說(shuō),在此也就這么拉雜分享一下。

如有好事看官扒拉到此,不知您看法如何哈?覺(jué)得這個(gè)什么芯碼是有價(jià)值的嗎?

花了四十年證明這事其實(shí)和自己無(wú)關(guān),都是古人的鍋,要背古人去背!才鼓搗這么個(gè)啥“分享會(huì)”,算做個(gè)了結(jié),所謂“事了拂衣去,與我不相干。”

歡迎各位犀利看官,給出自己的見(jiàn)解!

(來(lái)源:和訊網(wǎng))

免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - ywysw.cn All rights reserved
聯(lián)系我們:39 60 29 14 [email protected]
皖I(lǐng)CP備2022009963號(hào)-3