We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
目前的方案已經初步完成,但是還有很多問題。
接下來目標:
The text was updated successfully, but these errors were encountered:
能反映大陸用字的繁體字頻表很難找到
之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… _(:з」∠)_
我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。
只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 _(:з」∠)_
Sorry, something went wrong.
能反映大陸用字的繁體字頻表很難找到 之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… (:з」∠) 我目前用的辦法是,把簡繁字對兒放在一起算字頻,例如:F({東,东}) = F(東) + F(东)。最後這兩個字給予相同的權重 W(東) = W(东) = F({東, 东}) 即可。我的代碼。精細一點調整的話,還需要讓繁體字權重略大一點,不過我目前還沒有實現。 只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 (:з」∠)
之前也碰到過這個問題,可以找到一個比較完整的字頻表 https://faculty.blcu.edu.cn/xinghb/zh_CN/article/167473/content/1437.htm ,但是主要是簡化字的…… (:з」∠)
只在音碼上測試過這個方法(結果是沒有讀音加權有效),形碼上的效果不是很清楚,僅供參考。 (:з」∠)
感謝關注。
這個分兩個問題。
第一個是應收哪些異體字。舉個例子,「爲」與「為」是一組常見異體字(異寫字),一般的使用者都會希望二者兼收。但「𠄔」作爲「幻」之隸定字,通常恐怕很難用到他。
第二個是異體字。或體(意義用法完全相同,只有字形不同)可以根據使用相同的字頻。但異體字(字形不同,含意用法部分重疊)的字頻無法兩全。比如,「箇」和「個」,只用「箇」的人希望「箇」的字頻最起碼和「個」一樣高;但用「個」的人則希望「箇」只包含指示代詞「這」的義項,其字頻應該很低。
關於第一點,目前我的想法是使用OpenCC標準,再加之港臺異體字。缺點是部分異體字會缺失,例如《古籍印刷通用字規範字形表》的「槪」「旣」等字。這部分等OpenCC的異體字表整理出來後可能會有所改善。使用此方法我重新制定了字集過濾( #3 )。
第二點,依舊使用OpenCC標準,同你的思路一樣,藉助rime的碼表來設定異體字字頻,也包括一簡多繁的字。這點可行性有待驗證。
ywxt
No branches or pull requests
目前的方案已經初步完成,但是還有很多問題。
接下來目標:
The text was updated successfully, but these errors were encountered: