clsung’s blog site, or you can call me AlanSung
Ted Pedersen 的網頁包含了許多 NLP 需要的軟體。真是感動呀~~ 然後我的第二個想法就是,把一些還沒在 ports 的東西,送進去 很 吧 :p
九月 30th, 2004 | Category: phd_student | Subscribe to comments | Leave a comment | Trackback URL | Visited (3/3490) times
ports/72190 ccc :p
爽大,請問一下上面這位教授所寫的工具 爽大有用過嗎? 我試過那個NS{(n-grams)的程式 他文件寫可以自訂token.but………..我沒辦法讓他處理中文@@ 爽大有使用中文的例子分享嗎 ? 謝謝!
啊,我之前有試過,你可能把檔案先轉換成 utf8 ,再去設定 token 的 regex (\w)。 這樣如何?
謝謝爽大 我試試看
嗯 我試過了 我把input的檔案先轉成utf-8 token 設定是/([\x80-\xff]/ 執行之後 有成功計算n-grams(I guess) but, 那個output上面,除了數字 剩下的unit都是亂碼 轉回utf8也看不到@@ 有什麼方法嗎? 謝謝指教.
改用 /([\xe4-\xef][\x80-\xbf][\x00-\xff])+/ 看看 因為 utf8 中文多數是 3bytes 的
可以了 謝謝爽大的幫忙.!!
Thank you for your work very, very interesting on top of that for me.
Name (required)
Mail (will not be published) (required)
Website
九月 30th, 2004 at 8:45 pm
ports/72190 ccc :p
十一月 25th, 2004 at 10:13 pm
爽大,請問一下上面這位教授所寫的工具
爽大有用過嗎? 我試過那個NS{(n-grams)的程式
他文件寫可以自訂token.but………..我沒辦法讓他處理中文@@ 爽大有使用中文的例子分享嗎 ? 謝謝!
十二月 1st, 2004 at 9:59 am
啊,我之前有試過,你可能把檔案先轉換成 utf8 ,再去設定 token 的 regex (\w)。
這樣如何?
十二月 2nd, 2004 at 1:27 am
謝謝爽大 我試試看
十二月 2nd, 2004 at 1:51 am
嗯 我試過了
我把input的檔案先轉成utf-8
token 設定是/([\x80-\xff]/
執行之後 有成功計算n-grams(I guess)
but, 那個output上面,除了數字
剩下的unit都是亂碼
轉回utf8也看不到@@
有什麼方法嗎? 謝謝指教.
十二月 3rd, 2004 at 10:31 am
改用
/([\xe4-\xef][\x80-\xbf][\x00-\xff])+/
看看
因為 utf8 中文多數是 3bytes 的
十二月 3rd, 2004 at 9:03 pm
可以了 謝謝爽大的幫忙.!!
四月 2nd, 2007 at 5:08 am
Thank you for your work very, very interesting on top of that for me.