Ted Pedersen’s Home Page

Ted Pedersen 的網頁包含了許多 NLP 需要的軟體。真是感動呀~~ 然後我的第二個想法就是,把一些還沒在 ports 的東西,送進去 :evil:
:twisted: 吧 :p

Share and Enjoy: These icons link to social bookmarking sites where readers can share and discover new web pages.
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • funp
  • Haohao
  • Hemidemi
  • Live
  • MisterWong
  • TwitThis
  • udn
 

8 replies


  1. ports/72190 ccc :p


  2. 爽大,請問一下上面這位教授所寫的工具
    爽大有用過嗎? 我試過那個NS{(n-grams)的程式
    他文件寫可以自訂token.but………..我沒辦法讓他處理中文@@ 爽大有使用中文的例子分享嗎 ? 謝謝!


  3. 啊,我之前有試過,你可能把檔案先轉換成 utf8 ,再去設定 token 的 regex (\w)。
    這樣如何?


  4. 謝謝爽大 我試試看


  5. 嗯 我試過了
    我把input的檔案先轉成utf-8
    token 設定是/([\x80-\xff]/
    執行之後 有成功計算n-grams(I guess)
    but, 那個output上面,除了數字
    剩下的unit都是亂碼
    轉回utf8也看不到@@
    有什麼方法嗎? 謝謝指教.


  6. 改用
    /([\xe4-\xef][\x80-\xbf][\x00-\xff])+/
    看看
    因為 utf8 中文多數是 3bytes 的


  7. 可以了 謝謝爽大的幫忙.!!


  8. Thank you for your work very, very interesting on top of that for me.

Leave a reply

Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Taiwan
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Taiwan