Hi! I’m clsung

Hi! I’m clsung

clsung’s blog site, or you can call me AlanSung

Hi! I’m clsung RSS Feed
 
 
 
 

Ted Pedersen’s Home Page

Ted Pedersen 的網頁包含了許多 NLP 需要的軟體。真是感動呀~~ 然後我的第二個想法就是,把一些還沒在 ports 的東西,送進去 :evil:
:twisted: 吧 :p

Share and Enjoy:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google
  • funp
  • Haohao
  • Hemidemi
  • Live
  • MisterWong
  • TwitThis
  • udn

8 Responses to “Ted Pedersen’s Home Page”

  1. 1
    clsung:

    ports/72190 ccc :p

  2. 2
    icf:

    爽大,請問一下上面這位教授所寫的工具
    爽大有用過嗎? 我試過那個NS{(n-grams)的程式
    他文件寫可以自訂token.but………..我沒辦法讓他處理中文@@ 爽大有使用中文的例子分享嗎 ? 謝謝!

  3. 3
    clsung:

    啊,我之前有試過,你可能把檔案先轉換成 utf8 ,再去設定 token 的 regex (\w)。
    這樣如何?

  4. 4
    icf:

    謝謝爽大 我試試看

  5. 5
    icf:

    嗯 我試過了
    我把input的檔案先轉成utf-8
    token 設定是/([\x80-\xff]/
    執行之後 有成功計算n-grams(I guess)
    but, 那個output上面,除了數字
    剩下的unit都是亂碼
    轉回utf8也看不到@@
    有什麼方法嗎? 謝謝指教.

  6. 6
    clsung:

    改用
    /([\xe4-\xef][\x80-\xbf][\x00-\xff])+/
    看看
    因為 utf8 中文多數是 3bytes 的

  7. 7
    icf:

    可以了 謝謝爽大的幫忙.!!

  8. 8
    Jessica:

    Thank you for your work very, very interesting on top of that for me.

Leave a Reply

噗浪:

  • clsung 說 來睡,這裡果然溫暖好多 4 hours 前
  • clsung 說 冷 8 hours 前
  • clsung 說 本週六要上班.... 累 13 hours 前

分類

Flickr

    clsung. Get yours at bighugelabs.com/flickr

Blogroll

    馬的警總回來了
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Taiwan
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Taiwan