THOMAS 專屬清單

Claude 本機技能庫 ThomasDesktop

記錄 Claude 在 Thomas 台式機上已經安裝好的工具
遇到相關任務時,一句話就能觸發,不用臨時裝包

⚠️
此頁是給 Thomas 自己看的清單 — 知道「Claude 已經能做什麼」,以後下指令時心裡有底。不是教程,是軍火庫盤點。
🔎 RapidOCR — 圖片/PDF 轉文字
輕量級 OCR 引擎,開圖即認字。用來掃描件建索引、郵箱附件萃取文字。

一句話功能

把任何圖片或 PDF 裡的文字「讀」出來變成可搜尋的 .txt。中英文都行。
包名
rapidocr-onnxruntime 1.2.3
裝於
2026-03-30(原本為郵箱附件建索引而裝)
安裝位置
C:\Users\Administrator\AppData\Local\Programs\Python\Python313\Lib\site-packages\rapidocr_onnxruntime
底層
PaddleOCR 模型 + ONNX Runtime(純 ONNX,無框架依賴)
💡 Claude 觸發詞 — 聽到這些話就知道該用 RapidOCR:
「OCR 這個圖」 / 「認字」 / 「掃描件轉文字」 / 「提取 PDF 文字」 / 「郵箱附件建索引」

範例調用(不用寫代碼)

Thomas:把 D:\Downloads-Inbox\Scaner\15042026.pdf OCR 成文字 Claude 會做: 1. pdf2image 把 PDF 拆成每頁一張圖 2. RapidOCR 逐頁識別文字 3. 輸出 15042026.txt 放在同目錄 4. 告訴你:共 N 頁,識別 M 個字
📊 為什麼選 RapidOCR 不選 PaddleOCR 原版
兩個識別準確度一樣,差在啟動速度和體積。
指標 RapidOCR PaddleOCR 原版
啟動速度0.3 秒3-5 秒
安裝體積約 50 MB約 500 MB
依賴框架純 ONNX Runtime整套 PaddlePaddle
識別準確度同模型同模型
GPU 需求CPU 已夠快建議 GPU
🎙️ Faster-Whisper — 音頻轉文字
OpenAI Whisper 的 4 倍速版本(CTranslate2 量化)。會議錄音、手機錄音、YouTube 音軌通吃。

一句話功能

把 mp3/m4a/wav 任何音頻變成帶時間戳的逐字稿。中文普通話、粵語、英文都能識別。
包名
faster-whisper 1.2.1 + ctranslate2 4.7.1
裝於
2026-04-10
安裝位置
C:\Users\Administrator\AppData\Local\Programs\Python\Python313\Lib\site-packages\faster_whisper
已下載模型
Systran/faster-whisper-small(244 MB,日常用)
Systran/faster-whisper-tiny(39 MB,快速測試用)
麥克風設備
麦克风 (6- GRANDSTREAM GUV3100)
= USB 攝像頭自帶的麥
💡 Claude 觸發詞 — 聽到這些話就知道該用 Faster-Whisper:
「轉錄這段錄音」 / 「這個音頻講什麼」 / 「會議錄音整理文字」 / 「把 mp3 變逐字稿」
⚠️ 錄音規則(Thomas 2026-04-15 踩坑教訓)
  • Claude 不能「開始錄音」就默默後台錄,用戶沒感知會抓狂
  • 錄音前必須先問:錄多久?要前台顯示嗎?
  • 錄音過程中要有進度提示(例如倒數秒數)
  • 錄完必須告知:檔案位置、時長、大小
  • 詳見記憶條目 feedback_try_before_refuse

範例調用(不用寫代碼)

Thomas:轉錄 C:\Users\Administrator\tmp\錄音\meeting.mp3 Claude 會做: 1. 載入 faster-whisper-small 模型(int8 量化) 2. 自動偵測語言(通常是 zh) 3. 輸出 meeting.txt:[00:00-00:05] 今天開會討論... [00:05-00:12] 主要三個重點... 4. 問你要不要進一步摘要
❓ Thomas 常問的問題

Q1:這兩個工具要聯網嗎?

不用。兩個都是本機模型,完全離線。斷網也能跑。(Faster-Whisper 第一次下載模型要聯網,之後就不用了)

Q2:我直接用 Claude 的對話能 OCR 嗎?幹嘛還要這個?

Claude 對話的視覺只能看一張一張圖,而且不會落地成檔案。本機 RapidOCR 可以批量處理上百頁 PDF,直接產生可搜尋的 .txt,給全文索引用。

Q3:Whisper 能轉粵語嗎?

能。small 模型支援 99 種語言包含粵語(yue)。但粵語準確度比普通話略低,碰到口語化詞彙會用近似字。建議錄音清晰一點。

Q4:以後再加新工具怎麼辦?

Claude 每裝一個新技能,就在這頁多一張卡。這頁會持續更新。也可以叫 Claude「把 xxx 加進本機技能庫」。

Q5:這兩個工具筆記本也有嗎?

目前只裝在 ThomasDesktop(台式機)。筆記本需要時再裝,不會自動同步。因為模型檔案太大,不適合走 Git。