Claude 本機技能庫 · Thomas 的踩坑筆記

🔎 RapidOCR — 圖片/PDF 轉文字

輕量級 OCR 引擎，開圖即認字。用來掃描件建索引、郵箱附件萃取文字。

一句話功能

把任何圖片或 PDF 裡的文字「讀」出來變成可搜尋的 .txt。中英文都行。

包名

rapidocr-onnxruntime 1.2.3

裝於

2026-03-30（原本為郵箱附件建索引而裝）

安裝位置

C:\Users\Administrator\AppData\Local\Programs\Python\Python313\Lib\site-packages\rapidocr_onnxruntime

底層

PaddleOCR 模型 + ONNX Runtime（純 ONNX，無框架依賴）

💡 Claude 觸發詞 — 聽到這些話就知道該用 RapidOCR：
「OCR 這個圖」 / 「認字」 / 「掃描件轉文字」 / 「提取 PDF 文字」 / 「郵箱附件建索引」

範例調用（不用寫代碼）

Thomas：把 D:\Downloads-Inbox\Scaner\15042026.pdf OCR 成文字 Claude 會做： 1. pdf2image 把 PDF 拆成每頁一張圖 2. RapidOCR 逐頁識別文字 3. 輸出 15042026.txt 放在同目錄 4. 告訴你：共 N 頁，識別 M 個字

📊 為什麼選 RapidOCR 不選 PaddleOCR 原版

兩個識別準確度一樣，差在啟動速度和體積。

指標	RapidOCR	PaddleOCR 原版
啟動速度	0.3 秒	3-5 秒
安裝體積	約 50 MB	約 500 MB
依賴框架	純 ONNX Runtime	整套 PaddlePaddle
識別準確度	同模型	同模型
GPU 需求	CPU 已夠快	建議 GPU

🎙️ Faster-Whisper — 音頻轉文字

OpenAI Whisper 的 4 倍速版本（CTranslate2 量化）。會議錄音、手機錄音、YouTube 音軌通吃。

一句話功能

把 mp3/m4a/wav 任何音頻變成帶時間戳的逐字稿。中文普通話、粵語、英文都能識別。

包名

faster-whisper 1.2.1 + ctranslate2 4.7.1

裝於

2026-04-10

安裝位置

C:\Users\Administrator\AppData\Local\Programs\Python\Python313\Lib\site-packages\faster_whisper

已下載模型

● Systran/faster-whisper-small（244 MB，日常用）
● Systran/faster-whisper-tiny（39 MB，快速測試用）

麥克風設備

麦克风 (6- GRANDSTREAM GUV3100)
＝ USB 攝像頭自帶的麥

💡 Claude 觸發詞 — 聽到這些話就知道該用 Faster-Whisper：
「轉錄這段錄音」 / 「這個音頻講什麼」 / 「會議錄音整理文字」 / 「把 mp3 變逐字稿」

⚠️ 錄音規則（Thomas 2026-04-15 踩坑教訓）

Claude 不能「開始錄音」就默默後台錄，用戶沒感知會抓狂
錄音前必須先問：錄多久？要前台顯示嗎？
錄音過程中要有進度提示（例如倒數秒數）
錄完必須告知：檔案位置、時長、大小
詳見記憶條目 feedback_try_before_refuse

範例調用（不用寫代碼）

Thomas：轉錄 C:\Users\Administrator\tmp\錄音\meeting.mp3 Claude 會做： 1. 載入 faster-whisper-small 模型（int8 量化） 2. 自動偵測語言（通常是 zh） 3. 輸出 meeting.txt：[00:00-00:05] 今天開會討論... [00:05-00:12] 主要三個重點... 4. 問你要不要進一步摘要

❓ Thomas 常問的問題

Q1：這兩個工具要聯網嗎？

不用。兩個都是本機模型，完全離線。斷網也能跑。（Faster-Whisper 第一次下載模型要聯網，之後就不用了）

Q2：我直接用 Claude 的對話能 OCR 嗎？幹嘛還要這個？

Claude 對話的視覺只能看一張一張圖，而且不會落地成檔案。本機 RapidOCR 可以批量處理上百頁 PDF，直接產生可搜尋的 .txt，給全文索引用。

Q3：Whisper 能轉粵語嗎？

能。small 模型支援 99 種語言包含粵語（yue）。但粵語準確度比普通話略低，碰到口語化詞彙會用近似字。建議錄音清晰一點。

Q4：以後再加新工具怎麼辦？

Claude 每裝一個新技能，就在這頁多一張卡。這頁會持續更新。也可以叫 Claude「把 xxx 加進本機技能庫」。

Q5：這兩個工具筆記本也有嗎？

目前只裝在 ThomasDesktop（台式機）。筆記本需要時再裝，不會自動同步。因為模型檔案太大，不適合走 Git。

Claude 本機技能庫 ThomasDesktop

一句話功能

範例調用（不用寫代碼）

一句話功能

範例調用（不用寫代碼）

Q1：這兩個工具要聯網嗎？

Q2：我直接用 Claude 的對話能 OCR 嗎？幹嘛還要這個？

Q3：Whisper 能轉粵語嗎？

Q4：以後再加新工具怎麼辦？

Q5：這兩個工具筆記本也有嗎？