TOEIC 分數解碼:10-990 與 0-200 到底代表什麼
如果你曾經看著 TOEIC 成績單,納悶為什麼 Listening 與 Reading 用 10-990 的尺度報告,而 Speaking 與 Writing 各自用 0-200,你不孤單。這兩套尺度不是隨便訂的——它們反映了不同的測驗型態、不同的統計模型、不同的用途——但卻落在同一張成績單上,常讓期待看到單一統整數字的考生困惑。
本篇將帶你走過兩套尺度,說明原始答對題數如何轉換成量尺分數,並解碼成績單上的其他要素:測量標準誤(SEM)、Abilities Measured 百分比、證書顏色等級,以及 Speaking 證書上的 Pronunciation 與 Intonation 描述詞。
兩個測驗,兩套尺度
TOEIC 不是一個測驗,而是兩個獨立的能力評量:
- TOEIC Listening & Reading(L&R):兩小時的選擇題測驗,聽力 100 題、閱讀 100 題,計分 10-990。
- TOEIC Speaking & Writing(S&W):約 80 分鐘的表現型測驗,11 題口說任務、8 題寫作任務,各半分別計分 0-200。
考生可以獨立報考任一半。許多企業界的考生只考 L&R;需要展示產出性技能的學術或專業考生,則另外報考 S&W。兩個測驗是在相隔數年、為不同用途而設計,而 ETS 選擇保留各自的歷史尺度,而非強行統一成同一個分數。
為什麼 L&R 是 10-990?
10-990 的尺度可追溯到 1979 年最初的 TOEIC 測驗,這樣選擇是為了避免看起來像「百分比」。每個部分(Listening、Reading)各自以 5-495、每級 5 分的方式獨立量尺化,兩個部分相加為總分。沒有人會拿 0 分,因為即使用猜的,量尺分數也不會是 0。
為什麼 S&W 是 0-200?
S&W 測驗於 2006-2007 年推出,採用了不同的計分哲學。作答由真人評分,題數較少,因此 0-200 的尺度以 10 分為級距,反映的是評分員判斷的粒度,而非選擇題的等化計算。兩套尺度被刻意分開,因為把它們平均會掩蓋背後差異極大的證據。
量尺分數怎麼來的:等化(Equating)的故事
你的原始分數——答對的題數——並不是成績單上顯示的數字。ETS 會套用一個稱為**等化(equating)**的統計流程,調整不同測驗版本之間的微小難度差異。
假設版本 A 的閱讀比版本 B 稍微簡單一點。如果只用原始答對題數計分,考版本 A 的考生會佔到不公平的便宜。等化解決這個問題的方法是:把各版本的原始分數對映到同一套共通的尺度,使得閱讀量尺分數比如說 400,代表的能力不會因為你考哪個版本而改變。
這就是為什麼:
- **原始分數永遠不會出現在報告上。**你不會在成績單上看到「100 題對 87 題」。
- 同樣的答對題數,在不同場次可能得到不同的量尺分數。
- **尺度長期穩定。**2020 年的 750 和 2026 年的 750 代表相同的英文程度,即使考題與考生母體都不同。
L&R 使用 Item Response Theory(IRT,試題反應理論)做等化,兩個部分的 KR-20 信度係數大約都在 0.90 以上——意思是同一位考生考不同的平行版本時,結果會相當一致。
測量標準誤:為什麼你的「真分數」會跳動
沒有任何測驗——不論 TOEIC、TOEFL、IELTS——能報告絕對精確的能力值。每個量尺分數都帶有測量標準誤(standard error of measurement, SEM),量化數字周圍的雜訊大小。
TOEIC L&R 的 SEM 大約是每部分 ±25 量尺分。這表示如果你的 Listening 分數報告為 400,你的「真分數」(你在無限多次施測中的平均分)約有 68% 的機率落在 375-425 之間,約 95% 的機率落在 350-450 之間。
SEM 在實務上的意義
如果你今天考 700,下個月再考一次考 720,那 20 分的進步幾乎一定是測量雜訊,不是真的進步。比較兩次施測時使用的差異標準誤(SE_diff),在 L&R 總分上大約是 ±35 分。一個粗略的判讀準則:
| 觀察到的分數變化 | 解讀 |
|---|---|
| 0-20 分 | 很可能是雜訊,能力沒有實質變化 |
| 20-40 分 | 曖昧;可能是雜訊,也可能是小幅進步 |
| 40+ 分 | 很可能是真實的能力改變 |
| 70+ 分 | 大幅且幾乎一定是真實的進步 |
這也是為什麼企業招募門檻通常會要求考生以舒適的安全邊際達到目標分數。一家要求「最低 700」的公司,知道 695 和 705 在統計上無法區別,因此許多 HR 部門的內部門檻會設在公告最低分之上 30-50 分。
S&W 的 SEM
S&W 分數以 10 分為級距報告,因為背後的測量精度不支持更細的區分。Speaking 140 分與 150 分代表真的不同的表現等級;Speaking 143 分在統計上沒有意義,所以 ETS 不會報告到那個粒度。
TOEIC L&R 分數帶與意義
以下是 L&R 總分常被引用的解讀,來自 ETS 的能力描述詞與企業使用指南:
| 總分 | CEFR(約略) | 實用英文能力 |
|---|---|---|
| 905-990 | C1-C2 | 接近母語人士的職場水準;能應付複雜談判、細膩的書面溝通、技術性討論 |
| 785-900 | B2-C1 | 堅實的職場水準;能自信參與會議、撰寫專業 email、理解多數商務內容 |
| 605-780 | B1-B2 | 可用的職場水準;能處理例行職場互動與標準書信,偶爾有理解落差 |
| 405-600 | A2-B1 | 有限的職場水準;能表達基本需求、跟隨簡單指示,抽象或技術性主題有困難 |
| 255-400 | A2 | 初級水準;只能處理高度可預測的對話 |
| 10-250 | A1 | 基礎公式化英文;理解與產出僅達片語層級 |
這些範圍是參考指引,不是合約性的門檻。許多雇主會根據職務功能公告自己的門檻(例如:客服 600、國際業務 750、主管職 850)。
L&R 證書的顏色等級
考 TOEIC L&R 的考生會收到一張證書,上面有對應分數帶的顏色代碼。常見的等級結構如下:
| 顏色 | 分數範圍 | 能力摘要 |
|---|---|---|
| Gold | 860-990 | 能自信處理多數工作情境 |
| Blue | 730-855 | 能滿足社交與職場溝通需求 |
| Green | 470-725 | 能進行清楚的基礎對話 |
| Brown | 220-465 | 能處理有限的例行交流 |
| Orange | 10-215 | 僅有基礎公式化英文 |
這些門檻被廣泛引用,但各地區可能略有不同。每個 ETS Preferred Network(EPN,各市場的國家級施測單位)對證書呈現有一定裁量權,部分國家的等級邊界會有小幅差異。如果某個門檻對你很重要(例如招募主管要求「Gold 等級」),請向當地 EPN 確認確切數字。
Abilities Measured 能力分析
每份 L&R 成績單都包含 Abilities Measured 區塊,報告你在每個部分五個能力面向的答對百分比。這是真正有用的診斷資訊——比單一量尺分數更可操作。
Listening Abilities Measured
- 能根據短篇口語文本明確陳述的資訊,推論主旨、目的與基本情境(Parts 1-2 的範疇)。
- 能根據長篇口語文本明確陳述的資訊,推論主旨、目的與基本情境(Parts 3-4 的主旨題)。
- 能理解短篇口語文本的細節(Part 2 的細節題、Part 1 的照片細節)。
- 能理解長篇口語文本的細節(Parts 3-4 的細節題)。
- 能理解說話者的目的或隱含意義(語用理解;意圖、語氣、間接說法)。
Reading Abilities Measured
- 能在表格與文章中定位並理解特定資訊(Parts 5-7 的掃讀任務)。
- 能連結單一文本中跨句子、以及跨多篇文本的資訊(Parts 6-7 跨文本組合題的推論)。
- 能根據書面文本中的資訊做推論(Part 7 的隱含意義)。
- 能理解職場文本中的字彙(Part 5 的字彙題)。
- 能理解職場文本中的文法(Part 5 的文法題)。
用 Abilities Measured 指導讀書
如果你的 Listening 總分是 350,但細項顯示細節題 85%、語用/隱含意義只有 40%,你就知道該把練習火力集中在哪裡。多數考生進步最快的方法是針對最弱的能力面向集中練習,而不是做一般的完整模擬考。
TOEIC S&W 分數帶與描述詞
Speaking 與 Writing 各自跑 0-200 的尺度,以 10 分為級距。每一半有自己的能力描述詞帶。
Speaking 能力帶
Speaking 有 11 題。Task 1-10 各 0-3 分,Task 11 是 0-5 分,最高原始分 40 分,再換算到 0-200 尺度。ETS 公布 8 個能力描述帶:
| 量尺分數 | 能力等級 |
|---|---|
| 190-200 | 高度精熟;細膩的意見、複雜句法、接近母語的表達 |
| 160-180 | 精熟;意見與推理清楚,發音或文法略有瑕疵 |
| 130-150 | 有效溝通;整體可理解,有些遲疑且表達範圍受限 |
| 110-120 | 可用水準;在可預測情境可被理解,常有停頓 |
| 80-100 | 有限;短片語為主,仰賴公式化語言 |
| 60-70 | 基礎;難以跟上,字彙嚴重不足 |
| 40-50 | 極低;僅能說出單字與背誦片語 |
| 0-30 | 無法在口語英文中有意義地溝通 |
Writing 能力帶
Writing 有 8 題。Q1-5 各 0-3 分,Q6-7 各 0-4 分,Q8 是 0-5 分,同樣換算到 0-200 尺度。ETS 公布 9 個能力描述帶:
| 量尺分數 | 能力等級 |
|---|---|
| 200 | 精熟大師級;精緻、組織完整、錯誤極少 |
| 170-190 | 高度精熟;延伸性的意見加上強力支持論點 |
| 140-160 | 精熟;連貫的意見,偶爾有錯誤 |
| 110-130 | 有效溝通;清楚的基礎表達,表達範圍有限 |
| 90-100 | 可用水準;簡單句,錯誤頻繁 |
| 70-80 | 有限;想法零散,文法問題嚴重 |
| 50-60 | 極低;僅能寫出片語層級 |
| 40 | 前功能級;勉強可辨識 |
| 0-30 | 無法產出有意義的英文寫作 |
Speaking 證書上的 Pronunciation 與 Intonation
TOEIC Speaking 證書一個獨特的特徵是,上面會列出兩個子描述詞,不以數字呈現,而是三個等級:
- Pronunciation(發音):Low / Medium / High
- Intonation and Stress(語調與重音):Low / Medium / High
這些標籤反映評分員對你語音清晰度(子音、母音、單字重音)與句子層級 prosody(節奏、音高輪廓、重音位置)自然度的判斷。
一個 Speaking 150 分的考生,可能會拿到:
- Pronunciation: Medium
- Intonation: Medium
180+ 的考生幾乎一定兩項都是 High,而 110 以下的考生通常至少有一項是 Low。
部分雇主——尤其是客戶端或國際溝通類職位——會特別看這兩個描述詞。160 分 + 「High / High」的考生,有時會比 170 分 + 「Medium / Low」的考生更受青睞,因為就工作而言,讓人聽得懂往往比字彙廣度更關鍵。
S&W 分數怎麼產生
與 L&R 不同,S&W 的作答由經認證的 ETS 評分員透過 Online Network for Evaluation(ONE)評分。每一份回答通常由多位評分員評分,有落差時由仲裁解決。Speaking 評分標準涵蓋發音、語調與重音、文法、字彙、連貫性、內容切題度;Writing 評分標準涵蓋文法、字彙、組織、切題度、任務完成度——並依題型以不同方式套用。評分員的分數加總後,透過定期更新的對照表換算到 0-200 尺度,以維持尺度穩定性。
百分位排名:你在全球的位置
成績單上也會顯示百分位排名——全球考生中分數等於或低於你的百分比。ETS 每年 5 月以滾動的三年考生母體更新這些表。粗略參考:990 位於 99+ 百分位、900 約 90、800 約 75、700 約 55、500 約 20。百分位在競爭性選拔(獎學金、國際招聘池)上有意義,但不會改變雇主的絕對門檻。
看成績單的實用檢查清單
拿到 TOEIC 成績單時,依下列順序看:
- 總分——跟你的目標與 SEM 比較。你超過門檻的幅度是否超過 ±25?
- 各部分分數——是否其中一部分拖另一部分後腿?如果是,下一輪備考就該聚焦那裡。
- Abilities Measured 百分比——從十個能力面向(聽力 5 個、閱讀 5 個)找出最弱的兩個。這是你槓桿最大的讀書目標。
- (僅 S&W)能力描述詞——讀你那個分數帶的完整段落描述,不是只看數字。描述詞會告訴你該培養哪些具體行為才能往上跳。
- (僅 S&W)Pronunciation / Intonation 標籤——如果其中任何一項是「Low」,針對性的語音與 prosody 練習,會比一般口說練習更快帶來可見的進步。
- 百分位排名——只有在你處於競爭性選拔情境時才相關。否則專注在絕對分數就好。
常見誤解
「我的 Listening Abilities 項目是 87%,所以我的 Listening 分數應該是 870。」 錯。Abilities Measured 百分比是診斷類別百分比,不是量尺分數的計算基礎。你的量尺分數反映的是整份測驗、經過等化的 IRT 模型跨全部題目的結果,還要依題目難度加權。
「我考 720,朋友考 740——她英文比較好。」 在 ±35 的範圍內,這些分數在統計上無法區別。720 和 740 對實務而言是同一個分數。只有約 70+ 分的落差,才能穩定反映真實的能力差異。
「我要以跳到下一個顏色等級為目標。」 這是個激勵性目標,但等級邊界是離散的,而能力是連續的。855(Blue 頂端)和 860(Gold 起點)在功能上完全相同。在邊界上不要過度看重顏色。
重點整理
TOEIC 使用兩套不同尺度,是因為它本來就是兩個不同的測驗,在不同時期為不同目的建立。兩套尺度都經過嚴謹等化、信度合理,並附有豐富的診斷資訊——前提是你懂得怎麼讀。TOEIC 考生能養成最重要的一個習慣,就是不要一眼只看總分,而是直接翻到 Abilities Measured 分析(L&R)或能力描述詞段落(S&W)。那裡才是可操作的資訊所在。
理解 SEM,設定目標時把 ±25 考慮進去,不要追逐兩次施測間 10 分的波動——那是雜訊。追求每輪備考 40-70 分的有意義成長,針對拖你後腿的具體能力面向練習,而不是做無差別的完整模擬考。
準備好讓分數真的動起來了嗎? ExamRift 提供完整的 TOEIC L&R 適性模擬測驗,附各能力面向的診斷——你可以清楚看到聽力與閱讀五個面向中哪些正在扣你分,並練習針對性題組,處理最弱的區塊。每次練習都附 AI 生成的字彙、功能句與解析補充,讓每題都成為集中火力的學習時刻。今天就開始免費練習,看看自己真正的實力在哪裡。