前往中央內容區塊 :::
:::

歷史雜誌

購物提醒:當您要離開或跳轉頁面時,請先將您想要購買的文章加入購物車,以便快速紀錄完成購買流程!

端到端自動駕駛的機會與挑戰

作者 沈怡如

任職單位: 工研院產科國際所

刊登日期:2025/12/29

摘要

端到端自動駕駛(End-to-End Autonomous Driving)正在成為智慧車輛產業的重要發展方向,相較於傳統的模組化架構,端到端技術以單一深度神經網路串聯感知、決策與控制流程,可透過大數據訓練實現自我學習、降低軟體開發複雜度並提升整體運行效率,使車輛能以人類駕駛邏輯學習行為決策。目前採用此架構開發的車廠或技術供應商如Tesla、小鵬汽車、Wayve 等。在算力與多模態數據快速增長的驅動下,該模式展現出更高的泛化能力與可擴展性,也為自動駕駛演算法的研發帶來新契機。

Abstract

End-to-end autonomous driving is becoming a key development direction in the smart vehicle industry. Compared to traditional modular architectures, end-to-end technology utilizes a single deep neural network to connect perception, decision-making, and control processes. This technology enables self-learning through big data training, reduces software development complexity, and improves overall operational efficiency, enabling vehicles to learn behavioral decisions based on human driving logic. Carmakers and technology providers currently developing with this architecture include Tesla, Xpeng Motors and Wayve. Driven by the rapid growth of computing power and multimodal data, this model demonstrates greater generalization and scalability, creating new opportunities for the development of autonomous driving algorithms.

前言

傳統的自動駕駛系統普遍採用模組化架構,典型的模組化架構將複雜的駕駛任務拆分為一系列獨立的功能模組,一般包含感知、預測、決策、控制等核心模組。感知模組利用攝影機、雷達、光達等感測器收集的原始數據,來辨識和分類周圍環境中的物體,例如車輛、行人、交通號誌、車道線等。完成物體辨識後,預測模組會根據這些物體的當前狀態(如位置、速度、方向)來預測它們未來的運動軌跡;再經由決策模組來制定車輛的駕駛決策,包含路徑規劃、行為決策等。最後則由控制模組將指令轉換為具體的車輛控制命令,如轉向角度、油門深度和煞車力度,進而驅動車輛運動。

每個模組各自開發、測試,最後再串聯起來。這種架構的優點是可控性高、容易追蹤問題來源,因此在安全與法規驗證上相對成熟。但缺點是各模組之間需要大量人工調整與介面設計,系統整合複雜,難以快速學習或適應突發情境。

然而,隨著自動駕駛技術往高等級自動化發展,傳統模組化架構開始面臨瓶頸。包含誤差的累積、目標優化及長尾效應問題。在序列化的處理過程中,前端發生的微小誤差會被一層一層的傳遞至後端,並且可能被放大,累積誤差產生的效應對整體系統帶來影響。此外,各個模組通常針對不同的目標進行優化,例如感知模組追求平均精確度,但是決策模組希望實現安全性與舒適性;對於最終的駕駛表現不見得能達到全系統最佳化。現實世界的交通情境極為複雜,系統開發者無法透過窮舉的方式處理到每一個邊角案例(Corner case),表 1 為傳統模組化與端到端架構的比較。

端到端自動駕駛

在端到端系統中,攝影機影像、雷達回波和光達點雲等原始數據,直接輸入至一個龐大的神經網路;這個網路透過深度學習,自動從海量數據中學習駕駛所需的複雜模式和規律。網路的輸出不再是關於環境的抽象描述,而是直接的車輛控制命令。端到端並非全新的概念,其歷史可追溯到 1988 年的 ALVINN(Autonomous Land Vehicle In a Neural Network)自動駕駛研究專案 [1],使用一個簡單的三層神經網路,直接將攝影機的低解析度影像映射到方向盤的轉向指令,成功地讓車輛在道路上行駛。雖然處於非常基礎的階段,但是證明了透過神經網路學習駕駛任務的技術可行性。

端到端的核心在於「資料驅動」。系統會從大量真實駕駛數據中學習人類駕駛行為,理解道路結構、交通規則與其他用路者的互動邏輯。當模型訓練完成後,才能在未曾遇過的環境中進行推理,展現出類似人類的即時判斷與適應能力。近年來,隨著深度學習技術的突破、算力的指數級增長以及大規模駕駛數據資料庫的出現,端到端才真正展現其技術潛力。

模型訓練的方法在實際應用上,會結合模仿學習(Imitation Learning)和強化學習(Reinforcement Learning)兩種技術路徑。

1. 模仿學習

人工智慧(Artificial Intelligence, AI)透過觀察大量「人類專家駕駛」的行為來學習。當人類駕駛在各種情境下轉向、加速、減速時,系統會記錄感測輸入(影像、雷達、地圖資訊)與駕駛輸出(方向盤角度、油門、煞車),再由神經網路學習這種「感知與行為」的對應關係,例如看到紅燈則停車、前方有行人靠近應該減速,這些類似人類駕駛的直覺反應。

模仿學習的優勢在於,人類駕駛的數據豐富且易於取得,開發者可以透過量產車隊蒐集、測試車記錄或是駕駛模擬平台獲取駕駛數據,且無須花費多餘成本進行數據的人工標註。模仿學習使 AI 駕駛的行為更符合使用者預期的「人性化感受」,對於自駕計程車或是高階駕駛輔助的商業化十分重要。但相對的,由於模型會無差別的學習人類駕駛,因此無論是好習慣或是壞習慣都會被納入訓練。此外,當車輛遇到的情境與訓練數據不一致時,模型表現可能失準,例如未發生過的突發事件、標線模糊或是駕駛者失誤行為等。

2. 強化學習

強化學習是一種更接近生物學習方式的方法,模型(或稱代理,Agent)在一個環境中透過不斷試錯(Trial and error)來學習。在端到端自動駕駛中,強化學習著重行為優化及策略探索,AI 代理在虛擬駕駛環境中不斷執行動作,如轉向、加速、煞車,並根據環境回饋獲得「獎勵(Reward)」或「懲罰(Penalty)」。經由反覆迭代,模型會學習到如何最大化長期回報,例如安全到達目的地、最小化煞車次數或避免碰撞。

強化學習允許 AI 在未定義的交通情境中主動探索行為,而非被動模仿人類,在模擬中,AI 能嘗試千萬種駕駛策略,學會如何在邊角案例中作出最安全的決策;對於未經歷的交通情境具有更強的適應能力。由於在真實世界中試錯的訓練成本極高且極為危險,因此強化學習高度依賴高擬真的模擬環境,且訓練過程計算量龐大,對於算力平台的要求也非常高。如何設計正確的獎勵函數是強化學習最大的挑戰,若獎勵設計不當,很可能導致系統為了追求短期獎勵而採取一些意想不到的危險行為。

端到端自動駕駛的核心目標,是讓 AI 能從感測輸入直接學得控制策略,並能在各種情境下安全且穩定的行駛;要達到這個目標,單一學習方法往往無法兼顧穩定性與泛化性。因此,多數企業與研究機構採用模仿學習加上強化學習的混合式架構,讓 AI 同時具備人類經驗的駕駛智慧與自我探索的學習能力。兩種技術路徑各有其優劣勢,結合這兩種方法的混合架構,達到技術互補之作用,提升模型的泛化能力和穩定性,成為端到端自動駕駛技術的重要發展方向。

DOI:10.30256/JIM.202601_(514).0009

 

「如欲訂購單篇,請至 「華藝線上圖書館」

更完整的內容歡迎訂購 2026年01月號 (單篇費用:參考材化所定價)

3篇450元

NT$450
訂閱送出

10篇1200元

NT$1,200
訂閱送出