機械工業網 - 機械產業的入口網站

:::

當期雜誌

作者:程登湖、謝佳鴻、王昱健整合大型語言模型至機器人感知與組裝系統

本研究探討將大型語言模型，特別是多模態語言模型，整合至機器人感知系統的方法，藉由結合影像與語言輸入，實現情境理解與自主決策。透過將視覺編碼器處理的影像資料與自然語言輸入結合，系統進行情境推理和決策，並透過多種策略量化感知結果。此方法已應用於機器人螺絲緊固組裝任務，採用Gemma 3 4B模型整合視覺、力覺感知和控制模組，建構智慧組裝系統。實驗結果顯示，將多模態感知資訊與語言模型的推理能力相結合，可以使人工智慧有效地評估任務成功率並提供可信度評估，為智慧製造中的精密組裝提供了一種新穎的解決方案。