::: 前往中央內容區塊
:::

當期雜誌

購物提醒:當您要離開或跳轉頁面時,請先將您想要購買的文章加入購物車,以便快速紀錄完成購買流程!

整合大型語言模型至機器人感知與組裝系統

作者 程登湖謝佳鴻王昱健

刊登日期:2025/07/29

摘要

本研究探討將大型語言模型,特別是多模態語言模型,整合至機器人感知系統的方法,藉由結合影像與語言輸入,實現情境理解與自主決策。透過將視覺編碼器處理的影像資料與自然語言輸入結合,系統進行情境推理和決策,並透過多種策略量化感知結果。此方法已應用於機器人螺絲緊固組裝任務,採用Gemma 3 4B模型整合視覺、力覺感知和控制模組,建構智慧組裝系統。實驗結果顯示,將多模態感知資訊與語言模型的推理能力相結合,可以使人工智慧有效地評估任務成功率並提供可信度評估,為智慧製造中的精密組裝提供了一種新穎的解決方案。

Abstract

This study explores the integration of Large Language Model (LLM), particularly Multimodal Language Model (MLLM), into robotic perception systems to enable deep environmental understanding and autonomous decision-making. By combining image data processed by visual encoders with natural language input, the system performs situational reasoning and decision-making and quantifies perception results through various strategies. The proposed approach is applied to a robotic screw-fastening assembly task, using the Gemma 3 4B multimodal language model in conjunction with visual recognition, force sensing, and control modules to establish a complete intelligent assembly system. Experimental results show that integrating multimodal sensory information with the reasoning capabilities of the language model allows the AI to effectively assess task success and provide confidence estimations, offering a novel solution for precision assembly in smart manufacturing.

前言

在現代機器人技術中,賦予機器人深層感知與語言理解能力已成為關鍵挑戰。大型語言模型因其出色的語言推理能力,為機器人感知帶來新契機。透過整合大型語言模型於感知系統,機器人可處理結合語言與感知的多模態輸入,實現對環境的整體理解與自主決策。多模態大型語言模型或視覺-語言模型專為融合視覺與語言資訊而設計,使機器人能理解物理世界並生成相關行動。大型語言模型可依據任務情境,輸出高層次任務規劃、具體行動序列、狀態評估,或透過視覺問答回答圖像相關問題。模型會根據輸出與當前情境的契合度評分,選擇最適合的解。此外,整合大型語言模型的系統具備處理不確定性的能力。透過校準機制與情境強化數據,能調整模型預測機率以提升準確性;共形預測等方法則在統計上提供可信的預測集合,增強整體穩定性與可靠性[1]。

視覺辨識

本研究的影像辨識採用RealSense D435i與zed x mini兩種深度相機配置,透過YOLO (You Only Look Once) v8物件檢測進行目標辨識,分別使用了200張不同角度的螺絲與洞孔的圖片進行訓練,單一工件辨識率達95%以上,多工件目標辨識率達85%以上。並搭配粒子濾波器(particle filter)來預測標目標物位置,可以有效解決組裝過程視覺可能被遮擋的問題。

「如欲訂購單篇,請至 「華藝線上圖書館」
回文章內容列表

更完整的內容歡迎訂購 2025年08月號 (單篇費用:參考材化所定價)

3篇450元

NT$450
訂閱送出

10篇1200元

NT$1,200
訂閱送出