- 回首頁
- 機械工業雜誌
- 歷史雜誌
歷史雜誌
購物提醒:當您要離開或跳轉頁面時,請先將您想要購買的文章加入購物車,以便快速紀錄完成購買流程!
摘要
隨著人工智慧(AI)領域的技術發展,生成式人工智慧(Generative Artificial Intelligence, GAI)已成為嶄新且突破的技術,其以自然語言作為輸入,可生成文字、圖片或其他媒體作為回應,此種生成性能令GAI的應用蔚為風潮。而除了日常生活中可做為助理或客服使用外,GAI亦逐漸被應用至工業領域,用以強化效率、提升產能以及降低專業門檻等,用途範圍廣闊。本文將針對GAI之發展、關聯技術作概括說明,並介紹工業領域上的應用發展。
Abstract
With the advancement of artificial intelligence (AI) technology, generative artificial intelligence (GAI) has emerged as an innovative and groundbreaking technology. By using natural language as input, GAI models can generate text, images, or other forms of data as responses. Its powerful generative capabilities have fueled a surge in applications, making GAI a widespread trend. In addition to working as a virtual assistant or customer service agent in daily life, GAI is increasingly being used in industry to improve efficiency, increase productivity, and lower the barriers to specialized expertise. Its application range covers a wide range of industries. In this article, an overview of the development of GAI and its related technologies will be introduced, and then its applications in the industry will be provided.
前言
生成式人工智慧,即Generative artificial intelligence (GAI),可謂是當前世代走在潮流尖端的人工智慧(Artificial intelligence, AI)技術,繼機器學習(Machine learning)、深度學習(Deep learning)的研究發展,GAI的生成能力令此研究領域更向前一大步,也改變大眾的生活與工作型態。
與GAI相比,較早以前的AI模型大多圍繞在分類能力,而後藉由卷積神經網路(
Convolutional Neural Network, CNN)技術的發展,逐步擴展至影像辨識領域,例如LeNet[1]的手寫數字辨識,可謂是此領域的先驅;而AlexNet [2]、VGGNet [3]等經典CNN模型,讓AI研究進入到圖像辨識的範疇,自此之後技術發展蓬勃,例如YOLO [4]可偵測多物件,U-Net [5]適合應用於醫學影像分割,而Mask R-CNN [6]模型則可框選並標記物件輪廓,如
圖1所示。
除了視覺之外,另一個重要的感官資訊則為“聽覺”,在聲音訊號處理中,語音辨識(Speech recognition)對人類來說極為重要,亦屬於自然語言處理(Natural language processing, NLP)的研究範疇。由1950年代貝爾實驗室開發的Audrey系統作為先鋒,而後於1970年代的隱藏式馬可夫模型(Hidden Markov model, HMM) [7, 8]奠定了此領域的基礎,直到深度學習崛起後,遞迴式神經網路(Recurrent neural network, RNN) [9]、長短期記憶網路(Long Short-Term Memory, LSTM) [10]等亦用於語音處理上,提升機器的語音轉換文字(Speech-to-Text, STT)能力,現今則進展至Transformer模型在語音處理上的應用[11],所有的研究成果構築出自動語音識別(Automatic speech recognition)的前端技術,例如Whisper [12, 13]、Google Assistant [14]、Apple Siri [15]等皆具此類技術。此外,NLP中的自然語言理解(Natural language understanding, NLU)亦與前述之技術同等重要,主要用以令機器理解並解釋人類語言,此領域長久以來都極具挑戰性,原因在於人類語言具備多樣性、歧義性及上下文關聯性,導致同一種意思有多樣的表達方式,而同一種表達則又可以解讀成多種含義;在深度學習時代,RNN、LSTM等技術亦應用於此領域,而後基於Transformer架構的深度學習模型,如Devlin等人[16]發表的BERT、OpenAI的ChatGPT [17, 18]模型,在此領域產生革命性影響。
隨著各個大型企業、學術界以及民間的AI研發與使用熱潮,造就當前的GAI新時代,多種模型已具備回應人類需求進而創造的能力,大型語言模型(Large language model, LLM)如OpenAI ChatGPT、Meta Llama [19]以及Google Gemini [20]等,都具備以自然語言形式與使用者互動的能力,且用途廣泛。而在影像方面,則進展至圖像生成的模型架構,如前所述,圖像相關的發展由分類逐步發展至辨識及標記功能,此外亦朝向影像填補(Inpainting) [21]、風格轉換[22]等與生成概念接近的應用發展,而隨著生成式對抗網路(Generative adversarial networks, GANs) [23]的發表,乃至於Stable diffusion模型[24]的問世,圖像生成無疑地進入全新時代,使用者可透過文字描述,令機器產生完整的圖片。截至目前為止,這些高性能的模型亦能互相串聯,或是藉由技術上的結合,達到多模態(Multimodal) AI模型應用,例如支援輸入圖片轉換成文字描述,機器與使用者之間使用語音對話等功能,令GAI的用途更加廣泛、更具彈性。
目前GAI技術應用在工業領域的可能性亦逐漸增加,當前較具應用性的方面大致分成幾個層面:智慧製造(Smart Manufacturing)、品質檢測、預測性維護、參數設計與優化等,智慧製造著重於提升產線和機械設備的智慧化,令整體的操作和調整可以更快速、精確,以應對變化更快速的生產週期;品質檢測則是運用AI的識別和判斷功能,用以線上檢測產品品質,且可透過GAI之生成能力強化AI模型的判斷性能;預測性維護的應用是透過歷史資料的蒐集,讓模型推測潛在故障或問題,進而提早維護,減低生產中斷之風險;最後,參數設計與優化為透過GAI模仿與生成,協助設計者在專業領域的參數調整或建模設計,或是提供新方案,以提升開發或測試的效率。本文將介紹當前GAI的發展、關聯技術以及在工業上的應用潛力,並於文末總結。
更完整的內容歡迎訂購
2025年05月號
(單篇費用:參考材化所定價)