往期回顧

約翰霍普金斯大學(xué)為國(guó)防部和情報(bào)部門開發(fā)機(jī)密版本的人工智能兵棋工具！

美國(guó)軍方正在探索如何使用人工智能模型來(lái)支持兵棋推演，例如空軍兵棋推演研究所 2023 年的這場(chǎng)推演。

美國(guó)國(guó)防部(DOD)下屬的國(guó)防創(chuàng)新部門 (DIU ) 正在領(lǐng)導(dǎo)一項(xiàng)名為雷霆（鍛造Thunderforge ）的實(shí)驗(yàn)項(xiàng)目，旨在構(gòu)建一個(gè)定制的代理 AI系統(tǒng)，其中有多個(gè)數(shù)字“代理”可以批評(píng)不同軍事領(lǐng)域的戰(zhàn)爭(zhēng)計(jì)劃、運(yùn)行并行分析并標(biāo)記被人類規(guī)劃人員忽視的潛在弱點(diǎn)。

美國(guó)印太司令部（INDOPACOM）在6月份的桌面推演中測(cè)試了Thunderforge的部分人工智能功能。該項(xiàng)目于3月份首次宣布，目前仍處于早期階段，初步目標(biāo)是印太司令部及其歐洲同層級(jí)司令部（EUCOM）的指揮官和規(guī)劃人員。最終，該系統(tǒng)將查詢內(nèi)部數(shù)據(jù)庫(kù)，運(yùn)行國(guó)防部級(jí)模擬，并與現(xiàn)有軟件（例如DARPA的SAFE-SiM建模和仿真架構(gòu)）集成，以創(chuàng)建大量真實(shí)可信的軍事場(chǎng)景供研究。

總部位于加州的Scale AI負(fù)責(zé)指導(dǎo)該項(xiàng)目，微軟提供其大型語(yǔ)言模型 (LLM) 技術(shù)，Anduril提供建模。Scale AI 表示，其系統(tǒng)旨在協(xié)調(diào)多個(gè)自定義代理，每個(gè)代理都利用一系列模型，并充當(dāng)數(shù)字參謀，幫助整合關(guān)鍵任務(wù)規(guī)劃活動(dòng)的數(shù)據(jù)。

Scale AI 公共部門負(fù)責(zé)人Dan Tadross表示：“這些智能體能夠動(dòng)態(tài)協(xié)作，將單獨(dú)的分析融合成一個(gè)更全面的視圖，供作戰(zhàn)規(guī)劃人員參考。這種方法旨在將運(yùn)營(yíng)商的角色從'人在環(huán)內(nèi)’（微觀管理單個(gè)流程）轉(zhuǎn)變?yōu)?人在環(huán)上’，使他們能夠?qū)?zhàn)略判斷應(yīng)用于生成的選項(xiàng)?！?/span>

增強(qiáng)軍事規(guī)劃中的人工智能

DIU 將 Thunderforge 的開發(fā)分為兩個(gè)方向，首先是通過紅隊(duì)演練增強(qiáng)認(rèn)知計(jì)劃編寫流程。該系統(tǒng)將向AI 代理團(tuán)隊(duì)提交一份人工編寫的計(jì)劃，以提供涵蓋多個(gè)領(lǐng)域（包括后勤、情報(bào)以及網(wǎng)絡(luò)和信息作戰(zhàn)）的視角。DIU首席 AI 策略師Bryce Goodman表示：“你完全可以根據(jù)自己的需求進(jìn)行定制。”

第二條軌道將與國(guó)防部最先進(jìn)的建模軟件連接，進(jìn)行建模模擬，生成和分析輸出，并解釋結(jié)果。即使對(duì)于人類來(lái)說(shuō)，構(gòu)建模擬并理解原始結(jié)果也需要大量的專業(yè)技能培訓(xùn)。古德曼表示：“這真正強(qiáng)大的地方在于，現(xiàn)在LLM正在調(diào)用國(guó)防部已經(jīng)構(gòu)建和驗(yàn)證的工具，突然之間，你就將人工智能的粗暴模式識(shí)別與基于物理的模擬或其他執(zhí)行類似任務(wù)的邏輯推理工具結(jié)合起來(lái)。它為所有這些能力搭建了框架?！?/span>

隨著第一階段的推進(jìn)，國(guó)防情報(bào)局（DIU）已經(jīng)開發(fā)出一款最低可行產(chǎn)品，盡管它需要與機(jī)密數(shù)據(jù)系統(tǒng)和獨(dú)立的政府合作伙伴進(jìn)行更深入的整合。古德曼表示，隨著“管道”的建設(shè)，他的團(tuán)隊(duì)希望在今年年底前讓系統(tǒng)驗(yàn)證現(xiàn)有場(chǎng)景，然后在2026年的某個(gè)時(shí)候從頭開始編寫場(chǎng)景。

“兩面神”系統(tǒng)是勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室于 20 世紀(jì) 70 年代開發(fā)的沖突模擬模型。

人工智能在沖突模擬中的作用

沖突模擬長(zhǎng)期以來(lái)一直是作戰(zhàn)規(guī)劃和訓(xùn)練的固定內(nèi)容，兵棋推演參與者在沙盤上繪制戰(zhàn)場(chǎng)動(dòng)向。20世紀(jì)70年代，勞倫斯利弗莫爾國(guó)家實(shí)驗(yàn)室推出了兩面神（Janus），這是世界上第一個(gè)近乎實(shí)時(shí)運(yùn)行的玩家互動(dòng)式戰(zhàn)斗模擬器。它是美國(guó)1989年入侵巴拿馬以及后來(lái)的“沙漠風(fēng)暴”行動(dòng)的關(guān)鍵規(guī)劃工具。

蘭德公司兵棋中心主任、政治學(xué)家斯蒂芬·沃曼表示，如今的代理人工智能技術(shù)在自主、多流數(shù)據(jù)處理方面更上一層樓。蘭德公司兵棋中心專門為美國(guó)軍方提供兵棋推演和戰(zhàn)略模擬服務(wù)?！斑@些能力可以提高態(tài)勢(shì)感知能力，加快威脅建模迭代，并簡(jiǎn)化補(bǔ)給或部署前的規(guī)劃?！?/span>

“話雖如此，但其負(fù)面影響值得謹(jǐn)慎，”沃曼補(bǔ)充道，并引用了佐治亞理工學(xué)院專攻網(wǎng)絡(luò)安全、隱私和國(guó)際事務(wù)的副教授喬恩·林賽在《德克薩斯國(guó)家安全評(píng)論》上發(fā)表的一篇論文?！八麖?qiáng)調(diào)，人工智能在結(jié)構(gòu)化、有界限、低風(fēng)險(xiǎn)且處理常規(guī)數(shù)據(jù)的領(lǐng)域表現(xiàn)出色，但軍事行動(dòng)往往是混亂、無(wú)序且罕見的事件，”沃曼說(shuō)?！罢_行事至關(guān)重要，失敗可能帶來(lái)災(zāi)難性的后果?！?/span>

沃曼說(shuō)，如果沒有正式的框架來(lái)解釋人工智能代理為何做出決策或?qū)ζ渫评淼男湃纬潭?，由此產(chǎn)生的不透明性就會(huì)產(chǎn)生一種虛假的精確感，他補(bǔ)充道，“代理在大多數(shù)情況下可能表現(xiàn)得合理，但它可能只是放大了偏見或利用了底層模型中的缺陷。”

古德曼承認(rèn)該項(xiàng)目面臨著重大的研究挑戰(zhàn)。LLM有時(shí)會(huì)自信地憑空想象出答案。一位LLM可能會(huì)提出一個(gè)令人信服的計(jì)劃，但仔細(xì)推敲，就會(huì)發(fā)現(xiàn)它會(huì)讓一艘軍艦橫掃澳大利亞。古德曼指出，這種成果看似經(jīng)過深思熟慮，但當(dāng)你仔細(xì)探究其背后的推理，卻發(fā)現(xiàn)它缺乏真正的邏輯連貫性時(shí)，你就會(huì)發(fā)現(xiàn)它并非如此。

“我的基本假設(shè)是，LLM 會(huì)產(chǎn)生幻覺，存在缺陷且不透明，而我們無(wú)法理解它們所有的失敗模式，”Goodman 說(shuō)。“這就是為什么我們更注重理解用戶的情境。如果我生成輸出的目的是為了激發(fā)我的思考，而不是為了得到最終成品，那么幻覺就不那么令人擔(dān)憂了。這就是為什么我們首先要批判人類的計(jì)劃?！?/span>

通過允許代理調(diào)用外部工具，也可以減少幻覺。例如，AI代理無(wú)需猜測(cè)某個(gè)區(qū)域內(nèi)可部署多少輛坦克，而是查詢數(shù)據(jù)庫(kù)以獲取最新信息。

Scale AI 引用了額外的代理保障措施，例如追蹤真正的可解釋性，這使得操作員能夠看到得出結(jié)論的具體證據(jù)鏈和推理過程。Tadross表示：“在代理部署之前，持續(xù)進(jìn)行對(duì)抗性測(cè)試，積極探測(cè)隱藏的偏見、漏洞或潛在的偏差，是一個(gè)強(qiáng)有力的工具。在適用的情況下，形式化驗(yàn)證方法提供了一種數(shù)學(xué)證明，證明代理的行為將保持在預(yù)先定義的可接受范圍內(nèi)?！?/span>

大模型（LLM）被賦予了三種升級(jí)選項(xiàng)，分別針對(duì)四種行動(dòng)類別：攻擊、封鎖、沖突和宣戰(zhàn)。他們采取了不同程度的武力應(yīng)對(duì)，其中一些人采取了更和平的立場(chǎng)。亞西爾·阿塔蘭

評(píng)估人工智能在軍事場(chǎng)景中的作用

Scale AI 和戰(zhàn)略與國(guó)際研究中心開發(fā)了一項(xiàng)關(guān)鍵外交政策決策基準(zhǔn)，旨在了解領(lǐng)先的LLM如何應(yīng)對(duì) 400 個(gè)專家設(shè)計(jì)的外交和軍事場(chǎng)景。Qwen2 72B、DeepSeek V3 和Llama 8B Instruct等模型表現(xiàn)出傾向于提出升級(jí)建議的傾向，而 GPT-4o 和 Claude 3.5 Sonnet 則明顯更為克制。該研究還發(fā)現(xiàn)，所有模型都存在不同程度的國(guó)家特定偏見，通常建議對(duì)俄羅斯和中國(guó)采取比對(duì)美國(guó)或英國(guó)更少的干預(yù)主義或升級(jí)性回應(yīng)。

“這取決于你選擇哪種模型。并非所有模型都基于相同的數(shù)據(jù)進(jìn)行訓(xùn)練，而且它們的模型架構(gòu)也并非總是相同，”戰(zhàn)略與國(guó)際研究中心數(shù)據(jù)研究員、基準(zhǔn)分析報(bào)告的共同作者亞西爾·阿塔蘭(Yasir Atalan) 表示。“你可以訓(xùn)練和微調(diào)一個(gè)模型，但它的基準(zhǔn)前提條件和傾向仍然可能與其他模型不同。這就是我們需要進(jìn)行更多實(shí)驗(yàn)的地方。我認(rèn)為 Thunderforge 可以讓我們了解這些模型是否互補(bǔ)，或者它們?cè)诙啻蟪潭壬夏軌驅(qū)崿F(xiàn)這些目標(biāo)或失敗?！?/span>

胡佛研究所研究員、海軍研究生院教授杰奎琳·施耐德（Jacquelyn Schneider）提出了另一個(gè)類似的研究方向。去年，施耐德和斯坦福大學(xué)的同事評(píng)估了五門現(xiàn)成的軍事和外交決策LLM學(xué)位課程。所有模型都表現(xiàn)出難以預(yù)測(cè)的升級(jí)模式。

“我原本以為L(zhǎng)LM之間會(huì)有更多分歧，”施耐德說(shuō)?！皩?duì)我來(lái)說(shuō)，升級(jí)的趨勢(shì)令人費(fèi)解。是因?yàn)橹R(shí)體系只關(guān)注升級(jí)嗎？降級(jí)很難研究，因?yàn)樗鼜奈窗l(fā)生過?！?/span>

施耐德警告稱，即使是范圍嚴(yán)格的人工智能系統(tǒng)，如果指揮官在沒有完全理解其生成方式的情況下就相信其輸出，也可能產(chǎn)生意想不到的戰(zhàn)略影響。她表示，重要的是培訓(xùn)用戶如何在沒有軟件的情況下構(gòu)建戰(zhàn)役，或者發(fā)現(xiàn)可能阻礙戰(zhàn)斗決策的潛在問題。

“過去20年，美國(guó)制定了全球反恐戰(zhàn)爭(zhēng)的作戰(zhàn)計(jì)劃，但我們的信息結(jié)構(gòu)卻不像在面對(duì)強(qiáng)大對(duì)手時(shí)那樣經(jīng)常成為攻擊目標(biāo)。一些數(shù)據(jù)可能每天都會(huì)因?yàn)殡姶鸥蓴_或網(wǎng)絡(luò)攻擊而被操縱，但戰(zhàn)時(shí)，當(dāng)軟件成為攻擊目標(biāo)時(shí)，其范圍和規(guī)模將呈指數(shù)級(jí)增長(zhǎng)，”施耐德說(shuō)道?！跋到y(tǒng)在和平時(shí)期的運(yùn)作方式代表了最佳狀態(tài)，但在戰(zhàn)斗環(huán)境中的運(yùn)行性能下降，可能成為衡量其在作戰(zhàn)規(guī)劃過程中參與程度的標(biāo)準(zhǔn)?！?/span>

Thunderforge 的創(chuàng)建者和外部專家都強(qiáng)調(diào)了人工監(jiān)督的重要性。Tadross 表示，Scale AI 的作用是為軍事人員提供必要的資源，以阻止沖突或在被迫戰(zhàn)斗時(shí)獲得制勝優(yōu)勢(shì)。國(guó)防部最終將定義任何特定任務(wù)的作戰(zhàn)理論、交戰(zhàn)規(guī)則以及適當(dāng)?shù)娜斯けO(jiān)督水平。

“雖然系統(tǒng)可以根據(jù)這些定義的參數(shù)生成和評(píng)估行動(dòng)方案，但最終的決策權(quán)始終掌握在人類指揮官手中，”塔德羅斯說(shuō)。“我們的責(zé)任是確保技術(shù)提供清晰、易懂、值得信賴的支持，增強(qiáng)他們的判斷力，并加快他們與時(shí)俱進(jìn)的決策速度?！?/span>

點(diǎn)

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版