正在閱讀:

三位哈佛00后聯(lián)手創(chuàng)業(yè),7個月拿下億元估值

掃一掃下載界面新聞APP

三位哈佛00后聯(lián)手創(chuàng)業(yè),7個月拿下億元估值

哈佛應屆生,瞄準AI“越獄”。

圖片來源:界面圖庫

文 | 硅兔賽跑 Xuushan

編輯 | Evan

前有三位90后創(chuàng)辦的Cohere估值沖向360億美元,后有95后郭文景創(chuàng)辦的Pika拿到55億美元估值。很顯然,硅谷里的AI創(chuàng)業(yè)潮正在影響所有人,00后Leonard Tang也是被裹挾進去的萬分之一。

Leonard Tang是AI安全創(chuàng)企 Haize Labs的創(chuàng)始人兼CEO,也是今年哈佛大學本科畢業(yè)生。

他創(chuàng)辦的Haize Labs通過一段視頻展示了AI大模型安全防線的“脆弱”。只需短短幾行提示,就能繞過大模型的安全限制,從而讓AI大模型生成大量的色情文字、血腥圖片等,甚至可以自動攻擊其他網(wǎng)絡。

目前,Haize Labs主要通過其打造的首款AI產(chǎn)品——自動化套件Haizing。該套件主要通過攻擊AI大模型進行壓力測試,以發(fā)現(xiàn)AI大模型的安全漏洞。據(jù)外媒winbuzzer報道,明星AI創(chuàng)企Anthropic、Scale AI均是其客戶。

Haize Labs成立于2023年12月,在成立不到7個月的時間里,Haize Labs就收到至少四份投資意向書,知名基金Coatue也參與其中。知情人士透露,Haize Labs已經(jīng)獲得了General Catalyst領投的最新投資,估值達到1億美元。

在短短1-2輪融資中就獲得高額估值,這般融資速度和規(guī)模業(yè)內(nèi)都少見。一方面可以看出,投資者對Haize Labs信心十足,另一方面也顯示了AI安全賽道的潛力。

國際調(diào)研機構(gòu)CB Insight報告顯示,機器學習安全市場(MLSec)正快速增長。2023年AI安全創(chuàng)企投融資總額高達2.13億美元,遠超于2022年的7000萬美元。

據(jù)硅兔賽跑不完全統(tǒng)計,2024年,北美已經(jīng)出現(xiàn)了至少5家AI安全獨角獸,至少39家AI安全創(chuàng)企獲得新融資,累計融資達8億美元。

“目前AI大模型安全領域還是空白的創(chuàng)業(yè)藍海市場?!币晃煌顿Y人士說。

隨著AI攻擊、AI大模型越獄事件不斷發(fā)生,人們對AI失控的風險擔憂日益增加。Haize Labs以AI越獄為切入口,以AI大模型安全為抓手,投身入局。

01 三位哈佛應屆生,瞄準AI“越獄”

“每個人都對大模型越獄行為視而不見?!?/p>

Leonard Tang在接受媒體采訪時提到,這也成為了他和兩位朋友Richard Liu、Steve Li一起創(chuàng)辦Haize Labs契機。

據(jù)VentureBeat報道,Leonard Tang如今暫停了斯坦福大學博士課程的第一年學業(yè),專注于Haize的發(fā)展。Richard Liu、Steve Li則兼顧學業(yè),成為了伯克利人工智能研究實驗室的本科研究員。

Haize Labs的創(chuàng)始人、CEO Leonard Tang告訴VentureBeat,Haize Labs其實是自己本科階段有關對抗性攻擊和大模型穩(wěn)健性研究的商業(yè)化成果。大學期間,他主修了數(shù)學和計算機科學兩大專業(yè)課程。

AI直譯,圖源官網(wǎng)

Leonard Tang第一次對LLM(大語言模型)模型越獄產(chǎn)生興趣大約是在兩年前,當時他嘗試通過對圖像分類器進行對抗性攻擊,繞過Twitter的NSFW(Not Safe For Work)過濾器,該工具專門過濾一些不適宜在工作場合查看的內(nèi)容。

隨后,他發(fā)現(xiàn)AI浪潮中似乎每個人都對大模型越獄行為視而不見,于是受到啟發(fā)著手專注AI可靠性和安全性的研究。

今年4月,他在Github上發(fā)表了一篇有關《如何輕松越獄Llama3》的論文。論文指出,Llama 3這類大語言模型缺乏自我反省的能力,一旦被誘導,大模型也不知道自己輸出的文字是什么意思。

從其哈佛網(wǎng)站的個人主頁來看,Leonard Tang在大學期間的經(jīng)歷豐富多彩。除了學業(yè)上對LLM模型廣泛研究,他還擁有在多家AI大廠實習的經(jīng)驗,比如說在英偉達MagLev的ML基礎工程實習生,參與到自動駕駛汽車研究。再比如說,作為亞馬遜SDE實習生,從事大數(shù)據(jù)供應鏈物流工作。

另外兩位聯(lián)合創(chuàng)始人Richard Liu和Steve Li同樣是AI領域的研究員。Steve Li是哈佛大學計算機科學專業(yè)的大四學生,主要專注人工智能安全、語音處理、操作系統(tǒng)和機器學習系統(tǒng)的研究。他曾在Roblox的用戶安全團隊實習,參與到報告功能和 ML分類管道的工作中。

AI直譯,圖源官網(wǎng)

背靠哈佛,沖向硅谷。他們還獲得了一些顧問和天使投資者的支持,建立自己的人脈圈。這其中包括卡內(nèi)基梅隆大學和哈佛大學的教授、Okta、HuggingFace、Weights and Biases、Replit 的創(chuàng)始人,以及谷歌、Netflix、Stripe、Anduril 等公司的人工智能和安全高管。Graham Neubig等顧問為Haize Labs 提供 LLM 評估方面的專業(yè)知識

業(yè)內(nèi)的AI越獄大神@Pliny the Prompter也是Hazie的朋友和合作方。@Pliny the Prompter以可以迅速攻破Llama 3.1、GPT-4o的安全防線而聞名,他曾表示只需要30分鐘左右的時間,就能破解世界上最強大的人工智能模型。

可以看出,Haize Labs已經(jīng)在AI大模型安全領域建立了一定初步影響力,并且有了自己的關系網(wǎng)絡,推動相關合作。

02 傳統(tǒng)審查機制不適用AI大模型

最開始,Haize Labs測試了當下許多知名的生成式AI程序、像是AI視頻Pika、ChatGPT、圖像生成器DALL-E等等。他們發(fā)現(xiàn)許多知名工具都會產(chǎn)生暴力或色情內(nèi)容,甚至會指導用戶生產(chǎn)生化武器,并允許自動進行網(wǎng)絡攻擊。

這是因為傳統(tǒng)審查如基于人工審查、關鍵詞過濾等方法去檢驗大模型輸出內(nèi)容不精確。

因為AI大模型通?;谏疃葘W習和大量數(shù)據(jù)訓練,其決策過程可能不透明,這種“黑箱”特性使得傳統(tǒng)審查難以控制潛在的風險。

同時,AI大模型能夠不斷學習和適應新的數(shù)據(jù),其輸出可能隨著時間和輸入的變化而變化。傳統(tǒng)審查機制往往靜態(tài)和滯后,難以跟上AI大模型的動態(tài)變化。

此外,AI大模型可以處理和分析大量數(shù)據(jù),生成內(nèi)容的速度、新的表達方式和內(nèi)容,都有可能會遠超于傳統(tǒng)審查機制的預期。

這也導致了無論是OpenAI審查工具Moderation API、谷歌的過濾模型Perspective API,還是Meta的保護模型Llama Guard,性能表現(xiàn)效果都很差。

AI直譯,圖源官網(wǎng)

Hazie對各大AI模型進行越獄測試時,發(fā)現(xiàn)Anthropic旗下Claude模型的安全性表現(xiàn)較好,而像Vicuna和Mistral這類沒有明確執(zhí)行安全微調(diào)的模型很容易進行越獄操作。

面對越獄合法性的質(zhì)疑,Haize Labs表示他們更希望主動出擊,才能提供防御性解決方案,預防此類事件發(fā)生。

03 拿下Anthropic、Scale AI 訂單,Haize商業(yè)化進程迅速

俗語道,不打不相識。

有意思的是,不少曾被攻擊過的機構(gòu)、模型公司并沒有起訴Haize,反而還成為了合作伙伴。

如今,Haize Labs的客戶有AI愛好者、政府的附屬機構(gòu)、模型供應商等。

Haize Labs和AI大模型創(chuàng)企Anthropic達成了3萬美元試點合作、與AI創(chuàng)企AI21簽約了五位數(shù)的協(xié)議,并且還與AI模型平臺Hugging Face、英國人工智能安全研究所(AISI)和AI工程聯(lián)盟MLCommons達成合作。

不僅如此,Haize Labs與Scale AI簽署了50萬美元意向書,目標是對醫(yī)療保健和金融領域的LLM進行特定領域的壓力測試,每次更新時都會重新評估模型以保持穩(wěn)健性。

Haize Labs打造的Haizing套件是一套搜索和優(yōu)化算法,結(jié)合了模糊測試和紅隊測試技術(shù),可以較為全面的檢查AI系統(tǒng)。該產(chǎn)品主要在開發(fā)階段誘導大模型出現(xiàn)幻覺,進行壓力測試,從而更好提醒開發(fā)者安全漏洞的問題。

“只有通過嚴格、可擴展且自動地測試您的模型以了解其所有極端情況和弱點,客戶才能開始修復這些弱點?!盠eonard Tang說。

Haizing Suite升級了多種算法,使用強化學習等技術(shù)檢測有害內(nèi)容輸入。它利用各種測試場景來發(fā)現(xiàn)潛在的問題點,并且通過反向定義不良行為為行動指導。

該套件擁有免費版和商業(yè)版,其中免費版需要申請,商業(yè)版則是Hazie的主要盈利來源。Haizing套件商業(yè)版,將為基礎模型服務商和應用程序?qū)拥目蛻籼峁〤I/CD haizing和運行時防御解決方案。

AI大模型的巨頭們也注意到AI大模型越獄安全性問題,并先后提醒人們注意。

OpenAI也曾邀請各領域?qū)<彝ㄟ^對抗性方式幫助提高模型的安全性和可靠性,也就是招募“紅隊隊員”

微軟詳細介紹了一種名為“Skeleton Key”的越獄技術(shù),用戶通過誘導的方式,繞過大模型的安全機制并讓模型認為,自己輸出的內(nèi)容是在“合法范圍”之內(nèi)。

Anthropic則發(fā)現(xiàn)隨著窗口長度的不斷增加,大模型的“越獄”現(xiàn)象開始死灰復燃?!艾F(xiàn)在是時候努力減小大模型越獄的潛在風險了,否則它們可能造成嚴重危害?!盇nthropic在公告中說道。

在大模型快速發(fā)展的今天,安全一直成為人們繞不開的話題。

現(xiàn)階段,AI激進派與AI保守派各執(zhí)一詞,以自己的準繩預測著AI大模型安全的風險值。前不久,馬斯克的AI大模型 Grok 2.0正在以無所限制地生成AI內(nèi)容,挑戰(zhàn)著用戶的敏感神經(jīng)。AI激進派認為如果對AI越獄行為進行全面封鎖,或許會阻礙AI大模型的靈活性和響應能力。

Haize則是通過自動化各種不同類型的攻擊,測試各個AI大模型的安全漏洞,試圖為AI大模型建立更穩(wěn)固的防線。

但同時,我們也能看到各大AI大模型廠商已經(jīng)開始對AI越獄行為進一步防守。若是Haize的成長僅局限于AI越獄方向,業(yè)務方向似乎較為單一,也難以支撐后續(xù)發(fā)展。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

三位哈佛00后聯(lián)手創(chuàng)業(yè),7個月拿下億元估值

哈佛應屆生,瞄準AI“越獄”。

圖片來源:界面圖庫

文 | 硅兔賽跑 Xuushan

編輯 | Evan

前有三位90后創(chuàng)辦的Cohere估值沖向360億美元,后有95后郭文景創(chuàng)辦的Pika拿到55億美元估值。很顯然,硅谷里的AI創(chuàng)業(yè)潮正在影響所有人,00后Leonard Tang也是被裹挾進去的萬分之一。

Leonard Tang是AI安全創(chuàng)企 Haize Labs的創(chuàng)始人兼CEO,也是今年哈佛大學本科畢業(yè)生。

他創(chuàng)辦的Haize Labs通過一段視頻展示了AI大模型安全防線的“脆弱”。只需短短幾行提示,就能繞過大模型的安全限制,從而讓AI大模型生成大量的色情文字、血腥圖片等,甚至可以自動攻擊其他網(wǎng)絡。

目前,Haize Labs主要通過其打造的首款AI產(chǎn)品——自動化套件Haizing。該套件主要通過攻擊AI大模型進行壓力測試,以發(fā)現(xiàn)AI大模型的安全漏洞。據(jù)外媒winbuzzer報道,明星AI創(chuàng)企Anthropic、Scale AI均是其客戶。

Haize Labs成立于2023年12月,在成立不到7個月的時間里,Haize Labs就收到至少四份投資意向書,知名基金Coatue也參與其中。知情人士透露,Haize Labs已經(jīng)獲得了General Catalyst領投的最新投資,估值達到1億美元。

在短短1-2輪融資中就獲得高額估值,這般融資速度和規(guī)模業(yè)內(nèi)都少見。一方面可以看出,投資者對Haize Labs信心十足,另一方面也顯示了AI安全賽道的潛力。

國際調(diào)研機構(gòu)CB Insight報告顯示,機器學習安全市場(MLSec)正快速增長。2023年AI安全創(chuàng)企投融資總額高達2.13億美元,遠超于2022年的7000萬美元。

據(jù)硅兔賽跑不完全統(tǒng)計,2024年,北美已經(jīng)出現(xiàn)了至少5家AI安全獨角獸,至少39家AI安全創(chuàng)企獲得新融資,累計融資達8億美元。

“目前AI大模型安全領域還是空白的創(chuàng)業(yè)藍海市場。”一位投資人士說。

隨著AI攻擊、AI大模型越獄事件不斷發(fā)生,人們對AI失控的風險擔憂日益增加。Haize Labs以AI越獄為切入口,以AI大模型安全為抓手,投身入局。

01 三位哈佛應屆生,瞄準AI“越獄”

“每個人都對大模型越獄行為視而不見?!?/p>

Leonard Tang在接受媒體采訪時提到,這也成為了他和兩位朋友Richard Liu、Steve Li一起創(chuàng)辦Haize Labs契機。

據(jù)VentureBeat報道,Leonard Tang如今暫停了斯坦福大學博士課程的第一年學業(yè),專注于Haize的發(fā)展。Richard Liu、Steve Li則兼顧學業(yè),成為了伯克利人工智能研究實驗室的本科研究員。

Haize Labs的創(chuàng)始人、CEO Leonard Tang告訴VentureBeat,Haize Labs其實是自己本科階段有關對抗性攻擊和大模型穩(wěn)健性研究的商業(yè)化成果。大學期間,他主修了數(shù)學和計算機科學兩大專業(yè)課程。

AI直譯,圖源官網(wǎng)

Leonard Tang第一次對LLM(大語言模型)模型越獄產(chǎn)生興趣大約是在兩年前,當時他嘗試通過對圖像分類器進行對抗性攻擊,繞過Twitter的NSFW(Not Safe For Work)過濾器,該工具專門過濾一些不適宜在工作場合查看的內(nèi)容。

隨后,他發(fā)現(xiàn)AI浪潮中似乎每個人都對大模型越獄行為視而不見,于是受到啟發(fā)著手專注AI可靠性和安全性的研究。

今年4月,他在Github上發(fā)表了一篇有關《如何輕松越獄Llama3》的論文。論文指出,Llama 3這類大語言模型缺乏自我反省的能力,一旦被誘導,大模型也不知道自己輸出的文字是什么意思。

從其哈佛網(wǎng)站的個人主頁來看,Leonard Tang在大學期間的經(jīng)歷豐富多彩。除了學業(yè)上對LLM模型廣泛研究,他還擁有在多家AI大廠實習的經(jīng)驗,比如說在英偉達MagLev的ML基礎工程實習生,參與到自動駕駛汽車研究。再比如說,作為亞馬遜SDE實習生,從事大數(shù)據(jù)供應鏈物流工作。

另外兩位聯(lián)合創(chuàng)始人Richard Liu和Steve Li同樣是AI領域的研究員。Steve Li是哈佛大學計算機科學專業(yè)的大四學生,主要專注人工智能安全、語音處理、操作系統(tǒng)和機器學習系統(tǒng)的研究。他曾在Roblox的用戶安全團隊實習,參與到報告功能和 ML分類管道的工作中。

AI直譯,圖源官網(wǎng)

背靠哈佛,沖向硅谷。他們還獲得了一些顧問和天使投資者的支持,建立自己的人脈圈。這其中包括卡內(nèi)基梅隆大學和哈佛大學的教授、Okta、HuggingFace、Weights and Biases、Replit 的創(chuàng)始人,以及谷歌、Netflix、Stripe、Anduril 等公司的人工智能和安全高管。Graham Neubig等顧問為Haize Labs 提供 LLM 評估方面的專業(yè)知識

業(yè)內(nèi)的AI越獄大神@Pliny the Prompter也是Hazie的朋友和合作方。@Pliny the Prompter以可以迅速攻破Llama 3.1、GPT-4o的安全防線而聞名,他曾表示只需要30分鐘左右的時間,就能破解世界上最強大的人工智能模型。

可以看出,Haize Labs已經(jīng)在AI大模型安全領域建立了一定初步影響力,并且有了自己的關系網(wǎng)絡,推動相關合作。

02 傳統(tǒng)審查機制不適用AI大模型

最開始,Haize Labs測試了當下許多知名的生成式AI程序、像是AI視頻Pika、ChatGPT、圖像生成器DALL-E等等。他們發(fā)現(xiàn)許多知名工具都會產(chǎn)生暴力或色情內(nèi)容,甚至會指導用戶生產(chǎn)生化武器,并允許自動進行網(wǎng)絡攻擊。

這是因為傳統(tǒng)審查如基于人工審查、關鍵詞過濾等方法去檢驗大模型輸出內(nèi)容不精確。

因為AI大模型通常基于深度學習和大量數(shù)據(jù)訓練,其決策過程可能不透明,這種“黑箱”特性使得傳統(tǒng)審查難以控制潛在的風險。

同時,AI大模型能夠不斷學習和適應新的數(shù)據(jù),其輸出可能隨著時間和輸入的變化而變化。傳統(tǒng)審查機制往往靜態(tài)和滯后,難以跟上AI大模型的動態(tài)變化。

此外,AI大模型可以處理和分析大量數(shù)據(jù),生成內(nèi)容的速度、新的表達方式和內(nèi)容,都有可能會遠超于傳統(tǒng)審查機制的預期。

這也導致了無論是OpenAI審查工具Moderation API、谷歌的過濾模型Perspective API,還是Meta的保護模型Llama Guard,性能表現(xiàn)效果都很差。

AI直譯,圖源官網(wǎng)

Hazie對各大AI模型進行越獄測試時,發(fā)現(xiàn)Anthropic旗下Claude模型的安全性表現(xiàn)較好,而像Vicuna和Mistral這類沒有明確執(zhí)行安全微調(diào)的模型很容易進行越獄操作。

面對越獄合法性的質(zhì)疑,Haize Labs表示他們更希望主動出擊,才能提供防御性解決方案,預防此類事件發(fā)生。

03 拿下Anthropic、Scale AI 訂單,Haize商業(yè)化進程迅速

俗語道,不打不相識。

有意思的是,不少曾被攻擊過的機構(gòu)、模型公司并沒有起訴Haize,反而還成為了合作伙伴。

如今,Haize Labs的客戶有AI愛好者、政府的附屬機構(gòu)、模型供應商等。

Haize Labs和AI大模型創(chuàng)企Anthropic達成了3萬美元試點合作、與AI創(chuàng)企AI21簽約了五位數(shù)的協(xié)議,并且還與AI模型平臺Hugging Face、英國人工智能安全研究所(AISI)和AI工程聯(lián)盟MLCommons達成合作。

不僅如此,Haize Labs與Scale AI簽署了50萬美元意向書,目標是對醫(yī)療保健和金融領域的LLM進行特定領域的壓力測試,每次更新時都會重新評估模型以保持穩(wěn)健性。

Haize Labs打造的Haizing套件是一套搜索和優(yōu)化算法,結(jié)合了模糊測試和紅隊測試技術(shù),可以較為全面的檢查AI系統(tǒng)。該產(chǎn)品主要在開發(fā)階段誘導大模型出現(xiàn)幻覺,進行壓力測試,從而更好提醒開發(fā)者安全漏洞的問題。

“只有通過嚴格、可擴展且自動地測試您的模型以了解其所有極端情況和弱點,客戶才能開始修復這些弱點?!盠eonard Tang說。

Haizing Suite升級了多種算法,使用強化學習等技術(shù)檢測有害內(nèi)容輸入。它利用各種測試場景來發(fā)現(xiàn)潛在的問題點,并且通過反向定義不良行為為行動指導。

該套件擁有免費版和商業(yè)版,其中免費版需要申請,商業(yè)版則是Hazie的主要盈利來源。Haizing套件商業(yè)版,將為基礎模型服務商和應用程序?qū)拥目蛻籼峁〤I/CD haizing和運行時防御解決方案。

AI大模型的巨頭們也注意到AI大模型越獄安全性問題,并先后提醒人們注意。

OpenAI也曾邀請各領域?qū)<彝ㄟ^對抗性方式幫助提高模型的安全性和可靠性,也就是招募“紅隊隊員”

微軟詳細介紹了一種名為“Skeleton Key”的越獄技術(shù),用戶通過誘導的方式,繞過大模型的安全機制并讓模型認為,自己輸出的內(nèi)容是在“合法范圍”之內(nèi)。

Anthropic則發(fā)現(xiàn)隨著窗口長度的不斷增加,大模型的“越獄”現(xiàn)象開始死灰復燃?!艾F(xiàn)在是時候努力減小大模型越獄的潛在風險了,否則它們可能造成嚴重危害?!盇nthropic在公告中說道。

在大模型快速發(fā)展的今天,安全一直成為人們繞不開的話題。

現(xiàn)階段,AI激進派與AI保守派各執(zhí)一詞,以自己的準繩預測著AI大模型安全的風險值。前不久,馬斯克的AI大模型 Grok 2.0正在以無所限制地生成AI內(nèi)容,挑戰(zhàn)著用戶的敏感神經(jīng)。AI激進派認為如果對AI越獄行為進行全面封鎖,或許會阻礙AI大模型的靈活性和響應能力。

Haize則是通過自動化各種不同類型的攻擊,測試各個AI大模型的安全漏洞,試圖為AI大模型建立更穩(wěn)固的防線。

但同時,我們也能看到各大AI大模型廠商已經(jīng)開始對AI越獄行為進一步防守。若是Haize的成長僅局限于AI越獄方向,業(yè)務方向似乎較為單一,也難以支撐后續(xù)發(fā)展。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。