正在閱讀:

ChatGPT火遍全球,AIGC要統(tǒng)治人類知識圈了嗎?

掃一掃下載界面新聞APP

ChatGPT火遍全球,AIGC要統(tǒng)治人類知識圈了嗎?

AIGC必將嵌入我們的社會與生活。

文|奇偶派

最近,OpenAI發(fā)布了免費機器人對話模型ChatGPT,一時間火爆全球,成為科技圈第一大熱潮,短短一周吸粉便超過百萬。ChatGPT也稱為科技圈的必聊話題。

如此智能的機器人對話模型,仿佛與我們記憶中略顯“笨拙”的機械式AI對話已經(jīng)完全不同。在這些年里,人工智能創(chuàng)作內(nèi)容(AIGC)已經(jīng)飛速成長,甚至在很多領域大大超越了專家學者的精準性和博識水準。

圖:與ChatGPT對話

同樣在2022年,AIGC已經(jīng)出圈過一次。

AI繪畫憑借其獨特的創(chuàng)意與便捷的創(chuàng)作工具迅速走紅,甚至出現(xiàn)使用AI作畫參賽獲獎的新聞;同時,許多AIGC方面的公司正在飛速的成長,獲取一筆筆的融資,成為獨角獸公司。

但是,在如火如荼的AIGC技術發(fā)展中,有一個問題卻始終沒有得到明確的解答,那就是AIGC雖然這么新穎、好玩,但是它的商業(yè)化價值到底如何,又能應用于哪些具體的場景呢?

本文就AIGC相關信息、落地應用與目前行業(yè)面臨的問題進行解讀,為那些對AIGC感興趣的讀者與投資人展現(xiàn)目前人工智能生成內(nèi)容的發(fā)展圖景。

2022: AIGC元年

2022年,深度學習模型Diffusion擴散化模型的出現(xiàn),直接推動了AIGC技術的突破性發(fā)展,許多基于StableDiffusion模型的應用紛紛入局。也正因如此,2022年被稱為AIGC元年。

但在各類使用AIGC技術的應用大規(guī)?!熬畤姟敝埃珹IGC也曾經(jīng)歷了幾十年的發(fā)展。

1950年,圖靈提出了著名的“圖靈測試”,給出了判定機器是否具有“智能”的方法,即機器是否能夠模仿人類的思維方式來“生成”內(nèi)容繼而與人交互。

經(jīng)過半個多世紀的發(fā)展,今天的人工智能不僅能夠與人類進行互動,還可以進行寫作、編曲、繪畫、視頻制作等創(chuàng)意工作。隨著人工智能越來越多地被應用于內(nèi)容創(chuàng)作,人工智能生成內(nèi)容悄然興起。

目前,對于AIGC這一概念的界定,尚無統(tǒng)一規(guī)范的定義。而國內(nèi)產(chǎn)學研各界對于AIGC的理解是“繼專業(yè)生成內(nèi)容和用戶生成內(nèi)容之后,利用人工智能技術自動生成內(nèi)容的新型生產(chǎn)方式”。

而結合人工智能的演進沿革,AIGC的發(fā)展歷程大致可以分為三個階段:

早期萌芽階段(1950s-1990s),受限于當時的科技水平,AIGC僅限于小范圍實驗。1957 年,萊杰倫·希勒和倫納德·艾薩克森完成歷史第一支由計算機創(chuàng)作的弦樂四重奏《伊利亞克組曲》。1966年,約瑟夫·魏岑鮑姆和肯尼斯·科爾比開發(fā)了世界第一款可人機對話的機器人Eliza。80年代中期,IBM創(chuàng)造了語音控制打字機Tangora。

沉淀積累階段(1990s-2010s),AIGC從實驗性向實用性逐漸轉變。2006年,深度學習算法、圖形處理器、張量處理器等都取得了重大突破。2007年,世界第一部完全由人工智能創(chuàng)作的小說《1 The Road》問世。2012年,微軟公開展示了一個全自動同聲傳譯系統(tǒng),可以自動將英文演講者的內(nèi)容通過語音識別、語言翻譯、語音合成等技術生成中文語音。

快速發(fā)展階段(2010s至今),深度學習模型不斷迭代,AIGC突破性發(fā)展。2014年,對抗生產(chǎn)網(wǎng)絡GAN出現(xiàn)。2021年,CLIP模型出現(xiàn);OpenAI推出DALL-E,主要應用于文本與圖像交互生成內(nèi)容。2022年,深度學習模型Diffusion擴散化模型的出現(xiàn)。

新模型下的AIGC所向披靡

過去,互聯(lián)網(wǎng)的內(nèi)容都是由用戶生成、上傳,AI只能協(xié)助人類完成一部分最簡單、最基礎的工作,無法獨立生成內(nèi)容,更不用提優(yōu)質內(nèi)容了。

但這一狀況也因Diffusion擴散化模型的開源應用而被打破,AIGC成為了繼UGC之后的又一大內(nèi)容生成方式。

相較于UGC,AIGC的最大不同是新技術驅動了機器智能創(chuàng)作內(nèi)容,這使得AIGC具有獨特的技術特征,包括數(shù)據(jù)據(jù)量化、內(nèi)容創(chuàng)造力、跨模態(tài)融合、認知交互力等,也正是這些獨有的技術能力,讓AIGC成為“不可替代”的新一代內(nèi)容生成方式。

(1)數(shù)據(jù)巨量化:

AIGC豐富的“想象力”和驚為天人的“創(chuàng)作能力”,是在海量數(shù)據(jù)的基礎上由計算機學習和模擬生成的,每一幅AI畫作的背后都是無數(shù)的標注數(shù)據(jù)與訓練。卷積神經(jīng)網(wǎng)絡和Transformer大模型的流行成功使深度學習模型參數(shù)量躍升至億級,由此帶來的數(shù)據(jù)巨量化推動了AIGC發(fā)展的進程。

如知名的計算機視覺項目ImageNet在眾包任務中有超過25000人參與,標準圖片超過1400萬張;而OpenAI更是收集了4億個文本圖像配對數(shù)據(jù)進行預訓練。在零樣本學習成熟之前,AIGC通過巨量數(shù)據(jù)實現(xiàn)內(nèi)容創(chuàng)作的發(fā)展路線仍難以撼動。

(2)內(nèi)容創(chuàng)造力:

正是有了海量數(shù)據(jù)的加成,AIGC在創(chuàng)作方面有著無限的“靈感”,也成為了AIGC最吸引用戶的特色。借助海量的語料庫,AI工具仿佛超級畫手或作曲家一樣生成指定風格的圖像、音樂或視頻。

同時,例如神經(jīng)風格遷移算法利用卷積神經(jīng)網(wǎng)絡識別圖像內(nèi)容表征和風格表征并在特定神經(jīng)網(wǎng)絡層對圖像進行重構,也使得AI畫作能夠模仿特定風格的藝術作品。

與人類創(chuàng)作過程相比,AI創(chuàng)作擁有時間短、規(guī)模大、風格多等特點,在藝術創(chuàng)作、插畫、影視編輯等領域正在產(chǎn)生變革效應,人們甚至開始擔心AIGC會不會沖擊傳統(tǒng)藝術創(chuàng)作者的工作崗位。

(3)跨模態(tài)融合:

跨模態(tài)融合是AIGC區(qū)別于傳統(tǒng)UGC和PGC的顯著特征。AI能夠分別提取文本特征和圖片特征進行相似度對比,通過特征相似度計算文本與圖像的匹配關系,從而實現(xiàn)跨模態(tài)的相互理解。

2022年9月,百度發(fā)布“2022十大科技前沿發(fā)明”,位列第一的就是“跨模態(tài)通用可控AIGC”,跨模態(tài)生成的本質是文本、視覺、聽覺乃至腦電等不同模態(tài)的知識融合,覆蓋圖文、視頻、數(shù)字人、機器人等更多場景。

在未來,隨著國內(nèi)外多家科技公司發(fā)布多模態(tài)AI大模型,AIGC的跨模態(tài)融合趨勢將進一步加強。

(4)認知交互力:

擁有一定程度的認知和交互能力,是AIGC發(fā)展的重要趨勢。

對于開發(fā)者而言,代碼的輸入輸出是人與計算機交互的底層邏輯;對于用戶而言,人們使用智能終端和網(wǎng)絡平臺實現(xiàn)人機交互和互聯(lián)通信。在人工智能場景中,通常利用自動問答、視覺識別、姿態(tài)識別等實現(xiàn)人機交互,而AIGC的出現(xiàn)則為人與機器的溝通帶來了更多可能,擁有人與人類溝通的媒介,在感知和交互上具備其獨有的特色。

AIGC既是畫家又是主播還是翻譯

在不知不覺中,AIGC已經(jīng)滲入了我們的生活中的每個角落,從導航軟件中的“人聲”指路,到直播賣貨中的“虛擬主播”,都隱藏著它的身影。目前,AIGC技術已經(jīng)率先在傳媒、電商、娛樂等領域實現(xiàn)大規(guī)模落地。

在最簡單直接的落地領域里,傳媒行業(yè)首當其沖。人機協(xié)同,能大幅提高傳媒行業(yè)一些基礎工作效率。

AIGC作為當前最新的內(nèi)容生產(chǎn)方式,與傳媒工作者協(xié)作,為媒體內(nèi)容生產(chǎn)全面賦能。寫稿機器人、采訪助手、字幕生成、語音播報等相關應用不斷涌現(xiàn),深刻地改變了媒體生產(chǎn)內(nèi)容的方式,大大提升了行業(yè)生產(chǎn)效率。

在采編環(huán)節(jié)中,語音轉寫技術大大提升了傳媒人的工作效率。借助語音識別技術,可以將一段采訪稿快速以文字的形式進行輸出,同時兼顧了準確性與時效性。2022年冬奧會期間,科大訊飛的智能錄音筆便可完成跨語種的語音轉寫,助力記者快速出稿。

智能視頻的剪輯,提升了視頻內(nèi)容的價值。通過使用視頻字幕生成、視頻錦集等視頻智能化剪輯工具,可高效節(jié)省人力時間成本,最大化版權價值。2022年冬奧會期間,央視視頻通過使用AI智能內(nèi)容生產(chǎn)剪輯系統(tǒng),高效生產(chǎn)與發(fā)布冬奧冰雪項目的視頻集錦內(nèi)容,為深度開發(fā)體育媒體版權內(nèi)容價值,創(chuàng)造了更多的可能性。

在傳播環(huán)節(jié),AIGC技術為社區(qū)生態(tài)注入了新的活力。以百度為例,“創(chuàng)作者AI助理團”已在百家號平臺上線,作為百度移動生態(tài)AIGC應用的“先遣部隊”,除AI作畫、圖文轉視頻技術外,還推出了數(shù)字主持人,為創(chuàng)作者實現(xiàn)更多場景的應用體驗,給予用戶全新的瀏覽體驗。

中國青年報和中國青年網(wǎng)官方短視頻品牌“青蜂俠”,就依托百家號平臺推出了數(shù)字主持人“青小霞”,率先實現(xiàn)了“數(shù)字主持人自由”?!扒嘈∠肌蹦芨叨葟涂陶嫒酥鞑サ穆曇艏氨砬閯幼?,實現(xiàn)高質多量的內(nèi)容生產(chǎn)和播報,降低媒體運作和內(nèi)容生產(chǎn)成本,為內(nèi)容傳播形式注入科技創(chuàng)新力。

在當前,AIGC已經(jīng)在電商行業(yè)中成熟落地,尤其是虛擬主播等應用產(chǎn)品,已經(jīng)為不少消費者提供實時服務。

隨著數(shù)字技術的不斷發(fā)展與消費的升級,良好的購物體驗成為消費者越來越看重的地方。而利用AIGC技術,可通過快速、準確響應消費者需求與構建沉浸式購物場景的方式來提升消費者的購物體驗。

在構建沉浸式購物場景中,打造虛擬主播是必不可少的環(huán)節(jié)。這里的虛擬主播并非是過去我們認為的“皮套人”,而是可以為觀眾提供24小時不間斷貨品推薦介紹的“數(shù)字人”。虛擬主播有著以下三大優(yōu)勢:

一是可以代替真人直播,為用戶提供更靈活的觀看時間和更方便的購物體驗,也在為合作商家節(jié)省成本的同時創(chuàng)造更大的流量。如歐萊雅、飛利浦等品牌的虛擬主播會在0點到9點之間進行直播,與真人主播相互配合,提供24小時無縫對接的直播服務。

二是虛擬主播可塑造店鋪形象,拉近與年輕消費者的距離。如彩妝品牌“卡姿蘭”推出自己的品牌虛擬形象,并將其引入直播間作為其天貓旗艦店日常的虛擬主播導購。

三是虛擬主播穩(wěn)定可控,不會出現(xiàn)“人設崩塌”的情況。虛擬主播人設、言行舉止等均可由品牌方掌握,對于真人帶貨安全性、可控性更強。品牌方無需擔心虛擬形象人設崩塌,為品牌帶來負面新聞。

目前,由AI驅動的虛擬主播擁有多變的形象、媲美真人的聲音和多種直播場景。以京東云言犀為例,通過自研的3DNeuralRender神經(jīng)渲染器,可以高保真地合成主播面部細節(jié),在互動中,2D及超寫實、高精度3D數(shù)字員工驅動方案,實現(xiàn)了音唇精準同步。目前言犀擁有100+的數(shù)字人形象,在2022年雙11期間,在近200百家付費品牌店鋪中開播,累計帶來數(shù)百萬GMV的轉化。

京東數(shù)字人:靈小播

對話式AI技術主導的智能服務,助力品牌快速響應消費者需求。每年購物節(jié)期間,店鋪中的客服數(shù)量在面對消費者的海量問題時總會顯得“捉襟見肘”,而任務型對話AI則可以扮演客服的角色。

對話式AI產(chǎn)品可替代人類對話完成重復性、規(guī)則性對話任務,優(yōu)化重構對話服務的工作流與職能重點,還可為對話服務提供智能調(diào)度、坐席助手、對話洞察等輔助功能,與人工坐席并肩作戰(zhàn),構建輔助培訓、運營管理、指導洞察的良性循環(huán)。

在京東言犀平臺,依靠領域性大模型K-PLUG,實現(xiàn)了短文本和長文本的自動生成。目前已經(jīng)覆蓋了京東的3000多個三級品類,累計生成文案30億字,應用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI直播帶貨等,累計帶來超過3億元GMV。

在今年雙11期間,智能客服累計接待了超4.5億次的咨詢服務,迎接了年終最大的流量洪峰,并完成任務。

此外,AIGC也已經(jīng)娛樂行業(yè)落地開花,拓展了娛樂邊界。

在數(shù)字時代,娛樂不僅僅再是游戲,更是與樂趣的尋找與現(xiàn)代人對歸屬感的渴望。借助AIGC技術,通過趣味性圖像、音視頻、虛擬偶像等方式,娛樂行業(yè)快速擴展邊界,以另一種面貌獲得全新的發(fā)展動能。

趣味性圖像、音視頻生成,激發(fā)用戶使用熱情。在圖像生成方面,AI換臉、一鍵構圖等應用極大地滿足了用戶獵奇地需求。在國外,F(xiàn)aceAPP一經(jīng)推出,就立刻病毒式在網(wǎng)絡上引發(fā)熱潮,登上App Store下載榜首。而在國內(nèi),百度文心一格也一度帶起了AI作畫的熱潮,以使用便捷、畫作精美、善于東方元素等多個特點,受到了用戶的一致好評。

在音視頻生成方面,語音模仿、變聲器等功能,增加了互動娛樂性。騰訊旗下多款游戲均已集成變聲、語音模仿、自動生產(chǎn)短視頻等功能,讓溝通本身也成為了一種樂此不疲的游戲。

打造虛擬偶像,釋放IP價值。在娛樂賽道中最經(jīng)典的虛擬偶像群體非初音、洛天依為代表的“虛擬歌姬”莫屬,而其都是基于VOCALOID 語音合成引擎軟件為基礎創(chuàng)造出來的虛擬人物,由真人提供聲源,再由軟件合成人聲。

自2012年7月12日洛天依出道,在十年的時間內(nèi),音樂人以及粉絲已為洛天依創(chuàng)作了超過一萬首作品,洛天依在為用戶提供更多想象和創(chuàng)作空間的同時,也與粉絲建立了更深刻聯(lián)系。

除與粉絲共同創(chuàng)作外,AI合成視頻、音頻,也幫助虛擬偶像快速出圈,實現(xiàn)變現(xiàn)場景的多元化,目前可通過演唱會、音樂專輯、廣告代言、直播、周邊衍生產(chǎn)品等方式進行變現(xiàn)。

同時隨著虛擬偶像商業(yè)價值被不斷發(fā)掘,品牌方與虛擬 IP 的聯(lián)動意愿隨之提升。如由魔琺科技與次世文化共同打造的網(wǎng)紅翎Ling于2020年5月出道至現(xiàn)在已先后與VOGUE、特斯拉、GUCCI 等品牌展開合作。

除傳媒、電商、娛樂行業(yè)外,金融、工業(yè)、醫(yī)療等各行各業(yè)的AIGC技術也都在蓬勃發(fā)展、加速落地。從整體來看,AIGC技術已經(jīng)開始深入融合到我們生活中的每個角落,其相關應用正加速滲透到經(jīng)濟社會的方方面面。

AI無所不能了嗎?

在相關應用大量落地,AIGC技術快速發(fā)展的當下,仿佛未來一切都很美好。但我們需要認清的是,目前AIGC還處在發(fā)展的初期。關鍵技術、企業(yè)核心能力和相關法律法規(guī)都尚未完善,圍繞著公平、安全、責任的爭議日益增多,也引發(fā)了一系列亟待解決的問題。

當前,AIGC關鍵技術不夠成熟,大規(guī)模落地仍存在痛點。

隨著AIGC 技術不斷升級,進一步釋放內(nèi)容生產(chǎn)力,但其在人工智能關鍵技術方面尚存在局限,掣肘產(chǎn)業(yè)發(fā)展進程。

具體來看,一是人工智能算法方面仍有缺陷,在透明度、魯棒性、偏見與歧視方面仍存在尚未克服的及數(shù)據(jù)線,導致算法應用問題重重。二是AIGC內(nèi)容編輯與創(chuàng)作技術不夠完善,人工智能技術加持的內(nèi)容編輯與創(chuàng)作技術仍然受短板制約,導致產(chǎn)業(yè)發(fā)展存在技術門檻。

大量AIGC 企業(yè)噴涌而出,但是核心能力參差不齊,威脅網(wǎng)絡內(nèi)容生態(tài)健康安全發(fā)展。

隨著數(shù)字技術的開源開放,AIGC 技術研發(fā)門檻、制作成本等不斷降低,致使市場上的平臺企業(yè)泥沙俱下,企業(yè)核心能力不足對良好網(wǎng)絡生態(tài)構建造成嚴重障礙。

具體來看,一是內(nèi)容審核能力有待提升,目前基本審核方式為“機審+人審”,機審誤報率偏高,而人審也沒有形成統(tǒng)一標準。審核能力的缺失導致了包含虛假、不良信息的違法違規(guī)內(nèi)容流出,影響產(chǎn)業(yè)甚至整個網(wǎng)絡生態(tài)環(huán)境。

二是是企業(yè)技術管理能力建設不足。由于AIGC技術復雜,且具有高動態(tài)性等特點,便要求企業(yè)具備相應的技術管理能力。但企業(yè)具有商業(yè)屬性,決定了在資源有限的情況下其往往傾向于自身利益,而對技術安全和制度保障投入不足。

三是是企業(yè)風險治理能力尚未完善。當前AIGC技術仍處于發(fā)展初期,其風險具有未知性和復雜性等特點,很多企業(yè)對于對風險的預測、防范和應急處置能力均尚未完善,風險治理理念也未落實到工程技術實踐中。

當前,有關AIGC相關規(guī)范指引尚需完善,發(fā)展與治理之間存在匹配問題。

近年來,人工智能產(chǎn)業(yè)規(guī)范指引不斷推出,治理體系初顯格局,但隨著科技進步加快,制度建設亦步亦趨也未必嚴絲合縫,這又引發(fā)了技術創(chuàng)新發(fā)展與政策支持、法律規(guī)制的匹配問題。

具體來看,一是產(chǎn)業(yè)發(fā)展需落實支持政策。未來,各地、各部門政策的支持力度、推進落實和動態(tài)調(diào)整情況將決定著技術與社會的相互建構程度,將對AIGC技術在社會情境中的落地與發(fā)展起到重要作用。

二是AIGC可版權性有待厘清。法律概念的模糊引發(fā)司法裁判的不確定,導致 AIGC作品存在著著作權歸屬不清的現(xiàn)實困境。這一問題阻礙人工智能技術發(fā)揮其創(chuàng)作價值,還有可能稀釋作品權利人的獨創(chuàng)性,威脅他人的合法權益。

三是新技術增加監(jiān)管難度。是由于互聯(lián)網(wǎng)相關技術的發(fā)展,造假內(nèi)容具有分散性、流動性、大規(guī)模性和隱蔽性的特點,導致追蹤難度和復雜性與日俱增,再加上規(guī)范指引的模糊和滯后,對內(nèi)容監(jiān)管行動造成了嚴重阻礙。

寫在最后

AIGC作為UGC后新一類創(chuàng)作方式,是數(shù)智時代的典型應用創(chuàng)新,它的快速發(fā)展不僅正在革新數(shù)字文化創(chuàng)作的生產(chǎn)范式,也在改變用戶與人工智能的交互模式。目前,已經(jīng)滲透到了傳媒、電商、娛樂等各個行業(yè)之中。

但在展望AIGC如此美好的未來之前,我們需要明確,現(xiàn)在其仍處于發(fā)展的初期,還是存在許多尚未觸達、解決的難題。面對生活中越來越多的人工智能生成內(nèi)容,如何安全、健康地使用,也將為人類帶來新的難題。

但無論如何,AIGC作為新一代創(chuàng)作方式,在技術進步的推動下,正處于萬億賽道的新起點。在未來通用人工智能時代中,AIGC也將拓展出更多應用方式,更好地服務人們的生活。

如ChatGPT一樣的AIGC產(chǎn)品,終將越來越頻繁地出現(xiàn)在我們的社會場景之中,成為常態(tài)。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

ChatGPT火遍全球,AIGC要統(tǒng)治人類知識圈了嗎?

AIGC必將嵌入我們的社會與生活。

文|奇偶派

最近,OpenAI發(fā)布了免費機器人對話模型ChatGPT,一時間火爆全球,成為科技圈第一大熱潮,短短一周吸粉便超過百萬。ChatGPT也稱為科技圈的必聊話題。

如此智能的機器人對話模型,仿佛與我們記憶中略顯“笨拙”的機械式AI對話已經(jīng)完全不同。在這些年里,人工智能創(chuàng)作內(nèi)容(AIGC)已經(jīng)飛速成長,甚至在很多領域大大超越了專家學者的精準性和博識水準。

圖:與ChatGPT對話

同樣在2022年,AIGC已經(jīng)出圈過一次。

AI繪畫憑借其獨特的創(chuàng)意與便捷的創(chuàng)作工具迅速走紅,甚至出現(xiàn)使用AI作畫參賽獲獎的新聞;同時,許多AIGC方面的公司正在飛速的成長,獲取一筆筆的融資,成為獨角獸公司。

但是,在如火如荼的AIGC技術發(fā)展中,有一個問題卻始終沒有得到明確的解答,那就是AIGC雖然這么新穎、好玩,但是它的商業(yè)化價值到底如何,又能應用于哪些具體的場景呢?

本文就AIGC相關信息、落地應用與目前行業(yè)面臨的問題進行解讀,為那些對AIGC感興趣的讀者與投資人展現(xiàn)目前人工智能生成內(nèi)容的發(fā)展圖景。

2022: AIGC元年

2022年,深度學習模型Diffusion擴散化模型的出現(xiàn),直接推動了AIGC技術的突破性發(fā)展,許多基于StableDiffusion模型的應用紛紛入局。也正因如此,2022年被稱為AIGC元年。

但在各類使用AIGC技術的應用大規(guī)模“井噴”之前,AIGC也曾經(jīng)歷了幾十年的發(fā)展。

1950年,圖靈提出了著名的“圖靈測試”,給出了判定機器是否具有“智能”的方法,即機器是否能夠模仿人類的思維方式來“生成”內(nèi)容繼而與人交互。

經(jīng)過半個多世紀的發(fā)展,今天的人工智能不僅能夠與人類進行互動,還可以進行寫作、編曲、繪畫、視頻制作等創(chuàng)意工作。隨著人工智能越來越多地被應用于內(nèi)容創(chuàng)作,人工智能生成內(nèi)容悄然興起。

目前,對于AIGC這一概念的界定,尚無統(tǒng)一規(guī)范的定義。而國內(nèi)產(chǎn)學研各界對于AIGC的理解是“繼專業(yè)生成內(nèi)容和用戶生成內(nèi)容之后,利用人工智能技術自動生成內(nèi)容的新型生產(chǎn)方式”。

而結合人工智能的演進沿革,AIGC的發(fā)展歷程大致可以分為三個階段:

早期萌芽階段(1950s-1990s),受限于當時的科技水平,AIGC僅限于小范圍實驗。1957 年,萊杰倫·希勒和倫納德·艾薩克森完成歷史第一支由計算機創(chuàng)作的弦樂四重奏《伊利亞克組曲》。1966年,約瑟夫·魏岑鮑姆和肯尼斯·科爾比開發(fā)了世界第一款可人機對話的機器人Eliza。80年代中期,IBM創(chuàng)造了語音控制打字機Tangora。

沉淀積累階段(1990s-2010s),AIGC從實驗性向實用性逐漸轉變。2006年,深度學習算法、圖形處理器、張量處理器等都取得了重大突破。2007年,世界第一部完全由人工智能創(chuàng)作的小說《1 The Road》問世。2012年,微軟公開展示了一個全自動同聲傳譯系統(tǒng),可以自動將英文演講者的內(nèi)容通過語音識別、語言翻譯、語音合成等技術生成中文語音。

快速發(fā)展階段(2010s至今),深度學習模型不斷迭代,AIGC突破性發(fā)展。2014年,對抗生產(chǎn)網(wǎng)絡GAN出現(xiàn)。2021年,CLIP模型出現(xiàn);OpenAI推出DALL-E,主要應用于文本與圖像交互生成內(nèi)容。2022年,深度學習模型Diffusion擴散化模型的出現(xiàn)。

新模型下的AIGC所向披靡

過去,互聯(lián)網(wǎng)的內(nèi)容都是由用戶生成、上傳,AI只能協(xié)助人類完成一部分最簡單、最基礎的工作,無法獨立生成內(nèi)容,更不用提優(yōu)質內(nèi)容了。

但這一狀況也因Diffusion擴散化模型的開源應用而被打破,AIGC成為了繼UGC之后的又一大內(nèi)容生成方式。

相較于UGC,AIGC的最大不同是新技術驅動了機器智能創(chuàng)作內(nèi)容,這使得AIGC具有獨特的技術特征,包括數(shù)據(jù)據(jù)量化、內(nèi)容創(chuàng)造力、跨模態(tài)融合、認知交互力等,也正是這些獨有的技術能力,讓AIGC成為“不可替代”的新一代內(nèi)容生成方式。

(1)數(shù)據(jù)巨量化:

AIGC豐富的“想象力”和驚為天人的“創(chuàng)作能力”,是在海量數(shù)據(jù)的基礎上由計算機學習和模擬生成的,每一幅AI畫作的背后都是無數(shù)的標注數(shù)據(jù)與訓練。卷積神經(jīng)網(wǎng)絡和Transformer大模型的流行成功使深度學習模型參數(shù)量躍升至億級,由此帶來的數(shù)據(jù)巨量化推動了AIGC發(fā)展的進程。

如知名的計算機視覺項目ImageNet在眾包任務中有超過25000人參與,標準圖片超過1400萬張;而OpenAI更是收集了4億個文本圖像配對數(shù)據(jù)進行預訓練。在零樣本學習成熟之前,AIGC通過巨量數(shù)據(jù)實現(xiàn)內(nèi)容創(chuàng)作的發(fā)展路線仍難以撼動。

(2)內(nèi)容創(chuàng)造力:

正是有了海量數(shù)據(jù)的加成,AIGC在創(chuàng)作方面有著無限的“靈感”,也成為了AIGC最吸引用戶的特色。借助海量的語料庫,AI工具仿佛超級畫手或作曲家一樣生成指定風格的圖像、音樂或視頻。

同時,例如神經(jīng)風格遷移算法利用卷積神經(jīng)網(wǎng)絡識別圖像內(nèi)容表征和風格表征并在特定神經(jīng)網(wǎng)絡層對圖像進行重構,也使得AI畫作能夠模仿特定風格的藝術作品。

與人類創(chuàng)作過程相比,AI創(chuàng)作擁有時間短、規(guī)模大、風格多等特點,在藝術創(chuàng)作、插畫、影視編輯等領域正在產(chǎn)生變革效應,人們甚至開始擔心AIGC會不會沖擊傳統(tǒng)藝術創(chuàng)作者的工作崗位。

(3)跨模態(tài)融合:

跨模態(tài)融合是AIGC區(qū)別于傳統(tǒng)UGC和PGC的顯著特征。AI能夠分別提取文本特征和圖片特征進行相似度對比,通過特征相似度計算文本與圖像的匹配關系,從而實現(xiàn)跨模態(tài)的相互理解。

2022年9月,百度發(fā)布“2022十大科技前沿發(fā)明”,位列第一的就是“跨模態(tài)通用可控AIGC”,跨模態(tài)生成的本質是文本、視覺、聽覺乃至腦電等不同模態(tài)的知識融合,覆蓋圖文、視頻、數(shù)字人、機器人等更多場景。

在未來,隨著國內(nèi)外多家科技公司發(fā)布多模態(tài)AI大模型,AIGC的跨模態(tài)融合趨勢將進一步加強。

(4)認知交互力:

擁有一定程度的認知和交互能力,是AIGC發(fā)展的重要趨勢。

對于開發(fā)者而言,代碼的輸入輸出是人與計算機交互的底層邏輯;對于用戶而言,人們使用智能終端和網(wǎng)絡平臺實現(xiàn)人機交互和互聯(lián)通信。在人工智能場景中,通常利用自動問答、視覺識別、姿態(tài)識別等實現(xiàn)人機交互,而AIGC的出現(xiàn)則為人與機器的溝通帶來了更多可能,擁有人與人類溝通的媒介,在感知和交互上具備其獨有的特色。

AIGC既是畫家又是主播還是翻譯

在不知不覺中,AIGC已經(jīng)滲入了我們的生活中的每個角落,從導航軟件中的“人聲”指路,到直播賣貨中的“虛擬主播”,都隱藏著它的身影。目前,AIGC技術已經(jīng)率先在傳媒、電商、娛樂等領域實現(xiàn)大規(guī)模落地。

在最簡單直接的落地領域里,傳媒行業(yè)首當其沖。人機協(xié)同,能大幅提高傳媒行業(yè)一些基礎工作效率。

AIGC作為當前最新的內(nèi)容生產(chǎn)方式,與傳媒工作者協(xié)作,為媒體內(nèi)容生產(chǎn)全面賦能。寫稿機器人、采訪助手、字幕生成、語音播報等相關應用不斷涌現(xiàn),深刻地改變了媒體生產(chǎn)內(nèi)容的方式,大大提升了行業(yè)生產(chǎn)效率。

在采編環(huán)節(jié)中,語音轉寫技術大大提升了傳媒人的工作效率。借助語音識別技術,可以將一段采訪稿快速以文字的形式進行輸出,同時兼顧了準確性與時效性。2022年冬奧會期間,科大訊飛的智能錄音筆便可完成跨語種的語音轉寫,助力記者快速出稿。

智能視頻的剪輯,提升了視頻內(nèi)容的價值。通過使用視頻字幕生成、視頻錦集等視頻智能化剪輯工具,可高效節(jié)省人力時間成本,最大化版權價值。2022年冬奧會期間,央視視頻通過使用AI智能內(nèi)容生產(chǎn)剪輯系統(tǒng),高效生產(chǎn)與發(fā)布冬奧冰雪項目的視頻集錦內(nèi)容,為深度開發(fā)體育媒體版權內(nèi)容價值,創(chuàng)造了更多的可能性。

在傳播環(huán)節(jié),AIGC技術為社區(qū)生態(tài)注入了新的活力。以百度為例,“創(chuàng)作者AI助理團”已在百家號平臺上線,作為百度移動生態(tài)AIGC應用的“先遣部隊”,除AI作畫、圖文轉視頻技術外,還推出了數(shù)字主持人,為創(chuàng)作者實現(xiàn)更多場景的應用體驗,給予用戶全新的瀏覽體驗。

中國青年報和中國青年網(wǎng)官方短視頻品牌“青蜂俠”,就依托百家號平臺推出了數(shù)字主持人“青小霞”,率先實現(xiàn)了“數(shù)字主持人自由”?!扒嘈∠肌蹦芨叨葟涂陶嫒酥鞑サ穆曇艏氨砬閯幼鳎瑢崿F(xiàn)高質多量的內(nèi)容生產(chǎn)和播報,降低媒體運作和內(nèi)容生產(chǎn)成本,為內(nèi)容傳播形式注入科技創(chuàng)新力。

在當前,AIGC已經(jīng)在電商行業(yè)中成熟落地,尤其是虛擬主播等應用產(chǎn)品,已經(jīng)為不少消費者提供實時服務。

隨著數(shù)字技術的不斷發(fā)展與消費的升級,良好的購物體驗成為消費者越來越看重的地方。而利用AIGC技術,可通過快速、準確響應消費者需求與構建沉浸式購物場景的方式來提升消費者的購物體驗。

在構建沉浸式購物場景中,打造虛擬主播是必不可少的環(huán)節(jié)。這里的虛擬主播并非是過去我們認為的“皮套人”,而是可以為觀眾提供24小時不間斷貨品推薦介紹的“數(shù)字人”。虛擬主播有著以下三大優(yōu)勢:

一是可以代替真人直播,為用戶提供更靈活的觀看時間和更方便的購物體驗,也在為合作商家節(jié)省成本的同時創(chuàng)造更大的流量。如歐萊雅、飛利浦等品牌的虛擬主播會在0點到9點之間進行直播,與真人主播相互配合,提供24小時無縫對接的直播服務。

二是虛擬主播可塑造店鋪形象,拉近與年輕消費者的距離。如彩妝品牌“卡姿蘭”推出自己的品牌虛擬形象,并將其引入直播間作為其天貓旗艦店日常的虛擬主播導購。

三是虛擬主播穩(wěn)定可控,不會出現(xiàn)“人設崩塌”的情況。虛擬主播人設、言行舉止等均可由品牌方掌握,對于真人帶貨安全性、可控性更強。品牌方無需擔心虛擬形象人設崩塌,為品牌帶來負面新聞。

目前,由AI驅動的虛擬主播擁有多變的形象、媲美真人的聲音和多種直播場景。以京東云言犀為例,通過自研的3DNeuralRender神經(jīng)渲染器,可以高保真地合成主播面部細節(jié),在互動中,2D及超寫實、高精度3D數(shù)字員工驅動方案,實現(xiàn)了音唇精準同步。目前言犀擁有100+的數(shù)字人形象,在2022年雙11期間,在近200百家付費品牌店鋪中開播,累計帶來數(shù)百萬GMV的轉化。

京東數(shù)字人:靈小播

對話式AI技術主導的智能服務,助力品牌快速響應消費者需求。每年購物節(jié)期間,店鋪中的客服數(shù)量在面對消費者的海量問題時總會顯得“捉襟見肘”,而任務型對話AI則可以扮演客服的角色。

對話式AI產(chǎn)品可替代人類對話完成重復性、規(guī)則性對話任務,優(yōu)化重構對話服務的工作流與職能重點,還可為對話服務提供智能調(diào)度、坐席助手、對話洞察等輔助功能,與人工坐席并肩作戰(zhàn),構建輔助培訓、運營管理、指導洞察的良性循環(huán)。

在京東言犀平臺,依靠領域性大模型K-PLUG,實現(xiàn)了短文本和長文本的自動生成。目前已經(jīng)覆蓋了京東的3000多個三級品類,累計生成文案30億字,應用于京東發(fā)現(xiàn)好貨頻道、搭配購、AI直播帶貨等,累計帶來超過3億元GMV。

在今年雙11期間,智能客服累計接待了超4.5億次的咨詢服務,迎接了年終最大的流量洪峰,并完成任務。

此外,AIGC也已經(jīng)娛樂行業(yè)落地開花,拓展了娛樂邊界。

在數(shù)字時代,娛樂不僅僅再是游戲,更是與樂趣的尋找與現(xiàn)代人對歸屬感的渴望。借助AIGC技術,通過趣味性圖像、音視頻、虛擬偶像等方式,娛樂行業(yè)快速擴展邊界,以另一種面貌獲得全新的發(fā)展動能。

趣味性圖像、音視頻生成,激發(fā)用戶使用熱情。在圖像生成方面,AI換臉、一鍵構圖等應用極大地滿足了用戶獵奇地需求。在國外,F(xiàn)aceAPP一經(jīng)推出,就立刻病毒式在網(wǎng)絡上引發(fā)熱潮,登上App Store下載榜首。而在國內(nèi),百度文心一格也一度帶起了AI作畫的熱潮,以使用便捷、畫作精美、善于東方元素等多個特點,受到了用戶的一致好評。

在音視頻生成方面,語音模仿、變聲器等功能,增加了互動娛樂性。騰訊旗下多款游戲均已集成變聲、語音模仿、自動生產(chǎn)短視頻等功能,讓溝通本身也成為了一種樂此不疲的游戲。

打造虛擬偶像,釋放IP價值。在娛樂賽道中最經(jīng)典的虛擬偶像群體非初音、洛天依為代表的“虛擬歌姬”莫屬,而其都是基于VOCALOID 語音合成引擎軟件為基礎創(chuàng)造出來的虛擬人物,由真人提供聲源,再由軟件合成人聲。

自2012年7月12日洛天依出道,在十年的時間內(nèi),音樂人以及粉絲已為洛天依創(chuàng)作了超過一萬首作品,洛天依在為用戶提供更多想象和創(chuàng)作空間的同時,也與粉絲建立了更深刻聯(lián)系。

除與粉絲共同創(chuàng)作外,AI合成視頻、音頻,也幫助虛擬偶像快速出圈,實現(xiàn)變現(xiàn)場景的多元化,目前可通過演唱會、音樂專輯、廣告代言、直播、周邊衍生產(chǎn)品等方式進行變現(xiàn)。

同時隨著虛擬偶像商業(yè)價值被不斷發(fā)掘,品牌方與虛擬 IP 的聯(lián)動意愿隨之提升。如由魔琺科技與次世文化共同打造的網(wǎng)紅翎Ling于2020年5月出道至現(xiàn)在已先后與VOGUE、特斯拉、GUCCI 等品牌展開合作。

除傳媒、電商、娛樂行業(yè)外,金融、工業(yè)、醫(yī)療等各行各業(yè)的AIGC技術也都在蓬勃發(fā)展、加速落地。從整體來看,AIGC技術已經(jīng)開始深入融合到我們生活中的每個角落,其相關應用正加速滲透到經(jīng)濟社會的方方面面。

AI無所不能了嗎?

在相關應用大量落地,AIGC技術快速發(fā)展的當下,仿佛未來一切都很美好。但我們需要認清的是,目前AIGC還處在發(fā)展的初期。關鍵技術、企業(yè)核心能力和相關法律法規(guī)都尚未完善,圍繞著公平、安全、責任的爭議日益增多,也引發(fā)了一系列亟待解決的問題。

當前,AIGC關鍵技術不夠成熟,大規(guī)模落地仍存在痛點。

隨著AIGC 技術不斷升級,進一步釋放內(nèi)容生產(chǎn)力,但其在人工智能關鍵技術方面尚存在局限,掣肘產(chǎn)業(yè)發(fā)展進程。

具體來看,一是人工智能算法方面仍有缺陷,在透明度、魯棒性、偏見與歧視方面仍存在尚未克服的及數(shù)據(jù)線,導致算法應用問題重重。二是AIGC內(nèi)容編輯與創(chuàng)作技術不夠完善,人工智能技術加持的內(nèi)容編輯與創(chuàng)作技術仍然受短板制約,導致產(chǎn)業(yè)發(fā)展存在技術門檻。

大量AIGC 企業(yè)噴涌而出,但是核心能力參差不齊,威脅網(wǎng)絡內(nèi)容生態(tài)健康安全發(fā)展。

隨著數(shù)字技術的開源開放,AIGC 技術研發(fā)門檻、制作成本等不斷降低,致使市場上的平臺企業(yè)泥沙俱下,企業(yè)核心能力不足對良好網(wǎng)絡生態(tài)構建造成嚴重障礙。

具體來看,一是內(nèi)容審核能力有待提升,目前基本審核方式為“機審+人審”,機審誤報率偏高,而人審也沒有形成統(tǒng)一標準。審核能力的缺失導致了包含虛假、不良信息的違法違規(guī)內(nèi)容流出,影響產(chǎn)業(yè)甚至整個網(wǎng)絡生態(tài)環(huán)境。

二是是企業(yè)技術管理能力建設不足。由于AIGC技術復雜,且具有高動態(tài)性等特點,便要求企業(yè)具備相應的技術管理能力。但企業(yè)具有商業(yè)屬性,決定了在資源有限的情況下其往往傾向于自身利益,而對技術安全和制度保障投入不足。

三是是企業(yè)風險治理能力尚未完善。當前AIGC技術仍處于發(fā)展初期,其風險具有未知性和復雜性等特點,很多企業(yè)對于對風險的預測、防范和應急處置能力均尚未完善,風險治理理念也未落實到工程技術實踐中。

當前,有關AIGC相關規(guī)范指引尚需完善,發(fā)展與治理之間存在匹配問題。

近年來,人工智能產(chǎn)業(yè)規(guī)范指引不斷推出,治理體系初顯格局,但隨著科技進步加快,制度建設亦步亦趨也未必嚴絲合縫,這又引發(fā)了技術創(chuàng)新發(fā)展與政策支持、法律規(guī)制的匹配問題。

具體來看,一是產(chǎn)業(yè)發(fā)展需落實支持政策。未來,各地、各部門政策的支持力度、推進落實和動態(tài)調(diào)整情況將決定著技術與社會的相互建構程度,將對AIGC技術在社會情境中的落地與發(fā)展起到重要作用。

二是AIGC可版權性有待厘清。法律概念的模糊引發(fā)司法裁判的不確定,導致 AIGC作品存在著著作權歸屬不清的現(xiàn)實困境。這一問題阻礙人工智能技術發(fā)揮其創(chuàng)作價值,還有可能稀釋作品權利人的獨創(chuàng)性,威脅他人的合法權益。

三是新技術增加監(jiān)管難度。是由于互聯(lián)網(wǎng)相關技術的發(fā)展,造假內(nèi)容具有分散性、流動性、大規(guī)模性和隱蔽性的特點,導致追蹤難度和復雜性與日俱增,再加上規(guī)范指引的模糊和滯后,對內(nèi)容監(jiān)管行動造成了嚴重阻礙。

寫在最后

AIGC作為UGC后新一類創(chuàng)作方式,是數(shù)智時代的典型應用創(chuàng)新,它的快速發(fā)展不僅正在革新數(shù)字文化創(chuàng)作的生產(chǎn)范式,也在改變用戶與人工智能的交互模式。目前,已經(jīng)滲透到了傳媒、電商、娛樂等各個行業(yè)之中。

但在展望AIGC如此美好的未來之前,我們需要明確,現(xiàn)在其仍處于發(fā)展的初期,還是存在許多尚未觸達、解決的難題。面對生活中越來越多的人工智能生成內(nèi)容,如何安全、健康地使用,也將為人類帶來新的難題。

但無論如何,AIGC作為新一代創(chuàng)作方式,在技術進步的推動下,正處于萬億賽道的新起點。在未來通用人工智能時代中,AIGC也將拓展出更多應用方式,更好地服務人們的生活。

如ChatGPT一樣的AIGC產(chǎn)品,終將越來越頻繁地出現(xiàn)在我們的社會場景之中,成為常態(tài)。

本文為轉載內(nèi)容,授權事宜請聯(lián)系原著作權人。