作者: 兆光科技 發(fā)布時間: 2024/08/08 點擊: 6787次
随著(zhe)AI技術向(xiàng)視頻産業生産、傳輸和消費環節的滲透,AI技術在視頻分析中的應用逐漸常态化,智能(néng)視頻衍生而出。有别于傳統視頻處理流程,智能(néng)視頻在視頻處理、分析、編碼階段引入了AI輔助技術,除了提供基礎視頻呈現功能(néng),兼顧提供如智能(néng)分析等應用于場景的服務功能(néng)。智能(néng)視頻的産生和發(fā)展标志著(zhe)視頻産業發(fā)展邁入新階段。
智能(néng)視頻的多元應用重塑了視頻産業鏈,視頻處理技術根據不同的視頻應用多維迸發(fā),視頻編解碼技術與AI技術的結合具有共性和标準化屬性,因此是智能(néng)視頻技術鏈條中最重要的環節之一。然而目前視頻編碼技術發(fā)展滞後(hòu)于智能(néng)視頻的需求,智能(néng)視頻編碼技術的發(fā)展路徑將(jiāng)會決定未來智能(néng)視頻的趨勢變革。
多視角全景視頻使得視頻編碼技術趨于複雜多元
視頻技術演進(jìn)出現多路和全景視頻,視頻的角度和覆蓋範圍不斷擴展。多路視頻是多路攝像頭對(duì)應多個視頻畫面(miàn),每個攝像頭安裝廣角鏡頭,形成(chéng)多個大于90度的廣角畫面(miàn),而全景視頻則是廣角鏡頭和多路視頻拼接系統技術的延伸,實時獲取周圍360°視場畫面(miàn)的全景成(chéng)像系統正逐漸成(chéng)爲視頻領域的研究熱點。多路視頻拼接系統技術是從多個攝像頭采集視頻,在遠端進(jìn)行拼接,從而獲得遠程、高質量、大場景的沉浸式畫面(miàn)。全景視頻應用場景涉及VR視頻、機器人、全景地圖、國(guó)防工業等領域。
全景視頻的實現即多路視頻拼接系統對(duì)于算法要求很高。在視頻圖像拼接過(guò)程當中,圖像處理計算數據量龐大,需要短時間内完成(chéng)對(duì)圖像的拼接并且保證多路視頻流的時間一緻性,對(duì)于視頻編碼技術要求趨于多元化和複雜化。新型視頻應用場景需求的不斷增加催生了超高清視頻和多視頻範圍的需求。
新型應用場景湧現,在娛樂、辦公、工業、安防等領域擴展深化
随著(zhe)5G和AI技術的發(fā)展,視頻行業商業模式重構,新型視頻應用場景應時而生,廣泛應用于人們的生産、生活之中。視頻應用不再局限于娛樂場景,而是向(xiàng)工業制造、安防領域、生産辦公等場景拓展。在娛樂應用場景中,短視頻、雲遊戲等作爲軟件應用在人們手機、平闆等終端設備中随處可見;受過(guò)去幾年疫情的影響,遠程辦公成(chéng)爲強需求,雲桌面(miàn)和遠程會議等作爲新型視頻應用是遠程辦公的重要模式;在工業、安防等領域,機器視覺和視頻監控對(duì)視頻形式提出了新的要求。未來随著(zhe)産業整合泛化和元宇宙布局趨勢加強,廣電超高清、VR/AR等場景持續湧現,人們需求和視頻類型將(jiāng)會更趨多元。
近四十年來,盡管上述視頻壓縮标準持續叠代、編碼效率穩步提升,但仍未脫離劃分、預測、變換、量化、熵編碼的技術框架。以H.26x爲例,每一代新的視頻編碼标準都(dōu)比上一代标準的編碼效率提升近一倍,節省了約40%-50%的碼率,但與此同時編碼的複雜度卻是幾倍的增加。在現有的标準體系下,算力成(chéng)本的“邊際收益”加速遞減,基于統計學(xué)原理的傳統視頻編碼标準已經(jīng)逼近了技術上限,當前的視頻壓縮技術難以滿足下遊視頻應用的快速增長(cháng),亟需引入新技術以激活視頻編碼這(zhè)一視頻産業鏈價值裂變的關鍵環節,充分釋放産業勢能(néng),爲智能(néng)視頻産業提供底層支持。
智能(néng)視頻的發(fā)展需要高性能(néng)編碼器的推動,應用于智能(néng)視頻的編碼器需具備更高的編碼效率與分辨率,更多編碼模式的選擇與更加靈活的技術架構,便于與AI應用結合,賦能(néng)智能(néng)分析,服務于涵蓋虛拟現實、遊戲、數字生産視頻等豐富場景。智能(néng)視頻端的編碼需求同步催生了智能(néng)視頻編碼技術的升級叠代,助力行業整體發(fā)展。
智能(néng)視頻編碼同時面(miàn)向(xiàng)人眼視覺和機器視覺,運用神經(jīng)網絡等人工智能(néng)技術,一方面(miàn)執行信号壓縮任務,對(duì)編碼場景、參數、模式選擇等信息進(jìn)行面(miàn)向(xiàng)應用場景和内容特征的分析,利用AI技術對(duì)去噪聲、圖像增強、細節改善等環節進(jìn)行預處理,基于最佳模式的配置與編碼,實現精準化編碼控制,提高壓縮效率,即“AI for Coding”;另一方面(miàn)在編碼過(guò)程中兼顧後(hòu)續的智能(néng)分析過(guò)程,通過(guò)特征分析、特征提取,按照智能(néng)分析需求進(jìn)行特征編碼,優化解碼應用端的智能(néng)分析過(guò)程,減少解碼端重複調用AI進(jìn)行特征提取分析和處理的重複過(guò)程,爲後(hòu)續針對(duì)性重構視頻場景、執行智能(néng)分析任務奠定基礎,即“Coding for AI”。智能(néng)視頻編碼打破了傳統編碼模式下壓縮編碼與智能(néng)分析相割裂的“1+1”分布式模式,整合了編碼、重組、解碼及智能(néng)應用等視頻鏈環節,實現從視頻編碼到重構分析的一體化智構編碼。
智能(néng)視頻編碼整體市場規模包括軟件服務和硬件設備兩(liǎng)部分。根據艾瑞咨詢測算,2021年中國(guó)智能(néng)視頻編碼整體市場規模爲237億元。2020年得益于超高清視頻的推廣與落地應用和疫情催化下雲視頻會議和在線教育的快速滲透,消費端和産業側的生活娛樂、工作交流紛紛從線下轉向(xiàng)線上,使得2020年智能(néng)視頻編碼市場增速達64.5%。2021年起(qǐ)智能(néng)視頻編碼市場恢複平穩較快發(fā)展,随著(zhe)智能(néng)編碼技術的場景滲透和雲遊戲、VR/AR等下遊新興市場的增量起(qǐ)勢,市場規模加速提升,預計2025年智能(néng)視頻編碼市場規模有望突破600億元。
中國(guó)智能(néng)視頻編碼産業鏈主要由核心硬件與編碼标準、智能(néng)視頻編碼解決方案與細分場景應用三個部分構成(chéng)。
(1)雲計算、通信服務及CDN服務作爲基礎支持貫穿整個智能(néng)視頻編碼産業。
(2)智能(néng)視頻編碼産業鏈的上遊由編碼标準與核心硬件構成(chéng)。
(3)多領域細分場景是智能(néng)視頻編碼産業鏈的終端環節。
(4)智能(néng)視頻編碼解決方案是産業鏈的核心環節。
近二十年,随著(zhe)底層基礎設施和技術體系的日趨成(chéng)熟,互聯網視頻蓬勃發(fā)展,逐漸成(chéng)爲了人們獲取信息、交流娛樂的重要方式。相比單純的文字、圖片或音頻,視頻以更加直觀的方式聚合多維度的信息,能(néng)夠帶來更強的沉浸式體驗和交互性。根據CNNIC第50次《中國(guó)互聯網絡發(fā)展狀況統計報告》數據,截至2022年6月網絡視頻用戶規模爲9.95億,占網民整體的比例高達94.6%。随著(zhe)視頻類應用使用體驗的大幅優化,其消費時長(cháng)占移動互聯網應用的比例呈現上升态勢,這(zhè)爲視頻編碼創造了巨大的市場空間。2025年中國(guó)互聯網視頻編碼市場規模將(jiāng)達270億元,相比2019年的爆發(fā)性增長(cháng),互聯網視頻行業發(fā)展趨穩,年增長(cháng)率穩定在25%的水平。
互聯網視頻根據服務類型主要分爲點播、直播和互動直播三類。轉碼是點播服務的核心技術,可伸縮編碼技術在互聯網視頻轉碼這(zhè)一環節得到了廣泛應用,具體是指事(shì)先將(jiāng)内容提供方上傳的視頻在雲端解碼再編碼,轉換爲标準格式并雲端存儲,根據用戶實際帶寬情況和播放終端自動、靈活地匹配分發(fā)不同碼率的視頻文件,在多碼流場景下提供最佳解碼畫質的解決方案,即兼顧清晰度和流暢度的最優觀看體驗。可伸縮編碼技術也稱爲分層編碼,可通過(guò)AI編碼工具實現并具有魯棒性。直播與點播相比具有實時性和突發(fā)性特征,對(duì)時延和首屏時間等指标更爲敏感,對(duì)高并發(fā)和弱網環境下的穩定性也有著(zhe)更高的要求。與常見的單向(xiàng)一對(duì)多直播不同,互動直播支持用戶的雙向(xiàng)交流。這(zhè)種(zhǒng)雙向(xiàng)交流一方面(miàn)對(duì)延時的容忍度極低,另一方面(miàn)因爲涉及多路視頻流,帶寬壓力和編解碼壓力成(chéng)倍增加。
5G、大數據、雲計算、物聯網、區塊鏈、人工智能(néng)等技術推動廣播電視發(fā)展從标清到高清、超高清,從功能(néng)業務型到智能(néng)服務型,從被(bèi)動接收到主動交互叠代發(fā)展。4K/8K大型直播作爲超高清視頻的典型應用場景之一,對(duì)全流程制播設備和視頻編碼技術的編碼效率和時延提出了更高要求。超高清直播與5G技術已經(jīng)成(chéng)爲标配,基于5G網絡傳輸下的轉直播應用不斷拓展。
超高清視頻廣播産業的高速發(fā)展,驅動以視頻爲核心的行業智能(néng)化轉型,産業生态體系逐步完善,超高清視頻智能(néng)編碼市場容量日趨增長(cháng)。艾瑞咨詢預測2025年智能(néng)視頻編碼在廣電超高清領域的市場規模有望突破30億,未來增速將(jiāng)保持在35%以上。
8K VR技術和360度視角拍攝將(jiāng)成(chéng)爲未來高清轉播的重要技術手段。以北京2022年冬殘奧會的殘奧冰球項目爲例,運用8K VR及自由視角的拍攝制作技術,展示了接近360度旋轉的“自由視點”。通過(guò)場内布置的60台攝像機最佳機位形成(chéng)真實視點,并在每兩(liǎng)個真實視點之間插入30個“虛拟視點”畫面(miàn),將(jiāng)虛拟視點和真實視點進(jìn)行融合拼接,向(xiàng)觀衆呈現出如時間靜止般、平滑的精彩回放鏡頭。體育賽事(shì)超高清360度新興轉播技術從現場、雲服務器、5G網絡再到終端實現8K VR比賽信号直播,提升賽事(shì)觀賞性和臨場感。360度多路視角拍攝需要實現對(duì)現場攝像機的視頻内容進(jìn)行AI圖像穩定處理和時間同步處理,將(jiāng)多路視頻的時間軸保持幀級同步,并處理成(chéng)自由視角視頻流。當需求上升到上百路4K級超高清視頻時,傳統的軟編或者GPU編碼方式將(jiāng)帶來成(chéng)本的指數級上升。亟需能(néng)夠集成(chéng)多路接口進(jìn)行高清數字接口視頻輸入和對(duì)360度超高清影像進(jìn)行專用處理的芯片,與智能(néng)視頻編碼技術結合,保障超高清廣播視頻的高效傳輸。
高效的視頻編碼标準和編碼器碼率控制模塊是虛拟終端平台的核心需求。虛拟終端市場發(fā)展處于産業起(qǐ)步階段,雖然初具規模,但市場較爲分散,虛拟終端作爲智能(néng)視頻編碼技術的新型應用場景,市場規模的增長(cháng)幅度和增長(cháng)空間較大,艾瑞咨詢預計,2025年雲遊戲、雲桌面(miàn)和雲手機市場下智能(néng)視頻編碼的市場規模將(jiāng)突破50億元,增長(cháng)率保持在20%以上。
在雲遊戲傳統GPU編碼方案中,圖形渲染和視頻流編碼都(dōu)在GPU中進(jìn)行,通常GPU在進(jìn)行視頻圖形渲染時,視頻編碼能(néng)力會有所下降,并且GPU的編碼性能(néng)相比專用轉碼芯片存在一定差距。針對(duì)此短闆的智能(néng)視頻編碼解決方案將(jiāng)GPU與專用轉碼芯片結合,補充專項編碼能(néng)力,釋放CPU和GPU資源,并且支持直接從GPU圖像存儲中獲取編碼數據,免去HOST層延時,增強圖片渲染能(néng)力的同時達到每幀編碼超低耗時的目的。
交通、公安、司法是面(miàn)向(xiàng)政府端安防領域的核心組成(chéng)部分,其中交通、公安細分場景,對(duì)于視頻監控的依賴程度較高,VCM/DCM及AI輔助編碼技術在視頻監控的傳輸與展示效果中可以發(fā)揮更大價值。視頻監控在司法領域承擔的主要任務是庭審監測,監控視頻體量與視頻質量要求均遠低于在公安、交通領域的應用,現階段對(duì)助力視頻分析的VCM/DCM及相關AI編碼技術不存在強烈需求。安防市場的“馬太效應”明顯,海康威視、大華股份、宇視科技、華爲等龍頭企業在業内占據絕對(duì)比重。2021年智能(néng)視頻編碼在安防交通領域的市場規模約22億元,伴随疫情逐漸好(hǎo)轉大背景下整體安防市場的回暖,智能(néng)技術與視頻監控場景的适配結合,智能(néng)視頻編碼标準的改進(jìn)完善,艾瑞咨詢預測2025年智能(néng)視頻編碼在安防交通領域的市場規模有望突破30億。
機器視覺是視頻編碼技術與制造業緊密連接的核心技術載體,作爲人工智能(néng)技術中快速發(fā)展的一個分支,自上世紀80年代,機器視覺已逐步在多個領域成(chéng)功替代人眼視覺進(jìn)行識别、檢索、分析、判斷等應用。2015年出台的《中國(guó)制造2025》強國(guó)戰略行動綱領,明确了制造業智能(néng)升級任務的重要性與緊迫性,推動了企業在研發(fā)、生産、管理、服務等方面(miàn)的智能(néng)化改進(jìn)。機器視覺系統是綜合光學(xué)、機械、電子、計算機軟硬件等多維度能(néng)力的技術,依托圖像處理、模式識别、信号處理、人工智能(néng)等技術在工業制造領域替代人眼執行工作。相較于人眼視覺,機器視覺在分辨率、速度、精度等方面(miàn)具備絕對(duì)優勢。作爲機器視覺系統的前端數據采集設備,工業相機的品質優劣、相機幀率壓縮效果的高低將(jiāng)直接決定機器視覺編碼圖像視頻的呈現質量。
“Coding for AI”是VCM與DCM技術方案的核心理念,即通過(guò)特征提取與特征編碼,從視頻生産環節降低數據傳輸與計算負載,保留價值信息,适配後(hòu)續機器視覺智能(néng)分析。基于神經(jīng)網絡構建機器視覺模型,便于模型叠代與模塊調用,優化編碼測試結構,平衡編碼複雜度與傳輸時延,讓視頻采集數據精準服務于最終分析任務。VCM與DCM編碼标準均處于探索階段,在下一代标準正式公布之前,面(miàn)向(xiàng)機器視覺分析的需求仍主要依賴成(chéng)熟性高,具備成(chéng)本優勢的傳統編碼器實現。
伴随服務于機器視覺的視頻編碼技術日趨完善,編碼标準的發(fā)力方向(xiàng)將(jiāng)向(xiàng)第二階段面(miàn)向(xiàng)人機混合視覺的視頻編碼技術傾斜,即同一碼流同時滿足人眼視覺對(duì)視頻質量的要求,并兼顧機器視覺需求。未來視頻行業需滿足泛化要求,前置應用場景,視頻生産根據實際需求進(jìn)行編碼,适配所有類型的視覺任務,因此對(duì)結合AI算法并服務于各種(zhǒng)應用場景的智能(néng)編碼技術的研究成(chéng)爲趨勢。
标簽: AI
版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com
特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有
輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!
Tel:15137991270
企業QQ:210603461
Emile:hezuo@lyzg168.com
地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室
網站:https://www.lyzg168.com
我們的微信
關注兆光,了解我們的服務與最新資訊。
Copyright © 2018-2019 洛陽霆雲網絡科技有限公司