技術文章
對于數據的存儲落盤來說,占據絕大部分存儲空間的數據來自于相機傳感器,特別是當前的數采需求可能需要6-8個800M像素的相機采集,進行RAW數據落盤。
舉個例子
因此能夠有效降低數采的存儲成本,減少數據挖掘的花費至關重要。
應對方法
時間同步策略
通過良好時間同步策略,可以避免產生大量無效數據。當然這里的無效也是相對而言的,原因之一是通過后期的手動調整進行不同模態(tài)的數據的時間對齊是一種非常耗時的工作。在數據采集的過程中,通過觸發(fā)式的機械連接和軟件時間同步,讓不同模態(tài)的傳感器數據打上高精度的時間戳,一方面便于數據管理,減少無效數據落盤,另一方面充分有利于算法訓練。
數據壓縮
從數據壓縮的角度來看,在采集過程中可以采用H.264或者H.265進行視頻壓縮,比如在H.265壓縮的情況下,取決于采集數據的復雜性、分辨率、幀率和編碼器的設置,可以實現50%左右的壓縮比率,1GB壓縮成500MB,當然這個比率會受到很多參數影響,因此因實際情況而有所不同。
專注所需場景
目前,隨著傳感器技術的和算法的進步,自動駕駛算法/系統(tǒng)已經能夠應對99%的場景,這是因為各個算法已經獲得了PB甚至EB級別的數據,覆蓋了生活中的絕大多數場景。為了去應對剩下1%的邊緣場景,實際上,讓數采車直接進行上路進行數據采集,將會有大量的重復數據,并且需要數據團隊需要花費相當多的時間在其中尋找到目標數據。所以,優(yōu)化數據的采集模式,讓數采專注于算法所需場景的數據,是當下能夠有效減少數據存儲體積的方式。
康謀方案
康謀HEEX
針對這方面,康謀HEEX智能數據管理平臺采用了基于事件和預設觸發(fā)器的數據采集解決方案,能夠使得數據團隊直接在邊緣設備或是云端直接提取與所需事件相關的數據。我們稱之為“智能數據",并且能夠無縫分發(fā)給開發(fā)團隊,優(yōu)化數據存儲成本和資源。
HEEX的工作流
康謀HEEX的工作流主要分為以下5個部分:
定義所需的“智能數據"。即設置所需采集的數據的條件,比如“在有行人通過時,制動加速度超過5m/s^2"場景的數據;
定義觸發(fā)器。將設置的條件通過康謀HEEX SDK自動部署到數據采集系統(tǒng)上;
部署代理。即設置監(jiān)測數據、評估條件并最終記錄事件的相關數據到對應的系統(tǒng)中;
提取和上傳數據。通過系統(tǒng)的網關和康謀HEEX API,可以方便上傳到云端或下載到本地;
數據分發(fā)。同樣通過康謀HEEX API可以根據用戶的需求自動處理不同模態(tài)的數據,并將其分發(fā)的對應的開發(fā)團隊。并隨著場景的變化和更新,可以進行更加細化和多樣化的條件設置,以更好的定位只能數據。
在這個過程中,落盤的只有目標場景的數據,而并非所有數采車經過的場景,因此能夠有效降低數采的存儲成本,減少數據挖掘的花費。
同時,康謀HEEX也將會根據需求,集成到康謀高精度的時間同步數據采集方案中,同時提供數據壓縮和智能數據管理服務。
如您對上述產品和解決方案感興趣,
歡迎聯(lián)系我們了解更多信息。
期待與您的交流!