中化農業MAP“農業主糧作物時空耦合高質量數據集”入選國家數據局典型案例 |
| 時間:2025-09-11 來源:先正達集團中國 視力保護色: |
|
近日,國家數據局在2025中國國際大數據產業博覽會高質量數據集主題交流活動上,發布《高質量數據集典型案例》。中國中化旗下中化農業MAP自主研發的“農業主糧作物時空耦合高質量數據集”從663家參選單位中脫穎而出,入選典型案例名錄。 高質量數據集是指具有一定主題,能夠準確、高效地用于訓練和評估機器學習模型的數據集合,具有完整性、準確性、及時性、一致性、相關性等特征。高質量數據集能夠幫助數據分析、機器學習和模型計算獲得更可靠的結果。
農業種植類數據來自于農業生產過程記錄的各種文本、圖像等數據,是農業數據中最具價值的數據,但存在數據分散、標準不統一、單點離散、時間與位置信息錯配、多模態數據割裂等問題,給高質量數據集的建設帶來困難。 為此,中化農業MAP構建了統一的數據標準和采集體系,打破圖文數據割裂采集的模式,實現貫穿地塊、空間和時間的數據串聯,將零散的“數據碎片”拼成一張完整的、有時序的“種植數據地圖”。同時,基于自然語言處理(NLP)與大語言模型(LLM)的生成能力,中化農業MAP將分散的結構化數據,自動生成為農業場景的描述文本,并結合語義生成語料數據,為農業AI大模型提供準確性與適用性兼具的高質量數據集。 使用高質量農業種植數據集訓練、微調后的農業AI大模型,能針對細分農業場景(如品種推薦、營養配比方案、農藥配比方案等),提供細化且可執行的量化方案,從而推動AI大模型技術在農業場景中落地實施。
此次成功入選典型案例,得益于中化農業MAP在農業大數據領域的三大創新點: 多模態數據時空耦合處理創新 中化農業MAP以文本、圖像、視頻等多模態數據與結構化數據處理為核心,以農場為載體,以作物生長過程為時間軸,實現數據在時間與空間維度的串聯與信息互補,構建了從宏觀到微觀的多尺度、多維度融合數據。 此外,在結構化數據處理中,中化農業MAP根據農業應用場景,將原本零散的數據自動轉化為貼合種植場景的描述文本。以此為基礎,結合知識圖譜技術構建領域知識庫,批量生成用于大模型訓練的農業高質量數據。 線上線下協同專家評審的數據標注機制創新 通過線上線下一體化的業務服務體系,中化農業MAP自主研發了集業務服務和數據采集于一體的線上平臺。通過數據平臺,實現數據實時自動化匯集,并完成數據自動標注和專家的人工審核。對于不確定的標注內容,平臺會分派屬地化農業專家進行研判和校準,從而提高數據的標注準確性。 在此機制下,數據標注準確率可達到98%以上,為農業大模型訓練提供高質量數據集。此外,標注后的精準數據可對預標注模型進行微調,進而形成更準確、更高效的自動化標注能力。 用戶參與的閉環數據采集模式創新 在圖片采集場景中,用戶拍照識別后上傳的圖片,會經過自動化標注處理進入專家審核平臺,由專業人員對標注結果進行復核和確認,確保高質量圖文數據可以更新到數據集中,以用于進一步訓練、迭代產品功能,從而更好地服務于用戶。此模式下,數據的采集者也是應用者和反饋者,形成了從數據采集到應用迭代的閉環模式。 此外,在數據采集方面,中化農業MAP依托線上線下的服務體系,將線下遍布全國的技術服務中心和農藝師團隊,與業務軟件、物聯硬件相結合,保障了農業數據的持續、高效采集,使數據集真正成為了“活”數據。
面向未來,中化農業MAP將持續拓展數據集覆蓋范圍,提升數據的詳實度和準確度。促進產業內數據共創、共享和高效利用,形成數據良性循環,為發展農業領域新質生產力提供堅實的數據支撐和創新動力。 |