省域?qū)m?xiàng)數(shù)據(jù)建設(shè)及智能化應(yīng)用
毛振興 盧嵐 王碩
(北京北大方正電子有限公司)
摘要:在大數(shù)據(jù)和人工智能技術(shù)的驅(qū)動(dòng)下,省域?qū)m?xiàng)數(shù)據(jù)融合創(chuàng)新、場(chǎng)景化智能應(yīng)用、數(shù)據(jù)治理思維革命、數(shù)據(jù)價(jià)值重構(gòu)已成為傳媒業(yè)的結(jié)構(gòu)性力量,并由此形成省域數(shù)據(jù)治理新形態(tài)、媒介新生態(tài)和傳媒新業(yè)態(tài)。開放多元的省域數(shù)據(jù)生態(tài)催生新內(nèi)容和新服務(wù),跨界融合和開放合作成為助力媒體融合新范式。本文通過省域?qū)m?xiàng)數(shù)據(jù)中心與場(chǎng)景化智能應(yīng)用的研究與實(shí)踐,系統(tǒng)闡釋如何在技術(shù)端發(fā)力,打造智能化省域?qū)m?xiàng)數(shù)據(jù)中心建設(shè),進(jìn)一步提升媒體內(nèi)容的供給質(zhì)量與服務(wù)運(yùn)行效率。
關(guān)鍵詞:大數(shù)據(jù) 人工智能 省域 智媒 數(shù)據(jù)服務(wù)
一、 引言
隨著全國(guó)新基建產(chǎn)業(yè)按下快進(jìn)鍵,新技術(shù)支撐體系下的媒體形態(tài)將充分融合。其中,涉及信息與融合基礎(chǔ)設(shè)施建設(shè)的三大核心技術(shù)為:以5G為代表的通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施、以數(shù)據(jù)中心、智能計(jì)算中心為代表的算力基礎(chǔ)設(shè)施、以人工智能、云計(jì)算、區(qū)塊鏈等為代表的新技術(shù)基礎(chǔ)設(shè)施。
在剛剛落幕的第二屆中國(guó)廣電媒體融合發(fā)展大會(huì)上,北京北大方正電子有限公司的“基于方正數(shù)據(jù)&AI雙中臺(tái)體系支撐的智能區(qū)域數(shù)據(jù)中心建設(shè)”項(xiàng)目成為“2021年度媒體融合創(chuàng)新技術(shù)與服務(wù)應(yīng)用新入庫項(xiàng)目”,并在安徽等地落地應(yīng)用。
二、 省域?qū)m?xiàng)數(shù)據(jù)管理
省域?qū)m?xiàng)數(shù)據(jù)治理是聚合和治理跨域數(shù)據(jù),為智能經(jīng)濟(jì)的底層基礎(chǔ),是產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的必然要求。通過數(shù)據(jù)中臺(tái)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),再進(jìn)行組織存儲(chǔ),形成大數(shù)據(jù)資產(chǎn)層,進(jìn)而為客戶提供高效的省域?qū)m?xiàng)數(shù)據(jù)服務(wù)。利用在媒體行業(yè)深耕多年的經(jīng)驗(yàn)積累,形成得天獨(dú)厚的數(shù)據(jù)采集優(yōu)勢(shì),具備前后端分離、組件化、微服務(wù)、彈性可擴(kuò)展的應(yīng)用架構(gòu)體系,通過對(duì)多機(jī)構(gòu)、多源數(shù)據(jù)接入管理,數(shù)據(jù)質(zhì)量控制,數(shù)據(jù)組織存儲(chǔ)和對(duì)外多維服務(wù)輸出,從而實(shí)現(xiàn)從數(shù)據(jù)到數(shù)據(jù)服務(wù)的能力。
圖1 省域數(shù)據(jù)資源建設(shè)彈性架構(gòu)體系
1. 省域?qū)m?xiàng)數(shù)據(jù)標(biāo)準(zhǔn)管理體系
作為數(shù)據(jù)管理的核心要求,在建設(shè)之初的數(shù)據(jù)規(guī)劃層面就要確定。首先與建設(shè)單位一起梳理和確認(rèn)數(shù)據(jù)中臺(tái)數(shù)據(jù)標(biāo)準(zhǔn),是實(shí)現(xiàn)多源數(shù)據(jù)接入和多維輸出的基礎(chǔ)。數(shù)據(jù)標(biāo)準(zhǔn)包括業(yè)務(wù)術(shù)語標(biāo)準(zhǔn)、數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)、屬性數(shù)據(jù)標(biāo)準(zhǔn),同時(shí)針對(duì)數(shù)據(jù)質(zhì)量評(píng)估也制定標(biāo)準(zhǔn)規(guī)范,包括數(shù)據(jù)的精確性、唯一性、完整性、一致性、關(guān)聯(lián)性、及時(shí)性。具體在實(shí)施中依據(jù)管理數(shù)據(jù)對(duì)應(yīng)已明確的應(yīng)用,針對(duì)媒體主要的數(shù)據(jù)組織和應(yīng)用場(chǎng)景,數(shù)據(jù)中臺(tái)已經(jīng)植入新聞?lì)I(lǐng)域相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,便于數(shù)據(jù)的調(diào)用、共享和流通。并為省域數(shù)據(jù)生態(tài)持續(xù)建設(shè)提供擴(kuò)展性支撐。
依托數(shù)據(jù)中臺(tái),依據(jù)省域?qū)m?xiàng)庫的建設(shè)規(guī)范,完成了數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和規(guī)范的制定,包括數(shù)據(jù)的接入和輸出標(biāo)準(zhǔn)。在數(shù)據(jù)質(zhì)量管理方面提供開放域、智能、業(yè)務(wù)三類標(biāo)簽體系管理。涵蓋省自治區(qū)標(biāo)準(zhǔn)地域信息標(biāo)簽體系;行業(yè)領(lǐng)域信息標(biāo)簽體系;針對(duì)文本、圖片、音視頻等的智能標(biāo)簽體系;涵蓋屬地黨政領(lǐng)導(dǎo)干部的人物屬性標(biāo)簽體系;通過海量數(shù)據(jù)訓(xùn)練,實(shí)現(xiàn)智能自動(dòng)標(biāo)引。
2. 省域多源異構(gòu)專項(xiàng)數(shù)據(jù)的匯聚
在數(shù)據(jù)接入層面為了支撐省域?qū)m?xiàng)數(shù)據(jù)分析應(yīng)用,需要將散落在各機(jī)構(gòu)單位的合作數(shù)據(jù)源、以及媒體各業(yè)務(wù)系統(tǒng)數(shù)據(jù),之前都相對(duì)獨(dú)立的“數(shù)據(jù)孤島”的異構(gòu)數(shù)據(jù)進(jìn)行接入和統(tǒng)一管理,在此基礎(chǔ)上圍繞業(yè)務(wù)組織建設(shè)各業(yè)務(wù)數(shù)據(jù)中心并為上層應(yīng)用提供數(shù)據(jù)服務(wù)。
各機(jī)構(gòu)單位和各業(yè)務(wù)數(shù)據(jù)源具有如下特點(diǎn)。
(1)分散性特點(diǎn)
省域各協(xié)作機(jī)構(gòu)單位分布于省域各地,媒體單位的各業(yè)務(wù)數(shù)據(jù)也分散在各業(yè)務(wù)系統(tǒng)中,無法進(jìn)行數(shù)據(jù)連通和共享,新增數(shù)據(jù)的加入和應(yīng)用也比較困難。
(2)異構(gòu)性特點(diǎn)
省域各協(xié)作機(jī)構(gòu)單位會(huì)根據(jù)自身需求開發(fā)了業(yè)務(wù)信息系統(tǒng),系統(tǒng)采用的開發(fā)語言、操作系統(tǒng)、架構(gòu)、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)存儲(chǔ)模式、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型以及語義并不完全一致。因此,省域機(jī)構(gòu)間數(shù)據(jù)源多類異構(gòu)。
(3)動(dòng)態(tài)性特點(diǎn)
由于省域內(nèi)各機(jī)構(gòu)單位,在運(yùn)行過程中,機(jī)構(gòu)間復(fù)雜的協(xié)作關(guān)系、協(xié)作任務(wù)、數(shù)據(jù)源、相關(guān)配置都動(dòng)態(tài)變更,因此,數(shù)據(jù)集成的內(nèi)容和對(duì)象都具有動(dòng)態(tài)性特征。
(4)標(biāo)準(zhǔn)不統(tǒng)一,接口參差不齊
目前,各機(jī)構(gòu)單位針對(duì)單個(gè)業(yè)務(wù)或?qū)m?xiàng)業(yè)務(wù)單獨(dú)開發(fā)接口,沒有統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范體系、種類繁多復(fù)雜、參差不齊、無法統(tǒng)一管理,導(dǎo)致互操作困難復(fù)雜。
針對(duì)省域多機(jī)構(gòu)分布性、多端異構(gòu)性、協(xié)作動(dòng)態(tài)性和接口繁多,以及數(shù)據(jù)單條上傳和批量接入?yún)R聚的應(yīng)用場(chǎng)景。本文提出省域環(huán)境下面向省直單位、地市、區(qū)縣單位或者垂直子機(jī)構(gòu)媒體應(yīng)用領(lǐng)域提供開放的多源異構(gòu)數(shù)據(jù)采集、大數(shù)據(jù)并發(fā)流處理、微服務(wù)計(jì)算、消息隊(duì)列、消息協(xié)同處理等技術(shù)框架,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)單條和批量數(shù)據(jù)采集、上傳,流式并發(fā)清洗轉(zhuǎn)換、松散耦合式數(shù)據(jù)銜接等特征功能。解決面向省域環(huán)境下媒體自身、地市區(qū)縣媒體單位、合作機(jī)構(gòu)信息系統(tǒng)數(shù)據(jù)匯聚、管理、應(yīng)用場(chǎng)景。
多源異構(gòu)數(shù)據(jù)接入?yún)R聚由數(shù)據(jù)源管理、數(shù)據(jù)字段映射、轉(zhuǎn)換清洗規(guī)則定義、接入任務(wù)管理、以及數(shù)據(jù)流轉(zhuǎn)狀態(tài)監(jiān)控組成。具體通過接入數(shù)據(jù)源和目標(biāo)數(shù)據(jù)源的管理,提供多數(shù)據(jù)源的連接參數(shù)設(shè)置視圖管理功能,提供數(shù)據(jù)源連接參數(shù)的增刪改查,規(guī)范統(tǒng)一數(shù)據(jù)源批量接入。數(shù)據(jù)源支持關(guān)系型數(shù)據(jù)源、非關(guān)系型數(shù)據(jù)源、消息隊(duì)列、文本數(shù)據(jù)集的參數(shù)配置:包括數(shù)據(jù)庫標(biāo)志、數(shù)據(jù)源類型、數(shù)據(jù)服務(wù)訪問方法、主機(jī)名、端口號(hào)、用戶名、密碼等。數(shù)據(jù)源管理通過提供對(duì)數(shù)據(jù)庫源連接信息的添加、刪除和修改等管理操作,將多源異構(gòu)數(shù)據(jù)源連接信息存入目標(biāo)業(yè)務(wù)數(shù)據(jù)庫,以支撐互聯(lián)網(wǎng)下多數(shù)據(jù)庫服務(wù)器源連接的統(tǒng)一管理和透明接入功能。
對(duì)于散落在省域范圍內(nèi)各機(jī)構(gòu)單位個(gè)人PC或服務(wù)器中零散的異構(gòu)復(fù)雜數(shù)據(jù),提供包括文本、圖片、音頻、視頻、書籍文件、影視作品等獨(dú)立數(shù)據(jù)上傳接入工具實(shí)現(xiàn)數(shù)據(jù)各種數(shù)據(jù)的匯聚集成。
3. 基于分布式的省域?qū)m?xiàng)數(shù)據(jù)分析與組織存儲(chǔ)
基于場(chǎng)景化驅(qū)動(dòng)數(shù)據(jù)業(yè)務(wù)智能封裝,對(duì)入庫數(shù)據(jù)進(jìn)行智能分析,包括地域、領(lǐng)域、情感、實(shí)體、自動(dòng)摘要等,并實(shí)現(xiàn)智能打標(biāo)。通過分步式的數(shù)據(jù)存儲(chǔ)系統(tǒng)實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多源異構(gòu)數(shù)據(jù)的存儲(chǔ)管理,在此基礎(chǔ)上構(gòu)建業(yè)務(wù)數(shù)據(jù)庫或?qū)m?xiàng)數(shù)據(jù)庫。在數(shù)據(jù)管理方面,對(duì)入庫的數(shù)據(jù)量、各業(yè)務(wù)數(shù)據(jù)標(biāo)簽、數(shù)據(jù)的數(shù)據(jù)規(guī)模、數(shù)據(jù)內(nèi)容進(jìn)行維護(hù)管理,并且能支持業(yè)務(wù)應(yīng)用的數(shù)據(jù)查詢?yōu)g覽與有效利用。具體應(yīng)用以下核心技術(shù):
(1) 采用分布式隨機(jī)樣本劃分算法
按照使用場(chǎng)景可以分為批量數(shù)據(jù)轉(zhuǎn)化算法和流式數(shù)據(jù)轉(zhuǎn)化算法,按照數(shù)據(jù)的格式又可以分為針對(duì)結(jié)構(gòu)化數(shù)據(jù)、時(shí)間序列數(shù)據(jù)、文檔式數(shù)據(jù)、圖數(shù)據(jù),分類方式如下圖所示。
圖2 RSP轉(zhuǎn)化算法
(2) Hadoop平臺(tái)多引擎技術(shù)
省域數(shù)據(jù)中心融合數(shù)據(jù)多引擎技術(shù)、Hadoop/HDFS分布式并行計(jì)算和多副本機(jī)制、Facebook/Cassandra對(duì)等節(jié)點(diǎn)機(jī)制等先進(jìn)技術(shù),避免單點(diǎn)故障并支持系統(tǒng)性能線性擴(kuò)展。Hadoop 平臺(tái)最核心的兩個(gè)組件分別為:Map Reduce 分布式計(jì)算框架和 HDFS 分布式存儲(chǔ)系統(tǒng),其分別對(duì)應(yīng)與 Hadoop 的兩個(gè)層次:數(shù)據(jù)處理層和文件存儲(chǔ)層。其中,HDFS主要面向超大型的文件承載量的應(yīng)用,其設(shè)計(jì)目標(biāo)在于:
a) 硬件錯(cuò)誤
硬件發(fā)生錯(cuò)誤屬于常態(tài)現(xiàn)象,硬件組件出現(xiàn)問題常常存在于現(xiàn)實(shí)生活當(dāng)中,硬件損壞是不可避免的。因此,硬件等相關(guān)組件的錯(cuò)誤檢測(cè)和快速、自動(dòng)恢復(fù)是分布式架構(gòu)的核心設(shè)計(jì)目標(biāo)。
b) 流式數(shù)據(jù)訪問
較之傳統(tǒng)的應(yīng)用系統(tǒng)側(cè)重用戶交互方面,基于 HDFS 的應(yīng)用側(cè)重點(diǎn)在于數(shù)據(jù)的批處理方面,需要能夠流式訪問其數(shù)據(jù)集。其不是特別注重和要求數(shù)據(jù)訪問時(shí)的響應(yīng)時(shí)間,而注重于數(shù)據(jù)傳輸?shù)母咚俾?、?shù)據(jù)訪問的高吞吐量以及數(shù)據(jù)的批處理。 面向數(shù)據(jù)分析的分布式數(shù)據(jù)管理系統(tǒng)。
c) 大規(guī)模數(shù)據(jù)集
基于 HDFS 的應(yīng)用面向的是大數(shù)據(jù),因此其應(yīng)用都是具有很大的數(shù)據(jù)集,這也就要去該框架能夠給予較大的數(shù)據(jù)傳輸帶寬。
d) 簡(jiǎn)化一致性模型
基于 HDFS 的應(yīng)用所需要建立的模型具有“一次寫入多次讀取”的特點(diǎn),其文件一旦經(jīng)過寫入操作之后,數(shù)據(jù)一般不需要進(jìn)行更改。正是由于這一特點(diǎn),便可簡(jiǎn)化數(shù)據(jù)一致性問題,從而也使得數(shù)據(jù)傳輸?shù)母咚俾?、?shù)據(jù)訪問的高吞吐量以及數(shù)據(jù)的批處理等目標(biāo)具有實(shí)現(xiàn)的可能。
e) 可移植性
任何框架在設(shè)計(jì)初始階段就會(huì)考慮平臺(tái)的可移植性,框架的可移植性不僅有利于開發(fā)各類型的應(yīng)用,而且也有利于自身開源框架的發(fā)展和推廣。
(3) 分布式存儲(chǔ)監(jiān)控與管理
滿足用戶可持續(xù)發(fā)展需要的數(shù)據(jù)管理需求,支持對(duì)集群整體和每個(gè)節(jié)點(diǎn)運(yùn)行情況的秒級(jí)監(jiān)控,監(jiān)控維度至少包括:每節(jié)點(diǎn)分區(qū)數(shù)、內(nèi)存使用情況、存儲(chǔ)空間使用情況、數(shù)據(jù)文件、記錄數(shù)、IO、CPU、網(wǎng)絡(luò)等。
(4) 節(jié)點(diǎn)管理靈活動(dòng)態(tài)擴(kuò)容擴(kuò)展
支持動(dòng)態(tài)集群擴(kuò)容,至少包括節(jié)點(diǎn)列表、主節(jié)點(diǎn)管理、內(nèi)存大小、集群IP、自動(dòng)安裝目錄配置等;
(5) 數(shù)據(jù)庫數(shù)據(jù)倉庫初始化
通過數(shù)據(jù)庫新建、可配置按指定字段分區(qū)與分庫,支持副本數(shù)選擇,支持指 定數(shù)據(jù)庫類型,包括但不限于:節(jié)點(diǎn)數(shù)據(jù)庫、虛擬數(shù)據(jù)庫、鏡像數(shù)據(jù)庫、自分裂視圖等類型;
(6) 節(jié)點(diǎn)任務(wù)管理
通過節(jié)點(diǎn)任務(wù)管理,按節(jié)點(diǎn)進(jìn)行任務(wù)情況查看,包括開始時(shí)間、持續(xù)時(shí)間及客戶端IP等,任務(wù)類型支持:檢索、分類統(tǒng)計(jì)、統(tǒng)計(jì)檢索、裝庫、刪除記錄、修改記錄、副本同步等;
(7) 數(shù)據(jù)清洗映射
通過省域?qū)m?xiàng)數(shù)據(jù)中心日常運(yùn)維作業(yè)管理功能,作業(yè)類型包括數(shù)據(jù)排重、記錄拷貝、對(duì)數(shù)據(jù)庫配置信息管理等;
(8) 數(shù)據(jù)自動(dòng)分區(qū)混合存儲(chǔ)
通過多種存儲(chǔ)混合使用:支持SSD、非SSD、HDFS等多種存儲(chǔ)混合使用。支持冷熱數(shù)據(jù)自動(dòng)分區(qū)管理。
(9) 地域/領(lǐng)域分類標(biāo)引
構(gòu)建一套標(biāo)準(zhǔn)地域和領(lǐng)域主題信息知識(shí)庫體系,并通過海量數(shù)據(jù)訓(xùn)練,獲得可以自動(dòng)標(biāo)引文章所屬地域的訓(xùn)練集;
(10) 自動(dòng)摘要提取
通過智能的手段為省域?qū)m?xiàng)數(shù)據(jù)自動(dòng)形成摘要的技術(shù)。摘要提取技術(shù)采用抽取式摘要生成方法,融入篇章分析與指代消解中的最新研究成果,利用數(shù)據(jù)挖掘的相關(guān)算法與模型,通過智能的手段自動(dòng)提取文檔句子并形成摘要;
(11) 關(guān)鍵詞提取、實(shí)體識(shí)別
通過將省域?qū)m?xiàng)數(shù)據(jù)中的關(guān)鍵詞和包括人名、地名、機(jī)構(gòu)名等各維度實(shí)體屬性進(jìn)行提取,形成描述文本特征的結(jié)構(gòu)化數(shù)據(jù);
(12) 情感分析
情感分析技術(shù)結(jié)合情感詞、情感程度詞典,引入情感塊的概念,利用支持向量機(jī)模型等分類算法對(duì)收集的省域?qū)m?xiàng)數(shù)據(jù)進(jìn)行各粒的情感判定。同時(shí)提出了利用情感模式進(jìn)行分析的技術(shù),真正實(shí)現(xiàn)了對(duì)文本的深入理解,使情感分析的性能進(jìn)一步提高。方正智能分析系統(tǒng)的情感分析涵蓋了詞語、短語、句子、篇章等不同粒度,對(duì)其標(biāo)注相應(yīng)的情感傾向和情感屬性,實(shí)現(xiàn)對(duì)指定文本或文本集進(jìn)行全方位的分析。
4. 基于多級(jí)機(jī)構(gòu)組織省域?qū)m?xiàng)數(shù)據(jù)分級(jí)授權(quán)
數(shù)據(jù)訪問控制策略是數(shù)據(jù)安全防范和保護(hù)的主要策略,其任務(wù)是保證數(shù)據(jù)資源不被非法使用和非法訪問。各種網(wǎng)絡(luò)安全策略必須相互配合才能真正起到保護(hù)作用,而訪問控制(Access—Contr01)是保證數(shù)據(jù)安全最重要的核心策略之一,是對(duì)省域?qū)m?xiàng)數(shù)據(jù)資源進(jìn)行保護(hù)的重要措施,是通過某種途徑顯式地準(zhǔn)許或限制訪問能力和訪問范圍的一種方法。
除了必須的系統(tǒng)及數(shù)據(jù)安全管理外,系統(tǒng)支持多級(jí)機(jī)構(gòu):可按省、市、縣等多級(jí)創(chuàng)建機(jī)構(gòu)。各機(jī)構(gòu)數(shù)據(jù)隔離,可對(duì)數(shù)據(jù)接入、審核、查看等分級(jí)授權(quán),如區(qū)縣可查看和使用本區(qū)縣以及被授權(quán)的數(shù)據(jù)資源
圖3 省市區(qū)縣多級(jí)機(jī)構(gòu)管理
5. 開放靈活的省域?qū)m?xiàng)數(shù)據(jù)輸出和服務(wù)
提供開放的數(shù)據(jù)輸出和服務(wù)。省域數(shù)據(jù)中心核心目標(biāo)是為各地市、區(qū)縣,各類應(yīng)用提供統(tǒng)一、開放的數(shù)據(jù)輸出和服務(wù)。針對(duì)省域?qū)m?xiàng)數(shù)據(jù)中心提供跨模態(tài)檢索服務(wù),可以方便的查詢數(shù)據(jù)相關(guān)信息。實(shí)現(xiàn)對(duì)外的數(shù)據(jù)推送,數(shù)據(jù)展示和應(yīng)用的多樣性,提供開放的數(shù)據(jù)API,供三方機(jī)構(gòu)二次開發(fā)和應(yīng)用。針對(duì)數(shù)據(jù)的未來應(yīng)用,在統(tǒng)一框架內(nèi)以微服務(wù)方式來實(shí)現(xiàn)省域其他業(yè)務(wù)應(yīng)用的聯(lián)動(dòng)例如數(shù)據(jù)提供全省市、區(qū)縣機(jī)構(gòu)單位使用,支撐二次開發(fā)應(yīng)用。
圖4 開放靈活的省域?qū)m?xiàng)數(shù)據(jù)輸出和服務(wù)
三、 省域?qū)m?xiàng)數(shù)據(jù)智能化應(yīng)用
數(shù)據(jù)建設(shè)的目的是為了更好的數(shù)據(jù)服務(wù)和應(yīng)用,基于省域數(shù)據(jù)資源建設(shè)和管理,結(jié)合應(yīng)用場(chǎng)景可提供省域?qū)m?xiàng)數(shù)據(jù)的智能化應(yīng)用。
1.提供媒體智能生產(chǎn)
省域數(shù)據(jù)中心集合更廣泛的數(shù)據(jù)源和素材,專項(xiàng)數(shù)據(jù)還具有獨(dú)特的數(shù)據(jù)特征,智能生產(chǎn)輔助能力沉浸在業(yè)務(wù)場(chǎng)景中,向新聞采編業(yè)務(wù)提供更豐富的供稿服務(wù)。滿足信息全面和及時(shí),新媒體稿件資源匱乏、輔助各個(gè)站點(diǎn)人員對(duì)稿件的編輯, 轉(zhuǎn)載和使用。
(1) 提供統(tǒng)一的數(shù)據(jù)資源查詢和檢索
針對(duì)省域數(shù)據(jù)中心所管理的來自各源的稿件數(shù)據(jù)、圖片數(shù)據(jù)、音視頻數(shù)據(jù)、分析結(jié)果數(shù)據(jù)可以進(jìn)行統(tǒng)一的查看,可以按照開放域標(biāo)簽、關(guān)鍵詞等檢索,并實(shí)現(xiàn)文、圖、等跨模態(tài)檢索。
(2) 專項(xiàng)內(nèi)容數(shù)據(jù)供給
省域?qū)m?xiàng)數(shù)據(jù)可為媒體生產(chǎn)提供針對(duì)媒體篩選后的專項(xiàng)內(nèi)容參考,并在專項(xiàng)數(shù)據(jù)標(biāo)簽基礎(chǔ)上進(jìn)行專項(xiàng)數(shù)據(jù)內(nèi)容的分級(jí)分類處理,以應(yīng)用于信息檢索,生產(chǎn)選用,大屏展示等不同應(yīng)用需求。
(3) 媒體行業(yè)內(nèi)容生產(chǎn)編輯器調(diào)用
省域?qū)m?xiàng)數(shù)據(jù)中心在媒體行業(yè)實(shí)現(xiàn)與生產(chǎn)系統(tǒng)的打通,在各編輯查看專項(xiàng)數(shù)據(jù)內(nèi)容信息,也可以在生產(chǎn)編輯器內(nèi)直接檢索及其結(jié)果的有效利用、利用語義分析技術(shù)根據(jù)稿件內(nèi)容生成合理的關(guān)鍵字和摘要等功能。而每個(gè)編輯記者都可以訂閱不同的專項(xiàng)信息內(nèi)容。瀏覽到有價(jià)值的內(nèi)容,可以一鍵式選用到生產(chǎn)流程中編輯。
2、數(shù)據(jù)資源的可視化展示
根絕省域資源管理的各種數(shù)據(jù)進(jìn)行可視化展示,形成數(shù)據(jù)地圖和數(shù)據(jù)看板,全面體現(xiàn)目前數(shù)據(jù)的整體規(guī)模,各類數(shù)據(jù)狀況,新增情況,使用狀況,為數(shù)據(jù)資產(chǎn)建設(shè)和應(yīng)用提供直觀的體現(xiàn)。省域?qū)m?xiàng)數(shù)據(jù)中心借助數(shù)據(jù)輸出服務(wù),可為大屏可視化展示提供數(shù)據(jù)的支撐。
圖5 數(shù)據(jù)資源的可視化展示
3.智能風(fēng)控審核平臺(tái)
在蓬勃發(fā)展的網(wǎng)絡(luò)時(shí)代及多變的傳媒格局中,監(jiān)管工作面臨著媒介傳播方式趨向融合傳播立體化、業(yè)務(wù)類型逐步走向更加多元化、多終端的局面。基于省域?qū)m?xiàng)數(shù)據(jù)建設(shè)可構(gòu)建智能風(fēng)控審核平臺(tái),提供從內(nèi)容監(jiān)管、到渠道監(jiān)管,再到傳播監(jiān)管,逐步實(shí)現(xiàn)多終端覆蓋,對(duì)本省、市、合作單位或者下屬子機(jī)構(gòu)的提供數(shù)據(jù)、報(bào)刊、新媒體、圖書、網(wǎng)絡(luò)文學(xué)等內(nèi)容進(jìn)行內(nèi)容風(fēng)控審核;提供各機(jī)構(gòu)內(nèi)容提供智能審核手段和自檢、監(jiān)測(cè)服務(wù)。
針對(duì)省域各機(jī)構(gòu)上傳、各系統(tǒng)采集以及互聯(lián)網(wǎng)采集接入的審核監(jiān)管數(shù)據(jù)進(jìn)行統(tǒng)一管理,形成監(jiān)管數(shù)據(jù)庫,并在此基礎(chǔ)上提供智能審核和審讀工作,支持單條和批量處理,最終形成審核報(bào)告。
系統(tǒng)提供多級(jí)多租戶管理,分為上傳機(jī)構(gòu)、審讀員、總部等角色,按角色定義權(quán)限和查看內(nèi)容,基于省域專項(xiàng)數(shù)據(jù)資源建設(shè),可實(shí)現(xiàn)對(duì)監(jiān)管內(nèi)容的批量自動(dòng)匯聚,及手動(dòng)上傳圖文、圖集、音視頻、PDF文檔等多種類型數(shù)據(jù)。結(jié)合屬地?zé)狳c(diǎn)、重點(diǎn)事件、重點(diǎn)主題等監(jiān)測(cè)內(nèi)容的訂閱,輔助審讀員快速掌握市場(chǎng)熱點(diǎn)和宣傳狀況,支持對(duì)審讀稿件、重大主題的傳播影響力分析,從而掌握監(jiān)管內(nèi)容的傳播影響力狀況。
(1) 文本智能分析和審核
可以對(duì)文本中的實(shí)體、關(guān)鍵詞、情感、地域、領(lǐng)域進(jìn)行智能分析和打標(biāo),提供單文本和多文本自動(dòng)摘要,快速了解稿件的核心內(nèi)容。利用的文本智能審校技術(shù),是方正公司完成國(guó)家級(jí)項(xiàng)目的產(chǎn)品成果,審校內(nèi)容全面,除錯(cuò)別字、敏感詞、標(biāo)點(diǎn)符號(hào)等較為通用的審校功能外,智能審校還可對(duì)稿件中的相似及重復(fù)內(nèi)容、圖表公式序號(hào)及參見落空、列表序號(hào)、歷史紀(jì)年、公元紀(jì)年、干支紀(jì)年等錯(cuò)誤進(jìn)行檢查。針對(duì)文本稿件涉及新華社禁用詞、敏感詞、領(lǐng)導(dǎo)人、語義歧義、領(lǐng)導(dǎo)人排序等內(nèi)容進(jìn)行智能審校,滿足不同用戶類型需求,提高稿件的審稿效率及質(zhì)量。針對(duì)意識(shí)形態(tài)以及最新網(wǎng)絡(luò)用語等,系統(tǒng)面向機(jī)構(gòu)用戶和個(gè)人用戶提供自定義詞庫服務(wù),通過詞庫語句,規(guī)則?充和維護(hù),屬于案例庫或語料庫的累積過程。語料達(dá)到一定程度,機(jī)器便可深度學(xué)習(xí)。
(2) 圖片智能分析和審核
針對(duì)新媒體涉及的圖片進(jìn)行智能打標(biāo),識(shí)別政治敏感、公眾人物、廣告、惡心圖像、涉黃、暴恐,對(duì)于內(nèi)容中包含的圖片,識(shí)別圖片中的文字,并對(duì)文字進(jìn)行審核,是否包含垃圾信息、敏感詞,保證內(nèi)容安全性。使用人工智能鑒黃、鑒暴恐等技術(shù),智能識(shí)別圖片和視頻中的色情、性感、暴恐等內(nèi)容,遠(yuǎn)離違規(guī)風(fēng)險(xiǎn)。
(3) 音視頻智能分析和審核
針對(duì)音視頻內(nèi)容可智能識(shí)別、解析視頻里面的文字、畫面和語音,識(shí)別包含政治敏感、違禁品、廣告內(nèi)容、色情、暴恐的視頻,保證內(nèi)容的安全性。同時(shí)對(duì)視頻中的語音、畫面進(jìn)行檢測(cè)和過濾,識(shí)別視頻中出現(xiàn)的動(dòng)作、事件,以及其出現(xiàn)的時(shí)間片段,方便鎖定問題出現(xiàn)的地方。
(4) 屬地領(lǐng)導(dǎo)人物庫建設(shè)和審核
基于所涉重點(diǎn)人物,如領(lǐng)導(dǎo)人物,構(gòu)建基本信息、新聞報(bào)道、參與相關(guān)話題、事件、資訊等相關(guān)信息系統(tǒng)建設(shè)和管理,實(shí)現(xiàn)領(lǐng)導(dǎo)人信息及關(guān)聯(lián)信息的快速查詢,領(lǐng)導(dǎo)軌跡和相關(guān)報(bào)道追蹤。提供屬地領(lǐng)導(dǎo)人物圖片、音頻、視頻打標(biāo),風(fēng)控提示,包括屬地領(lǐng)導(dǎo)人物變更、落馬官員檢查等維護(hù)服務(wù)。
四、 省域?qū)m?xiàng)數(shù)據(jù)建設(shè)和應(yīng)用開拓媒體的數(shù)據(jù)服務(wù)
面向媒體行業(yè),即將迎來“信息隨心至,萬物皆可及”的智媒時(shí)代。瞄準(zhǔn)新基建帶來的紅利,享受大數(shù)據(jù)與人工智能的服務(wù),是新時(shí)代智慧媒體建設(shè)的最優(yōu)路徑。“大帶寬、高速率、低時(shí)延”的5G,使媒體享受到最直接的技術(shù)紅利。伴隨著業(yè)務(wù)發(fā)展,新增數(shù)據(jù)和應(yīng)用成為常態(tài),省域數(shù)據(jù)資源建設(shè)提供開放的數(shù)據(jù)平臺(tái),將數(shù)據(jù)與業(yè)務(wù)前后端分離、打通數(shù)據(jù)帶脈,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一集中管理。在數(shù)據(jù)應(yīng)用層面,針對(duì)不同業(yè)務(wù)場(chǎng)景和應(yīng)用提供微服務(wù)形式數(shù)據(jù)輸出,建設(shè)和孵化多種數(shù)據(jù)服務(wù)產(chǎn)品和數(shù)據(jù)應(yīng)用。數(shù)據(jù)與業(yè)務(wù)松耦合,不僅保障數(shù)據(jù)管理的統(tǒng)一,又保障業(yè)務(wù)應(yīng)用的靈活性。
基于數(shù)據(jù)中臺(tái)架構(gòu)支撐的省域?qū)m?xiàng)數(shù)據(jù)中心治理平臺(tái),以安全可靠、穩(wěn)健成熟的實(shí)用主義為指導(dǎo),為現(xiàn)有省域業(yè)務(wù)開展提供強(qiáng)有力技術(shù)支撐,并為業(yè)務(wù)創(chuàng)新提供土壤。在此基礎(chǔ)上建設(shè)的專項(xiàng)信息服務(wù)平臺(tái)、智能風(fēng)控監(jiān)管審讀平臺(tái)等基于省域數(shù)據(jù)建設(shè)的應(yīng)用,有效把控新聞?shì)浾摷吧鐣?huì)宣傳導(dǎo)向,面向省域媒體政務(wù)、垂直領(lǐng)域、企業(yè)院校等用戶實(shí)現(xiàn)低成本、高效率、高精準(zhǔn)度的內(nèi)容合規(guī)性保障,使媒體角色從“咨詢內(nèi)容提供者”向“城市信息服務(wù)者”轉(zhuǎn)變。
五、 結(jié)語
在省域數(shù)據(jù)中心和智能化應(yīng)用支撐下,建設(shè)單位可以建設(shè)媒體機(jī)構(gòu)內(nèi)部資源的管理以及面向全省的專項(xiàng)數(shù)據(jù)管理和服務(wù)開發(fā)。針對(duì)媒體業(yè)務(wù)系統(tǒng)、高頻的數(shù)據(jù)服務(wù)更具特色,可以一鍵實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)接入和輸出聯(lián)動(dòng)。為滿足數(shù)據(jù)應(yīng)用不斷發(fā)展和變化需要,采用組件化、微服務(wù)、彈性可擴(kuò)展的數(shù)據(jù)產(chǎn)品架構(gòu)和先進(jìn)的數(shù)據(jù)管理基礎(chǔ)以滿足未來數(shù)據(jù)發(fā)展需要,以應(yīng)對(duì)數(shù)據(jù)結(jié)構(gòu)復(fù)雜、變化頻繁等問題,根據(jù)服務(wù)需求選擇資源的彈性擴(kuò)展,更簡(jiǎn)單的管理和維護(hù),以滿足各領(lǐng)域數(shù)據(jù)服務(wù)和智能化能力的擴(kuò)展,打造全省融媒體樞紐級(jí)信息集散平臺(tái),持續(xù)構(gòu)建數(shù)據(jù)服務(wù)生態(tài)。
參考文獻(xiàn):
[1] 基于“數(shù)據(jù)+AI”雙中臺(tái)技術(shù)打造智慧媒體新基建“ 劉長(zhǎng)明 盧嵐 徐建
[2] 面向異構(gòu)數(shù)據(jù)源的分布式集成工具研究與設(shè)計(jì) 劉海 張矚熹 任雯 肖巖平
新聞技聯(lián)動(dòng)態(tài)
- 推動(dòng)知識(shí)資源平臺(tái)合規(guī)健康發(fā)展 共促數(shù)字版權(quán)規(guī)范化合理化 2023-03-06
- 成功舉辦中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)市縣融媒體分會(huì)年會(huì)暨換屆大會(huì) 2022-12-23
- 中國(guó)新聞技聯(lián)新聞信息標(biāo)準(zhǔn)化分會(huì) 2022年年會(huì)成功召開 2022-12-01
- 《機(jī)器生產(chǎn)內(nèi)容自動(dòng)化分級(jí)》團(tuán)體標(biāo)準(zhǔn) 正式發(fā)布實(shí)施 2022-12-01
- 延期通知:中國(guó)新聞技術(shù)工作者聯(lián)合會(huì) 縣市融媒體分會(huì) 2022 年學(xué)術(shù)年會(huì)暨技術(shù)交流會(huì) 2022-12-01
- 2022年中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)學(xué)術(shù)年會(huì)在貴陽成功舉辦 2022-11-17
- 喜報(bào)│53個(gè)案例入選首批“技術(shù)賦能‘新聞+’推薦案例” 2022-11-17
- 重磅│19位新聞技術(shù)工作者獲此殊榮 2022年度“王選新聞科學(xué)技術(shù)獎(jiǎng)”人才獎(jiǎng)在貴陽頒獎(jiǎng) 2022-11-17
- 新品│速看哪三項(xiàng)傳媒技術(shù)創(chuàng)新產(chǎn)品發(fā)布 2022-11-17
- 2022年中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)學(xué)術(shù)年會(huì)勝利開幕! 2022-11-17