人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)運(yùn)維體系建設(shè)探討

2022/09/05-17:15 來(lái)源:

0  

推動(dòng)傳統(tǒng)媒體和新興媒體融合發(fā)展,是落實(shí)中央全面深化改革部署的重要任務(wù),是適應(yīng)媒體格局深刻變化、提升主流媒體傳播力公信力影響力的重要舉措。媒體深度融合寫(xiě)入“十四五”規(guī)劃,意味著推進(jìn)媒體深融發(fā)展已經(jīng)成為迫在眉睫的工作重心。人民日?qǐng)?bào)社較早的開(kāi)展了報(bào)業(yè)媒體融合轉(zhuǎn)型之路的探索,如今已形成報(bào)網(wǎng)端微多平臺(tái)融合發(fā)展的全媒體矩陣。然而,報(bào)社核心工作區(qū)機(jī)房建設(shè)年代早,設(shè)備老舊資源有限,目前僅對(duì)傳統(tǒng)紙媒業(yè)務(wù)提供技術(shù)服務(wù)。按照?qǐng)?bào)社在建項(xiàng)目規(guī)劃,新數(shù)據(jù)中心機(jī)房即將建成,設(shè)備資源充足,將搭建專(zhuān)有云平臺(tái),且將新建、改造、整合傳統(tǒng)媒體和新媒體業(yè)務(wù)應(yīng)用系統(tǒng),打造全報(bào)社業(yè)務(wù)互聯(lián)、數(shù)據(jù)互通的新型融媒體平臺(tái)。

數(shù)據(jù)庫(kù)的可靠性和性能,直接關(guān)系到業(yè)務(wù)系統(tǒng)的運(yùn)行狀態(tài),數(shù)據(jù)庫(kù)運(yùn)維工作至關(guān)重要。融媒體業(yè)務(wù)數(shù)據(jù)庫(kù)相較于傳統(tǒng)媒體業(yè)務(wù)數(shù)據(jù)庫(kù),運(yùn)維需求根據(jù)業(yè)務(wù)特點(diǎn)有所不同;業(yè)務(wù)系統(tǒng)上云相較于傳統(tǒng)物理機(jī)環(huán)境,給數(shù)據(jù)庫(kù)運(yùn)維帶來(lái)一些便利,但運(yùn)維操作難度也有所提升。本文在報(bào)社新型融媒體平臺(tái)建成上線之前,總結(jié)過(guò)去數(shù)據(jù)庫(kù)運(yùn)維經(jīng)驗(yàn),分析新平臺(tái)新架構(gòu)環(huán)境對(duì)數(shù)據(jù)庫(kù)運(yùn)維帶來(lái)的便利和挑戰(zhàn),對(duì)未來(lái)報(bào)社融媒體數(shù)據(jù)庫(kù)運(yùn)維體系構(gòu)建進(jìn)行探討。

 

1  人民日?qǐng)?bào)社傳統(tǒng)業(yè)務(wù)數(shù)據(jù)庫(kù)運(yùn)維現(xiàn)狀

人民日?qǐng)?bào)社現(xiàn)機(jī)房建設(shè)于2000年,機(jī)房面積較小,硬件設(shè)備資源有限,所能承載的業(yè)務(wù)系統(tǒng)數(shù)量有限,目前僅采編系統(tǒng)、投稿系統(tǒng)、公共稿庫(kù)等傳統(tǒng)紙媒業(yè)務(wù)系統(tǒng)運(yùn)行在該機(jī)房。這些系統(tǒng)建成較早,均采用物理機(jī)架構(gòu)部署,且機(jī)房現(xiàn)有空間及配置無(wú)法搭建云平臺(tái),無(wú)法將其改造部署在云平臺(tái)上。每日出報(bào)任務(wù)必須保障平穩(wěn)安全完成,因此數(shù)據(jù)庫(kù)故障須在短時(shí)間內(nèi)修復(fù),運(yùn)維人員全天候監(jiān)控值守。

根據(jù)以往的數(shù)據(jù)庫(kù)運(yùn)維工作總結(jié),報(bào)社數(shù)據(jù)庫(kù)運(yùn)維內(nèi)容主要包括監(jiān)控及告警通知、風(fēng)險(xiǎn)和故障排查及修復(fù)、日常運(yùn)維及巡檢、高可用配置管理、備份與還原策略、漏洞修復(fù)與版本升級(jí)、文件存放與清理、賬號(hào)權(quán)限與運(yùn)維人員管理、新增數(shù)據(jù)庫(kù)搭建等?,F(xiàn)有數(shù)據(jù)庫(kù)均為關(guān)系型數(shù)據(jù)庫(kù),僅存儲(chǔ)結(jié)構(gòu)化文本數(shù)據(jù),數(shù)據(jù)量不大;非結(jié)構(gòu)化數(shù)據(jù)主要為圖片,直接拷貝到硬盤(pán)保存。

數(shù)據(jù)庫(kù)運(yùn)維目前存在的問(wèn)題一部分是由于當(dāng)前機(jī)房環(huán)境和系統(tǒng)架構(gòu)所致:新增數(shù)據(jù)庫(kù)搭建需要同時(shí)調(diào)配物理機(jī)資源、網(wǎng)絡(luò)資源、軟件資源和存儲(chǔ)資源,準(zhǔn)備工作復(fù)雜,搭建周期長(zhǎng);各業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)均以雙機(jī)物理機(jī)架構(gòu)部署,配置為雙活或者主備模式,每日進(jìn)行全量邏輯備份做冷備庫(kù),高可用和備份策略比較簡(jiǎn)單,若雙機(jī)集群宕機(jī)則業(yè)務(wù)中斷,恢復(fù)或者重新搭建數(shù)據(jù)庫(kù)集群需要一定的時(shí)間,啟用冷備庫(kù)也會(huì)導(dǎo)致部分?jǐn)?shù)據(jù)的丟失,可靠性低;沒(méi)有足夠資源搭建測(cè)試環(huán)境,無(wú)法測(cè)試評(píng)估數(shù)據(jù)庫(kù)數(shù)據(jù)恢復(fù)、漏洞修復(fù)和版本升級(jí)、性能調(diào)優(yōu)等一系列運(yùn)維操作是否正確、是否影響業(yè)務(wù)正常運(yùn)行,也就無(wú)法在生產(chǎn)環(huán)境中實(shí)現(xiàn);因安全方面的要求,數(shù)據(jù)庫(kù)服務(wù)器運(yùn)行在內(nèi)網(wǎng)環(huán)境中,數(shù)據(jù)庫(kù)運(yùn)維需要的軟件工具、操作系統(tǒng)插件、補(bǔ)丁包等無(wú)法在線安裝,運(yùn)維人員各自在互聯(lián)網(wǎng)下載后導(dǎo)入到內(nèi)網(wǎng)服務(wù)器中進(jìn)行手動(dòng)安裝,且每臺(tái)服務(wù)器需要分別安裝,大大影響運(yùn)維效率。

除環(huán)境影響之外,數(shù)據(jù)庫(kù)運(yùn)維機(jī)制本身也存在一些問(wèn)題,總結(jié)如下。

1)規(guī)范性文檔資料少

因數(shù)據(jù)庫(kù)搭建年份較早,當(dāng)時(shí)還未有規(guī)范化的文檔管理要求,數(shù)據(jù)庫(kù)相關(guān)文檔存放較分散,不方便查閱。目前已整理了各數(shù)據(jù)庫(kù)所在服務(wù)器地址、賬號(hào)密碼、啟停操作等數(shù)據(jù)形成運(yùn)維手冊(cè),但日常運(yùn)維還涉及到數(shù)據(jù)庫(kù)安裝目錄、配置文件和各類(lèi)日志存放位置、高可用配置機(jī)制和備份還原機(jī)制、日常故障處理流程、日常運(yùn)維操作和巡檢流程等。一切有章可循才能在風(fēng)險(xiǎn)和故障告警第一時(shí)間進(jìn)行快速、正確的運(yùn)維處理。

2)數(shù)據(jù)庫(kù)運(yùn)維管理分散

各業(yè)務(wù)子系統(tǒng)的數(shù)據(jù)庫(kù)沒(méi)有統(tǒng)一的運(yùn)維管理平臺(tái),無(wú)法便捷掌握各數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)、配置信息和資源占用情況,只能手動(dòng)分別查看;運(yùn)維人員一般通過(guò)自己下載的各種第三方數(shù)據(jù)庫(kù)圖形化管理工具,或者直接遠(yuǎn)程到數(shù)據(jù)庫(kù)所在服務(wù)器上進(jìn)行指令操作、腳本運(yùn)行來(lái)完成運(yùn)維工作,每個(gè)人有各自的運(yùn)維方式,運(yùn)維經(jīng)驗(yàn)和運(yùn)維工具未得到共享,且運(yùn)維日志分散在各管理工具及各臺(tái)服務(wù)器中,不方便集中查看,影響數(shù)據(jù)庫(kù)日常運(yùn)維效率;第三方運(yùn)維人員皆使用各數(shù)據(jù)庫(kù)管理員賬號(hào)登錄進(jìn)行運(yùn)維操作,權(quán)限不受限制且日志無(wú)法區(qū)分,只能對(duì)其操作進(jìn)行人工監(jiān)視,存在運(yùn)維安全隱患。

3)部分重復(fù)性工作由人工完成

數(shù)據(jù)庫(kù)運(yùn)維有不少重復(fù)性工作,比如日常啟停操作、例行巡檢、補(bǔ)丁更新、主備切換、日常備份、部分日志及備份文件清理、告警日志信息排查等,這些工作部分由運(yùn)維人員各自編寫(xiě)的定時(shí)腳本完成,其余由人工指令操作完成。重復(fù)性工作造成人力資源的浪費(fèi)。

4)無(wú)風(fēng)險(xiǎn)提示和故障預(yù)警

目前對(duì)于數(shù)據(jù)庫(kù)的監(jiān)控僅測(cè)試其連接是否成功,發(fā)現(xiàn)問(wèn)題時(shí)數(shù)據(jù)庫(kù)已宕機(jī),業(yè)務(wù)中斷,需要一定時(shí)間來(lái)修復(fù)。應(yīng)及時(shí)獲取數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)參數(shù)、日志中的各類(lèi)告警信息,通過(guò)算法模型分析,預(yù)測(cè)數(shù)據(jù)庫(kù)的潛在風(fēng)險(xiǎn),及時(shí)調(diào)整修復(fù)這些問(wèn)題,盡可能減少數(shù)據(jù)庫(kù)宕機(jī)的發(fā)生。

5)無(wú)直觀的數(shù)據(jù)庫(kù)信息展示平臺(tái)

目前只有簡(jiǎn)易的監(jiān)控界面顯示數(shù)據(jù)庫(kù)是否宕機(jī),對(duì)于數(shù)據(jù)庫(kù)配置信息、運(yùn)行狀態(tài)、告警信息、分析報(bào)告以及一些敏感操作沒(méi)有直觀的展示界面,不能及時(shí)發(fā)現(xiàn)數(shù)據(jù)庫(kù)的風(fēng)險(xiǎn)隱患,且在對(duì)每個(gè)數(shù)據(jù)庫(kù)進(jìn)行運(yùn)維操作之前都要手工檢查其運(yùn)行狀態(tài)和日志信息,影響運(yùn)維效率。

 

2  人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)運(yùn)維難點(diǎn)

新建融媒體平臺(tái)將部署在新機(jī)房專(zhuān)有云平臺(tái),結(jié)合云平臺(tái)對(duì)資源池和虛擬機(jī)的靈活操作,當(dāng)前數(shù)據(jù)庫(kù)運(yùn)維的很多問(wèn)題將得到解決。云平臺(tái)中將劃分?jǐn)?shù)據(jù)庫(kù)資源池,可通過(guò)模板方便快捷的搭建新數(shù)據(jù)庫(kù);結(jié)合虛擬機(jī)本身的鏡像和快照模式,故障恢復(fù)更加快捷和多樣化,可靠性增強(qiáng);基于云管理平臺(tái)可以進(jìn)行一些批量操作,如批量關(guān)啟數(shù)據(jù)庫(kù)所在虛擬機(jī),批量打補(bǔ)丁等;可快捷搭建測(cè)試環(huán)境,模擬生產(chǎn)環(huán)境進(jìn)行一些數(shù)據(jù)庫(kù)運(yùn)維測(cè)試操作;運(yùn)維人員各種操作均有日志記錄且可監(jiān)控錄像,風(fēng)險(xiǎn)行為可追溯,安全防控力度得到加強(qiáng)。

然而,云平臺(tái)雖然給運(yùn)維帶來(lái)了一些便利,但并不能解決數(shù)據(jù)庫(kù)運(yùn)維機(jī)制本身存在的問(wèn)題;融媒體相較于傳統(tǒng)媒體有著不同的特點(diǎn),其數(shù)據(jù)庫(kù)架構(gòu)及運(yùn)維需求也不同以往,可預(yù)見(jiàn)的運(yùn)維難點(diǎn)總結(jié)如下。

1)融媒體平臺(tái)涉及業(yè)務(wù)系統(tǒng)多、數(shù)據(jù)類(lèi)型多,數(shù)據(jù)庫(kù)種類(lèi)和數(shù)量隨之增多

新建融媒體平臺(tái)包括融媒體資源庫(kù)、融媒體采編、融媒體線索匯聚、融媒體報(bào)道指揮、傳播力和輿情分析、融媒體績(jī)效考核等一系列業(yè)務(wù)系統(tǒng),數(shù)據(jù)量將會(huì)迅速增加,數(shù)據(jù)類(lèi)型多樣化,按數(shù)據(jù)結(jié)構(gòu)劃分可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),按過(guò)程劃分可分為爬蟲(chóng)獲取原始數(shù)據(jù)、清洗后的中間數(shù)據(jù)以及算法分析后的結(jié)果數(shù)據(jù),按業(yè)務(wù)劃分可分為素材數(shù)據(jù)、半成品數(shù)據(jù)和成品數(shù)據(jù)等,相應(yīng)的數(shù)據(jù)庫(kù)的種類(lèi)和數(shù)量會(huì)隨之?dāng)U大,包括關(guān)系型數(shù)據(jù)庫(kù)mySQL、非關(guān)系型數(shù)據(jù)庫(kù)mongoDB、內(nèi)存數(shù)據(jù)庫(kù)Redis等。不同的數(shù)據(jù)庫(kù)有不同的管理平臺(tái)和運(yùn)維工具,數(shù)據(jù)庫(kù)類(lèi)型和數(shù)量的增加會(huì)加重?cái)?shù)據(jù)庫(kù)管理分散的問(wèn)題;若不減少人工重復(fù)性操作,人力成本將會(huì)極大增加,運(yùn)維效率也難以達(dá)到要求;大量的數(shù)據(jù)庫(kù)更需要規(guī)范化的文檔管理,包括日常的一些配置和運(yùn)維流程、海量數(shù)據(jù)按類(lèi)別的留存和清理時(shí)效等,降低溝通成本,避免大量運(yùn)維工作無(wú)章可循的混亂。

2)融媒體平臺(tái)時(shí)效性要求高,數(shù)據(jù)庫(kù)可靠性需進(jìn)一步提升

傳統(tǒng)紙媒業(yè)務(wù)需要每天按時(shí)完成出報(bào)任務(wù),而融媒體平臺(tái)的信息發(fā)布更注重時(shí)效性,業(yè)務(wù)系統(tǒng)運(yùn)行中斷、數(shù)據(jù)丟失等會(huì)造成嚴(yán)重的后果。報(bào)道指揮、線索匯聚、傳播力和輿情分析等系統(tǒng)業(yè)務(wù)也需要不間斷的運(yùn)轉(zhuǎn),因此,融媒體數(shù)據(jù)庫(kù)可靠性要求更高。因此,可根據(jù)各業(yè)務(wù)系統(tǒng)的特點(diǎn)和需求擬制不同的高可用配置機(jī)制、備份機(jī)制,根據(jù)不同的故障情形擬制不同的故障恢復(fù)機(jī)制,故障發(fā)生時(shí)可隨時(shí)參考實(shí)施,而不是由運(yùn)維人員臨時(shí)根據(jù)現(xiàn)場(chǎng)狀況進(jìn)行方案制定;需引入數(shù)據(jù)庫(kù)風(fēng)險(xiǎn)故障預(yù)警能力,盡可能提前發(fā)現(xiàn)風(fēng)險(xiǎn)并阻止數(shù)據(jù)庫(kù)故障的發(fā)生;采用全面直觀的數(shù)據(jù)庫(kù)信息展示平臺(tái),一目了然掌握各數(shù)據(jù)庫(kù)運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)數(shù)據(jù)庫(kù)風(fēng)險(xiǎn)隱患,提升運(yùn)維效率。

3)業(yè)務(wù)系統(tǒng)上云后,數(shù)據(jù)庫(kù)運(yùn)維便捷度提升,運(yùn)維復(fù)雜度也相應(yīng)提升

新業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)部署在專(zhuān)有云平臺(tái)虛擬機(jī)中,因此數(shù)據(jù)庫(kù)運(yùn)維人員需同時(shí)掌握數(shù)據(jù)庫(kù)運(yùn)維技術(shù)和一定程度的云平臺(tái)運(yùn)維技術(shù),運(yùn)維復(fù)雜度提升。例如,虛擬機(jī)自身的鏡像、快照提升了數(shù)據(jù)庫(kù)可靠性,但這伴隨著更加復(fù)雜的備份機(jī)制和故障恢復(fù)機(jī)制;利用虛擬機(jī)模擬生產(chǎn)環(huán)境搭建測(cè)試平臺(tái),進(jìn)行數(shù)據(jù)庫(kù)測(cè)試的一系列操作;生產(chǎn)環(huán)境數(shù)據(jù)庫(kù)打補(bǔ)丁全過(guò)程對(duì)虛擬機(jī)進(jìn)行的快照備份以及可能的回滾工作等,運(yùn)維效率依賴于運(yùn)維人員個(gè)人的技術(shù)能力和熟練程度。因此,針對(duì)各種常用的配置和運(yùn)維操作,需要制定規(guī)范化的運(yùn)維流程指導(dǎo),并不斷更新記錄文檔,方便追溯和借鑒歷史運(yùn)維經(jīng)驗(yàn)和解決方案,保障運(yùn)維效率和質(zhì)量。

 

 人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)運(yùn)維體系建設(shè)探索

經(jīng)過(guò)多年的信息化建設(shè),人民日?qǐng)?bào)社數(shù)據(jù)庫(kù)運(yùn)維已積累了大量的經(jīng)驗(yàn),結(jié)合對(duì)即將建成的融媒體平臺(tái)數(shù)據(jù)庫(kù)運(yùn)維難點(diǎn)的分析,本文認(rèn)為,可制定一系列規(guī)范化管理文檔來(lái)約束和指導(dǎo)數(shù)據(jù)庫(kù)運(yùn)維操作,建設(shè)集中統(tǒng)一的運(yùn)維管控平臺(tái)來(lái)整體把控?cái)?shù)據(jù)庫(kù)運(yùn)維工作運(yùn)轉(zhuǎn),建設(shè)全面直觀的數(shù)據(jù)庫(kù)信息展示平臺(tái)來(lái)清晰呈現(xiàn)數(shù)據(jù)庫(kù)實(shí)時(shí)運(yùn)行狀態(tài),搭載自動(dòng)化運(yùn)維引擎減少人工作業(yè)、提升運(yùn)維效率,搭載智能化運(yùn)維引擎提升風(fēng)險(xiǎn)預(yù)知、故障研判和運(yùn)維方案制定的能力,來(lái)構(gòu)建“事前預(yù)防、事中快速響應(yīng)、事后可追溯”的規(guī)范化、統(tǒng)一化、智能化、自動(dòng)化、可視化的融媒體數(shù)據(jù)庫(kù)運(yùn)維體系,如圖1所示。



圖片1.png

1 人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)運(yùn)維體系


 

1)規(guī)范化

規(guī)范化是一切運(yùn)維工作的基礎(chǔ),即是將日常運(yùn)維中的碎片化經(jīng)驗(yàn)集中梳理,成為指導(dǎo)運(yùn)維工作的指南和規(guī)則。根據(jù)運(yùn)維工作總結(jié),規(guī)范化管理內(nèi)容可包括文件管理、配置管理、策略管理及安全管理,如圖2所示。各業(yè)務(wù)子系統(tǒng)數(shù)據(jù)庫(kù)的安裝目錄、配置文件目錄,各類(lèi)日志文件、備份文件、所在虛擬機(jī)鏡像及快照文件、常用運(yùn)維工具和補(bǔ)丁包的存放位置及清理機(jī)制,可進(jìn)行規(guī)范化指定和記錄,方便管理和查找,運(yùn)維工具和補(bǔ)丁包也應(yīng)時(shí)常更新維護(hù);配置管理包括數(shù)據(jù)庫(kù)的網(wǎng)絡(luò)、實(shí)例名等基本配置,以及高可用配置和告警閾值的配置規(guī)則及信息記錄;策略管理包括數(shù)據(jù)庫(kù)啟停、主備切換等日常運(yùn)維策略,以及巡檢策略、備份策略、漏洞修復(fù)策略,事件處理策略應(yīng)包括告警甚至故障發(fā)生時(shí)的標(biāo)準(zhǔn)化處理流程,總結(jié)經(jīng)驗(yàn)化的事件處理方案并不斷更新積累,后續(xù)運(yùn)維可直接參考;安全管理必不可少,要細(xì)化數(shù)據(jù)庫(kù)運(yùn)維賬號(hào)的權(quán)限分配,限制各類(lèi)運(yùn)維人員的操作范圍,對(duì)運(yùn)維人員的值班、事件記錄、操作規(guī)范等制訂明確的管理規(guī)則。


圖片2.png


2 人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)運(yùn)維規(guī)范化管理內(nèi)容


 

2)統(tǒng)一化

統(tǒng)一化是將各業(yè)務(wù)子系統(tǒng)、各異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行集中管理,建立統(tǒng)一運(yùn)維管控平臺(tái),提高運(yùn)維效率和安全性。該平臺(tái)可分為用戶管理模塊、信息獲取模塊以及操作下發(fā)模塊,如圖3所示。運(yùn)維人員統(tǒng)一登陸該平臺(tái)進(jìn)行信息查看和運(yùn)維操作,可根據(jù)其負(fù)責(zé)的業(yè)務(wù)子系統(tǒng)和數(shù)據(jù)庫(kù)運(yùn)維內(nèi)容進(jìn)行權(quán)限控制,并對(duì)其操作進(jìn)行詳細(xì)的日志記錄。采集各異構(gòu)數(shù)據(jù)庫(kù)原始數(shù)據(jù)之后,可將其解析為該平臺(tái)所需信息,并統(tǒng)一數(shù)據(jù)格式,為后續(xù)集中展示和分析預(yù)測(cè)提供支持。在該平臺(tái)可進(jìn)行大部分常規(guī)的數(shù)據(jù)庫(kù)操作,方便快捷,平臺(tái)將自動(dòng)將根據(jù)數(shù)據(jù)庫(kù)不同類(lèi)型解析為其適用的指令并下發(fā)。

圖片3.png 

3 人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)統(tǒng)一運(yùn)維管控平臺(tái)

 

3)智能化

數(shù)據(jù)庫(kù)故障風(fēng)險(xiǎn)預(yù)知需要智能化數(shù)據(jù)分析來(lái)實(shí)現(xiàn),通過(guò)對(duì)歷史數(shù)據(jù)訓(xùn)練建模,也可對(duì)故障原因進(jìn)行智能化分析并尋求解決方案,對(duì)日志數(shù)據(jù)的智能化分析可形成各種運(yùn)維報(bào)告。構(gòu)建智能化運(yùn)維引擎供運(yùn)維平臺(tái)調(diào)用,可提前預(yù)防一些潛在故障,有效協(xié)助運(yùn)維人員進(jìn)行判斷實(shí)施。如圖4所示,對(duì)歷史數(shù)據(jù)進(jìn)行清洗得到訓(xùn)練集,進(jìn)行不同的算法訓(xùn)練之后可得到風(fēng)險(xiǎn)預(yù)測(cè)模型、巡檢結(jié)果分析模型、事件分析研判模型及事件處理模型等。導(dǎo)入數(shù)據(jù)庫(kù)實(shí)時(shí)數(shù)據(jù)信息,便可通過(guò)各類(lèi)模型得到分析結(jié)論或者解決方案。結(jié)論和方案在實(shí)際實(shí)施中可得到驗(yàn)證,包括人工干預(yù)等過(guò)程生成的日志可回溯到歷史數(shù)據(jù)中,更新訓(xùn)練集數(shù)據(jù),使模型的智能化能力不斷得到提升。驗(yàn)證成功的結(jié)論和方案可記錄歸檔,日后運(yùn)維遇到同樣的問(wèn)題可參考實(shí)施。

圖片4.png



4 人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)智能化運(yùn)維引擎


4)自動(dòng)化

過(guò)去的數(shù)據(jù)庫(kù)運(yùn)維工作積累了大量的碎片化運(yùn)維經(jīng)驗(yàn)和運(yùn)維工具,運(yùn)維經(jīng)驗(yàn)經(jīng)規(guī)范化整理可形成一系列運(yùn)維策略,而實(shí)現(xiàn)各種功能的運(yùn)維命令、腳本、數(shù)據(jù)庫(kù)自帶的運(yùn)維組件及第三方運(yùn)維插件等工具可形成共享的運(yùn)維工具庫(kù),供各類(lèi)運(yùn)維操作隨時(shí)調(diào)用。這些經(jīng)驗(yàn)和工具便可構(gòu)建自動(dòng)化運(yùn)維引擎供運(yùn)維平臺(tái)調(diào)用,盡可能減少重復(fù)性人工作業(yè),提高運(yùn)維效率。如圖5所示,自動(dòng)化運(yùn)維可由計(jì)劃觸發(fā)或事件觸發(fā)。計(jì)劃包括人工設(shè)定的巡檢、備份、漏洞修復(fù)等任務(wù),這些任務(wù)啟動(dòng)將自動(dòng)按照規(guī)范化的策略進(jìn)行實(shí)施,調(diào)用共享的運(yùn)維命令、腳本等工具完成任務(wù)。告警、故障等事件發(fā)生時(shí),可參照規(guī)范化的事件處理策略,自動(dòng)化查找記錄中有無(wú)相同事件的解決方案可用,若有則按其執(zhí)行,若無(wú)可參考智能化運(yùn)維引擎給出的解決方案,必要時(shí)結(jié)合人工干預(yù)完成事件處理,全程可調(diào)用運(yùn)維工具庫(kù)快捷執(zhí)行運(yùn)維操作。



圖片5.png

        圖5 人民日?qǐng)?bào)社融媒體數(shù)據(jù)庫(kù)自動(dòng)化運(yùn)維引擎

 

5)可視化

數(shù)據(jù)庫(kù)運(yùn)維可視化包括數(shù)據(jù)庫(kù)基本信息、運(yùn)行狀態(tài)以及分析報(bào)告等的可視化呈現(xiàn),即本文所描述“統(tǒng)一運(yùn)維管控平臺(tái)”中的信息獲取模塊的可視化展示,是運(yùn)維人員全面、直觀、實(shí)時(shí)掌握數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)的窗口。數(shù)據(jù)庫(kù)運(yùn)行狀態(tài)是否正常,一目了然的集中可視化展示是最基本的要求,若有告警信息、風(fēng)險(xiǎn)預(yù)警、敏感操作等運(yùn)行隱患,需及時(shí)、準(zhǔn)確地以醒目的方式呈現(xiàn)出來(lái);數(shù)據(jù)庫(kù)基本配置、資源占用、性能指標(biāo)等的可視化呈現(xiàn),可以幫助運(yùn)維人員直觀地發(fā)現(xiàn)數(shù)據(jù)庫(kù)風(fēng)險(xiǎn)隱患以及影響數(shù)據(jù)庫(kù)性能的因素;數(shù)據(jù)庫(kù)每日將會(huì)產(chǎn)生各類(lèi)分析報(bào)告,如每日運(yùn)維報(bào)告、事件分析報(bào)告、備份報(bào)告、漏洞修復(fù)報(bào)告等,這些報(bào)告的可視化呈現(xiàn)幫助運(yùn)維人員快速掌握?qǐng)?bào)告重點(diǎn)內(nèi)容,提煉需要解決的問(wèn)題。

 

4  結(jié)束語(yǔ)

人民日?qǐng)?bào)社新型融媒體平臺(tái)的建成,將為報(bào)社新聞事業(yè)進(jìn)一步發(fā)展提供堅(jiān)實(shí)的技術(shù)支撐。融媒體業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)的平穩(wěn)、持續(xù)運(yùn)轉(zhuǎn)是業(yè)務(wù)工作正常發(fā)揮效用的基本要求,因此對(duì)數(shù)據(jù)庫(kù)的運(yùn)維工作應(yīng)格外重視。本文所提出的規(guī)范化、統(tǒng)一化、智能化、自動(dòng)化、可視化運(yùn)維體系構(gòu)建理念,改變了傳統(tǒng)的運(yùn)維方式,對(duì)運(yùn)維工作面臨的難點(diǎn)提出了解決思路,為運(yùn)維效率、運(yùn)維質(zhì)量及運(yùn)維安全的提升提供參考。

在今后的融媒體數(shù)據(jù)庫(kù)運(yùn)維平臺(tái)實(shí)際建設(shè)過(guò)程中,應(yīng)廣泛調(diào)研數(shù)據(jù)庫(kù)運(yùn)維最新技術(shù)和優(yōu)秀案例,汲取適用于報(bào)社數(shù)據(jù)庫(kù)運(yùn)維模式的技術(shù)要點(diǎn),不斷填充本文提出的運(yùn)維體系使其具體化,最終形成融媒體數(shù)據(jù)庫(kù)運(yùn)維平臺(tái)的技術(shù)架構(gòu)和建設(shè)方案。

 

 

參考文獻(xiàn):

[1] 萊恩·坎貝爾,夏麗蒂·梅杰斯.數(shù)據(jù)庫(kù)可靠性工程—數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)與運(yùn)維指南.第1版.北京:人民郵電出版社;2020.