今日頭條升級(jí)靈犬反低俗助手

2019-08-02 10:47:24??來(lái)源：責(zé)任編輯：陳楠我來(lái)說(shuō)兩句

7月30日，今日頭條宣布正式推出新版靈犬反低俗助手（以下簡(jiǎn)稱(chēng)“靈犬”），同時(shí)支持圖片和文本識(shí)別。這是時(shí)隔半年后，“靈犬”的又一次重要升級(jí)。

Generated

“靈犬”脫胎于今日頭條反低俗模型，是一款檢測(cè)內(nèi)容健康度的輔助小工具，致力于打擊低俗低質(zhì)內(nèi)容，凈化網(wǎng)絡(luò)空間。用戶(hù)目前可以在今日頭條內(nèi)，搜索“靈犬”進(jìn)行試用。

當(dāng)天下午，一場(chǎng)名為“算法如何反低俗”的溝通會(huì)在字節(jié)跳動(dòng)總部舉辦。字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)王長(zhǎng)虎現(xiàn)場(chǎng)介紹了“靈犬”背后的技術(shù)原理。

據(jù)了解，在文本識(shí)別領(lǐng)域，新版“靈犬”同時(shí)應(yīng)用了“Bert”和半監(jiān)督技術(shù)，訓(xùn)練數(shù)據(jù)集包含920萬(wàn)個(gè)樣本，準(zhǔn)確率提升至91%。在圖片識(shí)別領(lǐng)域，“靈犬”采用深度學(xué)習(xí)作為解決方案，在數(shù)據(jù)、模型、計(jì)算力等方面均做了針對(duì)性?xún)?yōu)化。

“靈犬”使用人次超過(guò)300萬(wàn)

信息大爆炸時(shí)代，打擊低俗低質(zhì)內(nèi)容，是當(dāng)前全球信息平臺(tái)都面臨的難題，不管是國(guó)外的Facebook、Google，還是國(guó)內(nèi)的微信、今日頭條，都在尋求解決方案。

反低俗無(wú)法單一地依靠技術(shù)或人工解決。王長(zhǎng)虎表示，低俗的定義相對(duì)籠統(tǒng)，很難完全精確地定義出來(lái)，這項(xiàng)工作即使對(duì)人來(lái)說(shuō)也不容易，交給機(jī)器做更難實(shí)現(xiàn)，而在當(dāng)前內(nèi)容創(chuàng)作和消費(fèi)海量增長(zhǎng)的趨勢(shì)下，純靠人工解決，效率低，無(wú)法有效滿(mǎn)足用戶(hù)需求。

Generated

王長(zhǎng)虎分享“靈犬”背后的技術(shù)原理

今日頭條是國(guó)內(nèi)反低俗的先行者，而“靈犬”是今日頭條反低俗系統(tǒng)的一個(gè)簡(jiǎn)化版本。據(jù)了解，2012年以來(lái)，今日頭條內(nèi)部搭建了反色情、反低俗、反標(biāo)題黨、反虛假信息、反低質(zhì)等數(shù)百個(gè)模型，并投入近萬(wàn)人專(zhuān)業(yè)審核團(tuán)隊(duì)?！白鳛樾袠I(yè)領(lǐng)先者，在內(nèi)容安全上，今日頭條一直用最高的標(biāo)準(zhǔn)要求自己，”王長(zhǎng)虎說(shuō)，“靈犬是一個(gè)開(kāi)放的反低俗窗口，我們希望通過(guò)靈犬，接收社會(huì)各界對(duì)反低俗的意見(jiàn)和建議。”

新版“靈犬”重點(diǎn)拓展了反低俗識(shí)別類(lèi)型和模型能力，現(xiàn)已覆蓋圖片識(shí)別（反色情低俗、反血腥暴力）和文本識(shí)別（反色情低俗、反暴力謾罵、反標(biāo)題黨）。后續(xù)還將支持語(yǔ)音識(shí)別和視頻識(shí)別。

此前一年時(shí)間內(nèi)，“靈犬”已陸續(xù)完成兩次迭代。2018年3月28日，今日頭條首次上線(xiàn)“靈犬”，支持檢測(cè)文字和文章鏈接。2018年5月16日，“靈犬”完成服務(wù)能力升級(jí)，增加反色情短文本模型和反謾罵模型，將準(zhǔn)確率從73%提升至82%。2019年2月20日，“靈犬2.0”正式上線(xiàn)，除了反色情低俗模型，加入反暴力謾罵和反標(biāo)題黨模型，覆蓋了主要的低俗低質(zhì)內(nèi)容類(lèi)型，整體識(shí)別準(zhǔn)確率接近85%。截至2019年6月，靈犬反低俗助手的使用人次已經(jīng)超過(guò)了300萬(wàn)。

用戶(hù)只需要在“靈犬”內(nèi)輸入一段文字或文章鏈接，“靈犬”就可以幫助其檢測(cè)內(nèi)容健康指數(shù)，返回一個(gè)鑒定結(jié)果。對(duì)于用戶(hù)輸入的內(nèi)容，“靈犬”會(huì)先進(jìn)行提取、分詞和語(yǔ)義識(shí)別，然后根據(jù)相關(guān)規(guī)則，輸出對(duì)應(yīng)的分?jǐn)?shù)、評(píng)級(jí)和結(jié)論。這一切都在短短幾秒內(nèi)完成。圖片和圖片鏈接檢測(cè)同理，用戶(hù)在“靈犬”內(nèi)上傳圖片或圖片鏈接，即可快速獲取鑒定結(jié)果。

“靈犬”背后的技術(shù)迭代

據(jù)王長(zhǎng)虎介紹，“靈犬”背后的文本分類(lèi)模型，已經(jīng)經(jīng)過(guò)了三次迭代。每個(gè)新版本相對(duì)于舊版本，在技術(shù)和數(shù)據(jù)集層面，都有一個(gè)明顯的躍升。

第一代“靈犬”，應(yīng)用的是“詞向量”和“CNN（卷積神經(jīng)網(wǎng)絡(luò)）”技術(shù)，訓(xùn)練數(shù)據(jù)集包含350萬(wàn)數(shù)據(jù)樣本，對(duì)隨機(jī)樣本的預(yù)測(cè)準(zhǔn)確率達(dá)到79%。第二代“靈犬”，應(yīng)用的是“LSTM（長(zhǎng)短期記憶）”和“Attention”技術(shù)，訓(xùn)練數(shù)據(jù)集包含840萬(wàn)數(shù)據(jù)樣本，準(zhǔn)確率提升至85%。

新版“靈犬”同時(shí)應(yīng)用了“Bert”和半監(jiān)督技術(shù)，并且在此基礎(chǔ)上使用了專(zhuān)門(mén)的中文語(yǔ)料，在不犧牲效果的情況調(diào)整了模型結(jié)構(gòu)，使得計(jì)算效率能達(dá)到實(shí)用水平?！癇ert”是當(dāng)前最先進(jìn)的自然語(yǔ)言處理技術(shù)，是該領(lǐng)域近年來(lái)重大進(jìn)展的集大成者。這項(xiàng)技術(shù)在常見(jiàn)的閱讀理解、語(yǔ)義蘊(yùn)含、問(wèn)答、相關(guān)性等各項(xiàng)任務(wù)上，大幅提高了性能。

這一代“靈犬”訓(xùn)練數(shù)據(jù)集總量是1.2個(gè)T，相當(dāng)于20倍百度百科或100倍維基百科的數(shù)據(jù)總量，包含920萬(wàn)個(gè)樣本，準(zhǔn)確率提升至91%。

不同于文本識(shí)別，圖片識(shí)別的技術(shù)難點(diǎn)主要在于三方面：非均衡、類(lèi)內(nèi)方差大和不可窮舉，即，低俗圖片占整體圖片內(nèi)容的比例較低，低俗圖片的種類(lèi)豐富、繁雜，構(gòu)成低俗圖片的特征千差萬(wàn)別。

對(duì)此，“靈犬”運(yùn)用的解決方案，是深度學(xué)習(xí)?！拔覀兎謩e在數(shù)據(jù)、模型、計(jì)算力等方面做了很多優(yōu)化?！蓖蹰L(zhǎng)虎說(shuō)。數(shù)據(jù)層面，“靈犬”已累積上千萬(wàn)級(jí)別的訓(xùn)練數(shù)據(jù)。模型層面，“靈犬”針對(duì)許多困難樣本做了模型結(jié)構(gòu)調(diào)優(yōu)，嘗試解決多尺寸、多尺度、小目標(biāo)等復(fù)雜問(wèn)題。計(jì)算力層面，“靈犬”利用分布式訓(xùn)練算法以及GPU訓(xùn)練集群，加速模型的訓(xùn)練和調(diào)試。

一些技術(shù)難以搞定的問(wèn)題，現(xiàn)階段還有賴(lài)于人工判斷。比如技術(shù)暫時(shí)難以制定標(biāo)準(zhǔn)的案例：世界名畫(huà)中常常出現(xiàn)裸體女子，如果完全交由機(jī)器判斷，機(jī)器通過(guò)識(shí)別畫(huà)中人物的皮膚裸露面積，就會(huì)認(rèn)為這幅畫(huà)是色情低俗的；而某些拍攝芭蕾舞的圖片，以機(jī)器的視角來(lái)看，其實(shí)類(lèi)似于裙底偷拍。

此外是因?yàn)槭褂脠?chǎng)景、人群不同而導(dǎo)致標(biāo)準(zhǔn)變動(dòng)的案例：內(nèi)衣和內(nèi)衣模特出現(xiàn)在購(gòu)物平臺(tái)上，會(huì)被默認(rèn)為正常，但如果頻繁出現(xiàn)在新聞資訊平臺(tái)上，就可能被認(rèn)為有低俗嫌疑；正常的熱舞內(nèi)容，提供給成年人看，符合常規(guī)標(biāo)準(zhǔn)，但如果開(kāi)啟了青少年模式，這些內(nèi)容就不應(yīng)該出現(xiàn)。

王長(zhǎng)虎說(shuō)，針對(duì)低俗判斷問(wèn)題的復(fù)雜性和不同判斷方式的局限性，一方面需要不斷進(jìn)化技術(shù)模型，一方面需要有效結(jié)合技術(shù)和人工判斷兩種方式。

當(dāng)前，“靈犬”建設(shè)了比較完善的模型迭代系統(tǒng)。通過(guò)“數(shù)據(jù)收集—數(shù)據(jù)標(biāo)注—數(shù)據(jù)清洗—模型訓(xùn)練—模型評(píng)估—badcase分析”這一套完整的流程，持續(xù)做優(yōu)化。

相關(guān)閱讀:

打印 | 收藏 | 發(fā)給好友【字號(hào) 大中小】

今日熱詞

更多>>福建今日重點(diǎn)

周祖翼率團(tuán)訪(fǎng)問(wèn)西班牙和阿根廷
今日論壇 | 讓“首發(fā)”之花持久綻放
福安：“鏈”上聚合力產(chǎn)業(yè)增活力
莆田市涵江區(qū)：“春燕”領(lǐng)航 “雁陣”齊飛
龍巖：多款“技能包”助力人才留下來(lái)
時(shí)評(píng) | 以真招實(shí)招促進(jìn)民營(yíng)經(jīng)濟(jì)發(fā)展
南鐵5日增開(kāi)108趟短途列車(chē)方便旅客出行

更多>>國(guó)際國(guó)內(nèi)熱點(diǎn)

新聞圖片

清明時(shí)節(jié)，邂逅浪漫花海

中國(guó)救援隊(duì)伍在緬甸巡診

更多>>娛樂(lè)

?萬(wàn)達(dá)電影加大《哪吒2》澳洲排片
參賽歌曲385首！第二屆“海峽情”投票開(kāi)啟
莆田題材電影《情滿(mǎn)木蘭》上映
昨天龔俊也在福州，如果他也走三坊七巷試試？
廈門(mén)成為青年電影人圓夢(mèng)福地
《最憶船政》推出3.0升級(jí)版
海絲情·我把家鄉(xiāng)唱給你聽(tīng)展播（12）
《樹(shù)下有片紅房子》熱播福州成網(wǎng)紅打卡點(diǎn)
福州春色濃，周末“戲”相逢
古老南音實(shí)力“圈粉”

點(diǎn)擊排行
三天
一周
一月

原創(chuàng)
熱詞
政務(wù)
福建
臺(tái)海
國(guó)內(nèi)
國(guó)際
直通屏山
視頻
評(píng)論
娛樂(lè)
體育
財(cái)經(jīng)
專(zhuān)題
大學(xué)城
網(wǎng)事

關(guān)于我們 | 廣告服務(wù) | 網(wǎng)站地圖 | 網(wǎng)站公告 |

國(guó)新辦發(fā)函[2001]232號(hào) 閩ICP備案號(hào)(閩ICP備05022042號(hào)) 互聯(lián)網(wǎng)新聞信息服務(wù)許可證編號(hào)：35120170001 網(wǎng)絡(luò)文化經(jīng)營(yíng)許可證閩網(wǎng)文〔2019〕3630-217號(hào)
信息網(wǎng)絡(luò)傳播視聽(tīng)節(jié)目許可（互聯(lián)網(wǎng)視聽(tīng)節(jié)目服務(wù)/移動(dòng)互聯(lián)網(wǎng)視聽(tīng)節(jié)目服務(wù)）證號(hào)：1310572 廣播電視節(jié)目制作經(jīng)營(yíng)許可證（閩）字第085號(hào)
網(wǎng)絡(luò)出版服務(wù)許可證（署）網(wǎng)出證（閩）字第018號(hào) 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證閩B2-20100029 互聯(lián)網(wǎng)藥品信息服務(wù)（閩）-經(jīng)營(yíng)性-2015-0001
福建日?qǐng)?bào)報(bào)業(yè)集團(tuán)擁有東南網(wǎng)采編人員所創(chuàng)作作品之版權(quán)，未經(jīng)報(bào)業(yè)集團(tuán)書(shū)面授權(quán)，不得轉(zhuǎn)載、摘編或以其他方式使用和傳播
職業(yè)道德監(jiān)督、違法和不良信息舉報(bào)電話(huà)：0591-87095403（工作日9:00-12:00、15:00-18:00） 舉報(bào)郵箱：jubao@fjsen.com 福建省新聞道德委舉報(bào)電話(huà)：0591-87275327

亚洲av无码乱码中文_日韩激情一级无码毛片_国产91资源午夜福利_玖玖资源站最新地址2

今日頭條升級(jí)靈犬反低俗助手