動(dòng)真格了,百度百科已屏蔽谷歌、必應(yīng)等搜索引擎

近日,有報(bào)道指出百度百科已對(duì)谷歌、必應(yīng)(Bing)等搜索引擎采取了屏蔽措施。以防止這些搜索引擎以及其他網(wǎng)絡(luò)爬蟲(chóng)在未經(jīng)授權(quán)的情況下、抓取其內(nèi)容用于AI大模型的訓(xùn)練。

屏蔽抓取

百度百科通過(guò)更新其robots.txt文件,目前只有百度搜索、搜狗搜索、中國(guó)搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少數(shù)幾個(gè)搜索引擎被允許抓取其內(nèi)容,至于谷歌搜索、必應(yīng)搜索、微軟MSN、UC瀏覽器的Yisouspider以及其它一切搜索引擎爬蟲(chóng),均被明確禁止抓取百度百科的內(nèi)容。

這一策略可能是出于對(duì)版權(quán)保護(hù)的考慮,同時(shí)也可能是百度百科在AI搜索時(shí)代的一種自我保護(hù)措施。

版權(quán)問(wèn)題or道德問(wèn)題?

這種做法實(shí)際上可能只能防止那些遵守robots.txt協(xié)議的爬蟲(chóng),而無(wú)法阻止那些不遵守協(xié)議的爬蟲(chóng)繼續(xù)抓取內(nèi)容。對(duì)于不遵守協(xié)議的爬蟲(chóng),它們可能仍會(huì)通過(guò)各種方式繼續(xù)抓取內(nèi)容用于AI訓(xùn)練。這表明,盡管百度百科采取了屏蔽措施,但互聯(lián)網(wǎng)的開(kāi)放性使得完全阻止內(nèi)容被抓取仍然是一個(gè)挑戰(zhàn)。

AI搜索的快速發(fā)展和對(duì)海量用戶(hù)真實(shí)數(shù)據(jù)的需求,使得包括百度百科在內(nèi)的內(nèi)容平臺(tái)成為了數(shù)據(jù)訓(xùn)練的重要來(lái)源。內(nèi)容平臺(tái)與搜索引擎之間的版權(quán)之爭(zhēng),也反映了AI技術(shù)發(fā)展過(guò)程中需要解決的法律和道德問(wèn)題。


值得注意的是,百度百科的這種做法并非個(gè)例。

據(jù)爆料,知乎也采取了類(lèi)似的措施,已經(jīng)先百度一步禁止了其他搜索引擎的爬蟲(chóng),把白名單中的谷歌和必應(yīng)踢掉,只留下了百度和搜狗。

在AI技術(shù)不斷發(fā)展的背景下,如何平衡知識(shí)產(chǎn)權(quán)保護(hù)和技術(shù)創(chuàng)新之間的關(guān)系,確保AI的健康發(fā)展,成為了一個(gè)亟待解決的問(wèn)題。這不僅需要法律法規(guī)的完善,也需要行業(yè)內(nèi)的自律和合作 。

免責(zé)聲明:素材源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪稿。