缙哥哥的博客
与你分享我的点点滴滴生活

知乎禁止谷歌和必应搜索抓取,担心AI训练还是版权广告?

280G全国流量的电信星海卡仅需29元/月,长期可续该套餐,随时可注销

网上有提到知乎开始强制要求登录账号,否则将禁止查看知乎问答和专栏的完整内容,之前通过脚本屏蔽知乎登录弹窗已经没有意义,因为屏蔽弹窗后要查看内容还是会继续弹出登录窗口。

最近,知乎对外公布了一系列管控措施,其中最引人关注的是修改 robots.txt 文件,禁止除百度和搜狗以外的其他搜索引擎抓取知乎内容。这一操作被普遍解读为知乎希望防止自家内容被用于训练人工智能模型。

为什么要强制用户登录暂时还不清楚,考虑到知乎在搜索引擎中的权重非常高,各大搜索引擎检索问题时都可能看到排在前面的知乎页面,强制登录将对大量用户造成影响。而禁止搜索引擎抓去将会有很多人搜索不到内容,进一步加剧《中文互联网内容正在逐步消失》。

一个可能的原因是知乎不愿意自己的内容被各大搜索引擎或其他爬虫抓取拿去训练 AI 模型,现在强制登录后想要限制抓取在技术手段上是非常容易的,比如某个用户短时间内访问大量页面,那肯定是不正常的。

禁止谷歌和必应等搜索引擎

通过查看知乎 robots.txt 文件可知,此次修改知乎仅允许百度搜索和搜狗(搜狗是新增的,之前禁止搜狗抓取内容)抓取其内容,不再允许其他搜索引擎内容。

  • P.S. 搜狗目前是腾讯系,意味着目前仅与国内两大搜索引擎合作。

知乎在几年前曾与百度达成合作因此在百度搜索中知乎的页面权重非常高可以获得更多点击量,现在只允许百度和搜狗而禁止其他一切搜索引擎,不知道知乎是否已经与百度(国内的主要搜索入口)和腾讯(大范围的圈子以及微信小程序等)达成了某些方面的协议。

目前的这种状况是用户在知乎发布的任何内容,都不会被谷歌和必应收录了,也就是知乎所有新内容在谷歌和必应上都无法再查到。

是AI?是版权?还是圈地?

有人说它是防止 AI 抓取学习,无论是强制登录还是禁止搜索引擎抓取内容,这些操作看起来都非常像是知乎为了避免自己的内容被抓取而拿去训练人工智能。人工智能模型从事前沿语言模型,再到最近大热的图像、视频等多模态模型,都需要采集海量的公开网络数据进行训练,这些数据来源包括新闻网站、社交媒体、视频分享平台等。而知乎在中文内容当中就属于一个优质内容源。

从更广阔的视角来看,知乎的做法反映了数字内容版权保护的困境。虽然互联网社交平台和网站的内容通过搜索引擎等渠道分享是实现知识传播和获取的重要途径,但让第三方免费使用和采集内容,也存在潜在的侵权和被低价剥削的风险。比如曾经的 RSS 订阅,很多用户甚至都不用登陆源网站即可获取信息,那将严重降低网站访客、流量,并降低广告等收入。倘若经过 AI 抓取学习之后,比原来更加精准的展现内容,将会进一步使知乎内容的曝光和传播范围受限,,潜在的到访用户和内容贡献者流失风险加大。

知乎 robots.txt 文件 – 2024.05.29

User-agent: Baiduspider-news
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Baiduspider
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Baiduspider-render
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Baiduspider-image
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /search-special
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-agent: Sogou web spider
Disallow: /appview/
Disallow: /login
Disallow: /logout
Disallow: /resetpassword
Disallow: /terms
Disallow: /search
Allow: /tardis/sogou/
Disallow: /notifications
Disallow: /settings
Disallow: /inbox
Disallow: /admin_inbox
Disallow: /*?guide*

User-Agent: *
Disallow: /
赞(2) 打赏
转载请注明来源及链接:缙哥哥 » 知乎禁止谷歌和必应搜索抓取,担心AI训练还是版权广告?

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册