你应该屏蔽 ChatGPT 的网络爬虫吗？

OpenAI 的 ChatGPT 和谷歌的 Bard 等生成式人工智能工具的出现引起了人们的极大兴趣。然而，许多出版商担心他们的宝贵内容会被未经许可或没有报酬地用于“训练”这些学习模型。对于医疗保健和高等教育出版商来说，权衡屏蔽这些工具的战略利弊可能尤其具有挑战性。

ChatGPT 能够就任何可以想象到的话题进行知识性交流

这一点无疑令人印象深刻。它吸引了全世界瑞典电话生成的注意力，将任务从写作转变为编码，并帮助该网站在推出两个月后的 1 月份达到 1 亿月活跃用户。这使其成为历史上增长最快的消费者应用程序，也是 ChatGPT 母公司 OpenAI 估值 290 亿美元的来源。

然而，ChatGPT 的发展轨迹也出现了阴暗面。我们现在了解到，其生成式人工智能模型的大部分“训练”都是在未经发布商许可的情况下进行的，而其爬虫会定期扫描这些发布商的网站。谷歌也一直在做同样的事情。

美国有线电视新闻网 (CNN)、迪士尼 (Disney)、路透社 (Reuters)、纽约时报 (New York Times) 等媒体都表示，这是一个大问题。他们通过屏蔽 ChatGPT 使用的网络爬虫 GPTBot 来维护对其文本、视频和图形内容的版权控制。他们辩称，他们的内容具有巨大的商业价值，使用这些内容需要获得许可和补偿。

一些媒体已经屏蔽了所有与人工智能技术相关的爬虫

路透社发言人指出：“知识产权是我们业增強照片效果的最佳線上圖片編輯器务的命脉，因此我们必须保护内容的版权。”

新闻集团首席执行官罗伯特·汤姆森对此表示同意，他认为“媒体的集体知识产权正受到威胁，我们应该大声疾呼要求赔偿。”

新闻媒体并不是唯一的受害者。亚马逊、Indeed、Quora 和 Lonely Planet 等热门网站也已屏蔽了 GPTBot 爬虫。

OpenAI 和其他公司拒绝接受这种想法。他们承认他们的爬虫会从网上找到的内容中学习，但他们辩称，他们的语言模型会继续完全合成和转换这些公开可用的输入——本质上是为世界创造了新的东西。他们让我们相信，传统的版权规则并不适用于此。

那么，这对学术出版商，即学院、大学、教学医院、研究中心等意味着什么呢？让我们仔细思考一下。

一方面，一些人将学术内容视为组织资产，需要大力保护以防止未经授权的使用。创建学术内容的成本很高，而且它也可能对研究人员的职业生涯或组织的外部品牌不可或缺。这就是为什么大多数组织都会为与公众分享的任何内容申请版权。保护您的投资免受 ChatGPT 和其他人的侵害应该是当务之急，不是吗？

正如你所料，事情并没有那么容易。

想象一下，一家医院或大学屏蔽了 ChatGPT 的短信列表爬虫，然后发现他们再也无法影响其结果，即使是最基本的事实查询——例如医生的研究或学生援助的摘要。由于缺乏可靠的来源内容，ChatGPT 很可能会依赖来自第三方来源的不正确或不完整的信息。这对您的品牌以及您的患者或学生体验都是一种潜在风险。

还有另一个问题。以研究为导向的学者及其组织发表文章很大程度上是因为他们想要产生影响。影响力需要有能够找到并阅读你的想法的受众。这就是困境：屏蔽 ChatGPT 和其他 AI 爬虫实际上会使你的内容对数亿好奇的用户不可见（并且可能无关紧要）。如果你的目标是影响公众的对话，那么你就失败了——保护你的投资反而损害了它。

克利夫兰诊所的Amanda Todorovich

克利夫兰诊所的高级营销人员阿曼达·托多罗维奇(Amanda

Todorovich ) 负责监督该诊所备受好评的出版工作，她也是寻求解决方案的人之一。

“这是一个困难的情况。虽然我们绝对希望保护我们在内容和出版方面的投资，但我们也需要成为人们在使用这些工具做出医疗保健决策时所得到的答案的一部分。无论如何，我们的使命是帮助人们照顾自己和家人，”她说道。“这是我现在与我的团队、法律部门和其他利益相关者每天进行的对话。没有简单的解决方案。”

ChatGPT 能够就任何可以想象到的话题进行知识性交流

一些媒体已经屏蔽了所有与人工智能技术相关的爬虫

正如你所料，事情并没有那么容易。

克利夫兰诊所的高级营销人员阿曼达·托多罗维奇(Amanda

相關文章