百度打字测试软件(中文打字软件)

ChatGPT专员099 · 发表于 2023-8-23 17:35:05

GPT-4让AI更加具有像人一样的能力，AI生成的文本的流畅度也令人惊叹，越来越难以辨识。在这一背景下，AI检测文本工具可以通过对生成文本进行追踪和检测，来识别文本是否由AI生成，这也成为防止大型AI语言模型用于作弊等行为的利器。



日前，



复旦大学自然语言处理实验室推出了一款用于AI生成文本检测的测试软件“谛听”（英文：Sniffer），基于黑盒假设，无需大规模监督训练，就能检测AI生成的文本。据该软件的英文版本介绍，对于ChatGPT生成文本的检测率达到80%左右。




实验室负责人邱锡鹏教授3月16日晚间在微信朋友圈上表示：“后续将会在MOSS语言模型开源后，将Sniffer与MOSS进行联动，构成一对矛与盾，相互提升，继续探索大模型的新技术。”




上个月，邱锡鹏告诉第一财经记者，如果优化顺利，MOSS将于3月底开源。团队表示，未来“谛听”软件工具还将支持GPT-4等更多大模型等检测，并在检测性能提升后整理公开模型。



不过团队坦言，由于“谛听”的模型是建立在“黑盒假设”下，因此对于输入文本的来源模型并不知晓，而且与监督训练的分类器相比，将仅使用少部分数据进行训练。



值得注意的是，测试集的检测结果显示，该模型中文检测的准确率低于英文，因此中文检测结果还需要进一步提升。



根据“谛听”的英文版介绍，在保留的测试集上检测结果显示，识别ChatGPT生成文本的成功率在80%左右，识别人类书写文本或GPT-2生成文本的成功率高于90%；非常短的文本（50个单词或更少）很难被检测到。此外，英文人工编写的示例文本来自维基百科。



“谛听”英文检测结果分为四类：来自人类；来自人类、但可能有大模型如GPT-3辅助；来自GPT-3模型；来自GPT-2模型。



“谛听”中文版的检测结果分为三类：一是“文本是人写的”、二是“文本是人写的，但是也很可能包含AI参与”、三是“文本是出自于AI模型的”。



3月17日，邱锡鹏对第一财经记者表示：“对ChatGPT级别的中文检测准确率目前只有约40%，不过对于小模型（3B左右的开源GPT-2模型）生成的准确率可以达到90%左右。”



他解释称，中文检测的准确率低于英文有几个原因。“首先是英文采用的wikipedia数据集进行特征提取，因此覆盖面更广，中文选择的数据质量差一些，这也是我们发布beta测试并且正在改进的地方；第二个是中文大模型的tokenizer（分词器）差异会大一些。”邱锡鹏说道。



他还表示，关于生成文本检测，国外有一些已经发布的产品，对比下来，针对GPT-2级别的模型，准确率比较高，针对GPT-3级别的模型，检测结果还比较差。



“一方面是这些模型是黑盒，我们的掌握信息有限，另一方面是这些模型生成质量很高，多样性也很好，尤其是GPT-4出现以后，相比于GPT-3.5，检测难度进一步增加了。”邱锡鹏对第一财经记者表示，“总而言之，在大模型时代，文本检测的机器评测准确率仍然较低，还需要进一步的研究。”



目前的AI文本检测方式大致可分为两类：黑盒假设和白盒假设。所谓的“黑盒假设”对大型语言模型通常只有API级别的访问权限。因此，这类方法依靠于收集人类和机器的文本数据样本来训练分类模型；“白盒假设”拥有对大型语言模型的所有访问权限，并且可以通过控制模型的生成行为或者在生成文本中加入水印（watermark）来对生成文本进行追踪和检测。



在实践中，黑盒检测器通常由第三方构建，例如较为著名的GPTZero，而白盒检测器通常由大型语言模型开发人员构建。不过由于“黑盒假设”在数据收集的过程中很容易引入偏见（biases），这些偏见常常会被黑盒分类器作为分类的主要特征。而随着大型语言模型能力的提升，大型语言模型生成的文本和人类的差距越来越小，这会导致黑盒模型的检测准确性越来越低



此外，对于黑盒检测，用户可以微调他们的模型，改变模型输出的风格或者格式，从而导致黑盒检测无法找到通用的检测特征。



复旦大学的语言模型MOSS自上个月推出以来备受各界关注。邱锡鹏认为，国外开发者不太可能以中文为主去发展他们的模型，中国要想开发一个大型语言模型的基座，用于国内的信息处理，就必须建设一个中文能力非常强的大型语言模型。



除了复旦大学之外，包括百度、阿里巴巴在内的中国互联网巨头以及初创公司也都在开发基于AI的大模型技术。



【来源：第一财经】



声明：此文版权归原作者所有，若有来源错误或者侵犯您的合法权益，您可通过邮箱与我们取得联系，我们将及时进行处理。邮箱地址：jpbl@jp.jiupainews.com

K3NUW549649 · 发表于 2023-8-23 18:30:31

这真是不错，顶给需要的人

hQpQg420584 · 发表于 2023-8-23 18:38:08

小手一抖，积分到手！

qtNGo584351 · 发表于 2023-8-23 18:38:08

好帖，来顶下

IB8fL157960 · 发表于 2023-8-24 02:22:17

找到好贴不容易，兄弟们，顶起！

wEPrG151689 · 发表于 2023-8-26 03:45:49

我抢、我抢、我抢沙发~

kxSCh479884 · 发表于 2023-8-26 11:25:16

我是个凑数的。。。

V1XGw891125 · 发表于 2023-8-27 02:06:45

好好学习了确实不错

Bz9bD726606 · 发表于 2023-8-28 03:29:14

前排支持下

g1hXn248115 · 发表于 2023-8-29 05:36:25

不错不错，楼主您辛苦了。。。