DeepSeek大乱斗:不同版本的DeepSeek R1服务之间有区别嘛?

DeepSeek 这款AI大模型是最近炙手可热的话题之一,但突然一下子的大规模出圈导致了DeepSeek官方的服务器总是拥挤不堪。以至于现在,每个人都想知道如何才能稳定地使用 R1 模型。

每次当身边的朋友们问到我这个问题的时候,我会给他们推荐腾讯旗下的元宝 AI这款产品,因为其中也提供了DeepSeek R1的模型(包括联网搜索!),而且无论从服务稳定性还是响应速度来说都显著比不堪重负的DS官网版要强。

但从这一段时间的实用后,我感觉元宝版DeepSeek R1输出的结果质量似乎会比官网版DeepSeek R1要差一些? 所以就做了次实验,这篇内容主要想讨论三个问题:

  1. 元宝的 R1 回答结果是否真的比官网 R1 的差?

  2. 如果有,为什么会有这种差异? 大家不都是用的同样DeepSeek R1模型嘛?

  3. 由于测试的时候用了一个和金融市场相关的例子,引发了最后这点 - 对于金融数据这种对结果精度要求极高的内容,R1+联网搜索的模式是否靠谱?

Disclaimer:下面的实验方式显然还不够严谨,其中也包含了一些个人猜测,仅供抛砖引玉作为辅助参考

针对这些疑问,我进行了一次对比实验。我向元宝的 R1 和官网的 R1 提出了一个理财问题: 请对比港股的中国平安(02318.HK)和建设银行(00939.HK)这两只股票的过往三年派息记录,以及当前的股息率 (TTM),从长期投资的角度来看,你更推荐哪只?

这个问题看似简单,却包含了多个关键点:

  • 派息记录:需要准确获取过去三年的派息数据,包括中期派息和末期派息;
  • 股息率 (TTM):需要计算当前的股息率,这涉及到股价和派息金额的准确性;
  • 长期投资推荐:需要结合派息数据、股息率和其他因素,例如公司基本面、行业前景等,给出合理的投资建议;

也就是说,这是一个既需要准确的数据获取,又需要合理的分析框架,而且结果还是可验证的测试问题。

元宝 版DeepSeek R1 的回答

元宝的 R1 思考了 76 秒,引用了 13 篇资料,输出了 681个字。 以下是它的回答:

根据检索结果,以下是港股中国平安(02318.HK)和建设银行(00939.HK)的派息记录及股息率对比分析:

一、过往三年派息记录对比

中国平安(02318.HK)

2022 年:中期息 0.92 元人民币(约 1.06 港元),末期息 1.5 元人民币(约 1.70 港元)。

2023 年:中期息 0.93 元人民币(约 1.01 港元),末期息 1.5 元人民币(约 1.65 港元)。

2024 年:中期息 0.93 元人民币(约 1.01 港元)。

建设银行(00939.HK)

2022 年:末期息 0.389 元人民币(约 0.42 港元)。

2023 年:末期息 0.4 元人民币(约 0.44 港元)。

2024 年:中期息 0.197 元人民币(约 0.21 港元)。

二、当前股息率(TTM)对比

中国平安:截至 2024 年 8 月数据,股息率(TTM)为 7.48%。

建设银行:2025 年 1 月数据显示,股息率(TTM)为 10.8%,但需注意港股银行股股息率可能因汇率和派息政策波动。

三、长期投资推荐建议

派息稳定性:

中国平安派息频率更高(每年两次),且金额稳定增长,2022-2024 年每股累计派息约 4.28 港元。

建设银行派息集中于年末,中期派息较少,但国有大行分红政策稳健。

股息率与估值:

建设银行当前股息率显著更高(超 10%),但需结合港股银行股低估值(PB 约 0.4-0.6)综合判断。

中国平安股息率约 7.5%,但业务多元化(保险+银行+医疗)可能带来更高增长潜力。

行业前景:

银行股受宏观经济和利率政策影响较大,但建设银行作为国有大行抗风险能力较强。

中国平安布局“综合金融+医疗养老”,长期增长空间更广,但需关注保险行业周期性波动。

结论:

稳健型投资者:建设银行(00939.HK)的高股息率和低估值更具吸引力,适合追求稳定现金回报的长期持有。

成长型投资者:中国平安(02318.HK)业务多元化和医疗养老战略可能带来更高收益弹性,但需承担行业波动风险。

建议根据个人风险偏好和投资目标选择,若需进一步分析具体财务指标或行业趋势,可补充说明需求。

官网 R1 的回答

官网的 R1 思考了 50 秒,引用了 50 篇资料,输出了 969个字。 以下是它的回答:

以下是对港股中国平安(02318.HK)和建设银行(00939.HK)的派息记录、股息率及长期投资价值的对比分析:

一、过往三年派息记录对比

中国平安(02318.HK)

2024 年:中期息 0.93 元人民币(约 1.02 港元)。

2023 年:末期息 1.5 元人民币(约 1.65 港元),中期息 0.93 元人民币(约 1.01 港元)。

2022 年:末期息 1.5 元人民币(约 1.70 港元),中期息 0.92 元人民币(约 1.06 港元)。

特点:每年两次派息,金额相对稳定,2023 年股息总额同比增长约 5%。

建设银行(00939.HK)

2024 年:中期息 0.197 元人民币(约 0.213 港元)。

2023 年:末期息 0.4 元人民币(约 0.438 港元),未派中期息。

2022 年:末期息 0.389 元人民币(约 0.422 港元),未派中期息。

特点:中期派息较不稳定(2023 年未派),但末期息逐年小幅增长,2024 年恢复中期派息。

二、当前股息率(TTM)对比

中国平安:

TTM 股息率:7.48%(以 2024 年中报数据计算)。

股价参考:截至 2024 年 8 月 26 日,股价为 35.2 港元(近期受业绩推动上涨)。

建设银行:

TTM 股息率:根据 2024 年中期息和 2023 年末期息合计 0.597 元人民币(约 0.65 港元),结合当前股价 5.52 港元计算,股息率约为 11.8%。

股价参考:截至 2024 年 8 月 30 日,股价为 5.52 港元。

三、长期投资价值分析

建设银行(00939.HK)

优势:

高股息率:当前股息率超 11%,显著高于行业平均水平,适合追求稳定现金流的投资者。

资本充足:核心一级资本充足率 13.59%,抗风险能力较强。

政策支持:作为国有大行,受益于政策鼓励中长期资金入市,估值修复潜力较大。

风险:

净息差压力:2024 年净息差预计收窄 10 个基点,可能影响利息收入。

经济周期敏感性:银行业盈利与宏观经济高度相关,需警惕信贷需求疲软和资产质量波动。

中国平安(02318.HK)

优势:

业务多元化:综合金融(保险、银行、资管)与医疗养老生态协同,增长潜力较大。

盈利稳定性:2024 年上半年归母净利润同比增长 6.84%,运营 ROE 达 29.4%(寿险业务)。

政策红利:医疗养老战略契合老龄化趋势,长期或成为新增长点。

风险:

股息率较低:TTM 股息率约 7.5%,低于建行,但分红连续性较好。

投资收益波动:权益资产占比较高,市场波动可能影响净利润。

四、综合推荐

偏好高股息与防御性:推荐建设银行。其超高股息率(11.8%)和低估值(市净率 0.48 倍)提供安全边际,适合保守型投资者。

侧重长期增长潜力:推荐中国平安。其业务多元化和医疗养老战略有望突破增长瓶颈,适合愿意承担一定波动以换取更高回报的投资者。

结论:若以长期持有并获取稳定分红为目标,建设银行更具吸引力;若更看重业务多元化和行业转型机遇,中国平安更值得关注。

结果分析

测试结果揭示了一个有趣的悖论:尽管使用了相同的模型,官网版R1的回答感觉会更加全面和详细。 它不仅提供了派息记录和股息率数据,还分析了每家公司的优势和劣势,并根据不同的投资偏好给出了推荐建议。 而元宝版R1的回答虽然也覆盖了这些方面,但相对简略,例如缺乏对公司基本面和行业前景的深入分析。

总结来说,如果是综合来评估一款AI服务的回答质量,不是仅仅取决于核心技术(在这个案例中是模型本身),而是还要考虑服务提供商如何能聚合和整合各种互补性资源。这些资源包括但不限于:数据获取能力(搜索服务的质量)、计算资源的分配策略(成本控制)、以及专业数据源的接入(行业特定数据)等

差异原因探讨

那么,如果仅从上面这个例子来思考,为什么元宝版R1的回答质量会略低于官网版R1呢? 可能有以下几个原因(纯个人猜测,欢迎拍砖):

  • 搜索服务的差异:由于DeepSeek R1模型并不是自带搜索能力的,因此在部署了同样的R1模型后,如何实现“联网搜索”能力这里应该每家都会有差异。元宝版R1可能使用了不同的搜索引擎或搜索策略,导致搜索结果的数量和质量不如官网 R1? 例如,元宝版R1可能只使用了搜狗搜索,而官网版R1可能使用了混合服务提供商,例如百度+Bing?
  • 模型输出长度限制:元宝可能出于节省成本的考量(具体可以参考下面讨论成本的内容),限制了R1模型的输出长度上限? 这导致元宝版R1的回答无法像官网版R1那样详细和全面;
  • 其他潜在因素:例如模型参数调整、prompt的设计等,也可能导致两个版本的R1回答质量存在差异;

金融数据服务的思考

虽然这点是在测试前没有想到的,但从结果来说,引发的另一个思考是 - 对于内容包含金融数据这些对精度要求极高的回答,很可能仅仅依赖于普通的搜索结果是不够好的。为此,用我上面提出的这条理财问题,专门对带了推理+联网能力的Google Gemini去做提问,正好作为第三方参考。

从结果来看,由于Gemini直接采用了来自Yahoo Finance的专业金融数据作为参考(而不是采用普通的网页搜索结果),因此在具体的派息记录上给出的结果是最全面的 - 官网的R1和元宝的R1回答中都没有提到 2024 年平安和建行的中期派息, 而且在股息率TTM的计算上,也是Gemini的更好(由于股息率这个数值有多种统计口径,所以确实是比较难的)。

成本与服务平衡的讨论

关于为什么我猜测可能哪怕是互联网大厂也未必能顶得住海量用户来访问R1服务。将之前我和卡尔老师在这个问题上的一些讨论在这里也附上一下 - 提供R1服务的核心考虑指标是每百万token成本,但这其中包含了很多值得探讨的细节:

  • H20 卡的真实并发能力支持 – 之前共识粉碎机提到的“每张H20可以支持500个Deepseek满血版用户同时使用”这点是值得争议的,我个人觉得这个结果当前过于乐观了(后续大厂们优化做好了当然还有提升空间);
  • 此外,实际成本中远不止买卡的成本,严格说包含设备折旧、电力、运维和软件成本(例如上面提到框架优化和安全等)等,甚至设备中也不止包含显卡,还有其他配套的硬件和存储等。电力消耗和运维成本(包括机房建设等);
  • 如果再考虑为了峰值负载等做些冗余设计这些话,硬件需求还可以再多考虑个30%;

而且,上面这些成本大多是固定成本,而非可变成本。因此,不能简单地认为大厂们购买了几十万张卡,而这些卡的成本只占大厂利润的1%,就能判断大厂们可以稳定地为全民免费提供 R1 的推理服务。当然我乐观估计大厂们仅仅只是初期采取一些灰度、分级有损服务等控制措施来抗住成本压力,然后会持续通过性能/工程优化来为广大用户提供免费R1服务。

总结

通过这次对比实验,我们能发现即使部署的是同样的模型,但最终实际输出的结果质量依然会有区别(当然再次强调实验的设计不严谨)。 这里引发的思考是 - AI服务的差异化竞争不在于模型本身,而在于服务提供商如何构建完整的服务生态。这包括数据获取能力、计算资源调度、专业数据整合等多个维度。

此外,如果大家在向AI提出涉及到对结果的事实精度要求极高的内容(例如金融数据),请记得一定要再去专业的数据服务商那边做二次验证,而不要仅仅把DeepSeek当成搜索引擎来用