RichChat

A blog for tech enthusiasts

RichChat

最近在玩 GPT-4o 生图功能时,发现了一个很有意思的小突破 - 只用两个词,就能稳定生成一整套风格一致的动漫贴纸

比如这张:

“Naruto stickers”(火影忍者贴纸) → 就稳稳地生成了一整套Q版火影角色贴纸!

Image
没堆关键词、没加美术风格描述,就这么一个朴实无华的两个单词的prompt,GPT-4o居然给出了九宫格排版、统一风格、角色准确、颜色协调的成图效果。

继续测试下去,“Saint Seiya stickers”(圣斗士星矢贴纸)、“Slam Dunk stickers”(灌篮高手贴纸),几乎都能完美复现:

阅读全文 »

昨晚Meta 悄悄地放出了 Llama 4 系列模型,一下子扔了三个名字很燃的版本:Scout(侦察兵)、Maverick(特立独行者)、Behemoth(巨兽),并直接在 Hugging Face 上开放了下载。

在社交媒体上的AI技术圈瞬间引发了热议,关键词包括:

  • 上下文窗口突破到 1000 万 tokens(Scout);
  • 全系多模态输入(图+文);
  • 混合专家架构(MoE),只激活 17B 参数;
  • 模型部署亲民:Scout 单卡可跑;

有惊喜也有争议。我花了点时间通读发布说明、读了下benchmark、刷了社媒上的开发者热帖,试着理一理这波 Llama 4 到底意味着什么。

Image

阅读全文 »

最近被 GPT-4o 的“灵魂画手变神图”震惊了一下后,意外发现另一个低调但超级实用的AI工具 - 微信自带的图片翻译功能,已经变得非常能打了。

不需要任何插件、不用截图另存,只要「长按图片 → 翻译」,它就能自动识别图中文字,秒翻译成中文(或其他语言),最重要的是还能保留原图样式!

具体操作入口如下箭头处:

阅读全文 »

你是不是曾经用过微信的简易P图功能,在群里扮演过“灵魂画手”,为群友们的照片做过各种涂鸦式的二次创作?那些充满“灵魂”的涂鸦式图片,画风虽然抽象到连你自己都觉得有点好笑,但效果总是莫名传神,把群友们笑到不行。

但想象一下,如果这些“灵魂图片”真的能被 AI 理解并“点石成金”,轻易地直接转为高品质的图片,而且不需要任何画画或设计功底,是不是有点心动了?

最新的 GPT-4o 图片生成能力就正在将这变为现实!


最近我一直在实验 GPT-4o 的生图能力,过程中看到一个特别出彩的例子,觉得非常适合用来说明它到底强在哪。

这张图非常生动地展示了 GPT-4o 在图片生成上的两大亮点

  • 你说什么,它真能懂(指令依从性)
  • 你画得再抽象,它也能理解(易用性超强)
    阅读全文 »

导语: 人工智能(AI)浪潮正深刻影响着教育领域,无论是传统教育体系本身还是传统教育科技方面。许多人在担忧AI可能让学生“走捷径”、削弱独立思考能力时,Anthropic最近推出的专为高等教育设计的Claude for Education给出了一个很好的答案。其核心亮点 - “学习模式”(Learning Mode),旨在引导学生思考,而非直接给出答案。这会是AI在教育领域应用的新方向吗?

推荐阅读:我写过的其他AI+教育主题的文章


AI教育的两难:捷径还是助力?

自ChatGPT等生成式AI工具普及以来,全球高校一直面临着一个难题:是禁止使用,还是拥抱变革?许多教育工作者担心,强大的AI会成为学生逃避深度思考的“超级答案引擎”。斯坦福大学HAI的AI指数显示,超过四分之三的高等教育机构仍缺乏全面的人工智能政策,这反映了普遍的挣扎与不确定性。

正是在这样的背景下,Anthropic推出了Claude for Education,试图为AI在教育中的角色提供一个不同的答案 - 一个更侧重于“学习过程”而非“最终结果”的答案。

阅读全文 »

自从春节期间的DeepSeek爆火后,可以从身边的情况明显感觉到各种AI应用都在迅速扩大渗透率。全球知名的数据分析平台Similarweb刚刚(数据截至3月28日)推出了最新版的 “Global Sector Trends on Generative AI”报告,可以从中看到宏观层面全球生成式AI市场正在发生哪些令人瞩目的变化,以及谁是值得注意的新兴玩家:

市场全景:告别低谷,迎来全面反弹

和2024年初的AI行业低迷期(同比-7%)不同,全球AI市场大盘在2025年Q1出现了强劲反弹,最近12周同比增长达到45%!这不仅标志着市场信心的恢复,更预示着生成式AI正进入更加务实、更有深度的应用阶段。

不同赛道表现各异,形成鲜明对比。AI数据分析工具方向以惊人的177%增长率领跑全场,代码与开发领域紧随其后,增长率高达125%。人力资本管理和法律AI工具分别实现同比增长52%和26%,反映企业级应用正在加速落地。

阅读全文 »

科技圈与体育界的又一次“梦幻联动”来了!最近,一条重磅消息引起了广泛关注:终极格斗冠军赛(UFC)与其母公司 TKO Group 宣布,已和马克·扎克伯格领导的科技巨头 Meta 达成了多年的战略合作伙伴关系。

Image

这不仅仅是两个行业巨头的简单握手,更值得玩味的是合作细节中明确提到的一点:UFC 将利用 Meta 的技术平台、服务和产品,包括 Meta AI、Meta 智能眼镜(Meta Glasses)、Meta Quest VR 头显以及 Facebook、Instagram、WhatsApp 和 Threads 等社交媒体,为全球拳迷们打造前所未有的、更丰富的观赛体验。

AI 智能眼镜:从“极客玩物”到“主流视野”?

这则合作消息中,“Meta 智能眼镜”的明确提及,无疑是一个强烈的信号。长期以来,智能眼镜似乎更多是科技爱好者的“玩具”或是特定工业场景的应用。但这次,全球最顶级的综合格斗赛事 UFC 明确要将其融入赛事体验,这预示着 AI 智能眼镜可能真的要“破圈”,开始步入大众主流视野了。

阅读全文 »

你是否好奇为什么全网都在用GPT-4o生成吉卜力风格的插画,而某些特定类型的图像却无法生成?为什么有时你的创意请求会被拒绝,而有时又能顺利通过?谁在决定这些边界,又基于什么原则?

图片

在某种意义上,制定AI模型政策如同执掌”神之手” - 如果将AI想象成具有强大能力的存在,那么能控制AI能做什么、不能做什么的决策者,就像是在行使一种特殊的权力。尤其当我们考虑到越来越多人在依赖这些AI完成工作和生活任务时,这种权力的意义更加深远。

OpenAI的模型行为负责人Jang最近分享了一篇内部视角的博客,揭示了这些问题的答案。

彩蛋:我在23年整理的一篇OpenAI闭门会分享内容中有一张我最早看到“模型即产品”的图就是来自这位小姐姐,查了一下应该是韩裔,简历相当优秀。她在斯坦福学的是CS,但是曾经在推文上提到过,之前学过的课程中对现在的工作帮助最大的是哲学课,是不是有点“神之手”的感觉了)

图片

阅读全文 »

Anthropic最近发布了第二份Economic Index研究报告,分析了Claude 3.7 Sonnet模型发布后人们使用AI的最新数据(我之前整理过这篇报告的第一篇内容在此)。这份报告通过分析100万条匿名用户和Claude对话的大数据,揭示了AI如何被应用于实际工作场景,以及与先前版本相比的变化趋势。

阅读全文 »

当我们与Claude、GPT或者DeepSeek这样的大语言模型对话时,你是否曾好奇过它们在”思考”些什么?它们如何在几秒钟内从问题到回答,中间经历了怎样的过程?

在之前我整理的这篇《懒人版大语言模型入门》中,提到过“可以将大模型想象为一种绝大部分人无法理解的神秘产物”,也就是说过往哪怕是顶级的AI研究学者也对于“AI大脑”的具体运作方式不清楚。而最近Anthropic公司发布了两篇重要研究论文,首次深入揭示了大语言模型(LLM)的内部运作机制,让我们得以一窥这些AI系统如何”思考”的奥秘:

  • 大模型的多语言处理能力究竟是如何工作的?当我们用中文提问时,是否有一个专门的”中文Claude”被激活,还是在大模型内部存在着某种跨语言处理的核心机制?
  • 当大模型写出一首完美押韵的诗歌时,它是像人类一样提前规划,还是仅仅依靠一个接一个词的预测来”碰巧”达成押韵?
  • 当模型进行心算时,它是否像人类一样思考,还是采用了完全不同的方法?
  • 大模型是否只会”死记硬背”大量答案,而不具备类似人类一样的真正推理能力?
  • 为什么模型有时会产生”幻觉”,编造出看似可信但完全虚构的信息?
  • 模型在遇到可能违反安全规则的请求时,内部究竟发生了什么?

让我们一起深入了解Anthropic的这项开创性研究,探索大语言模型思考过程中的几个令人惊讶的发现:从跨语言的概念共享,到诗歌创作中的提前规划,再到心算、多步推理,甚至是幻觉产生和安全漏洞的内部机制 - 这些发现将重塑大家对于AI的理解。

阅读全文 »
0%