腾讯混元大模型上手:代码能力有点惊喜,随时随地可用的小助手
很高兴能拿到混元大模型的内测资格,在国内百度、阿里都推出自己家大模型之后,本着别人有我也得有的原则,腾讯还是第一时间立项安排上了大模型。虽然有点晚,但是因为国内的大模型壁垒还是存在的,只是在国内市场来说,文心一言还是领跑状态,并且toC已经收费了。
那么腾讯新出的混元大模型相比文心一言有没有更好的亮点呢?让我们一起来试试吧。
因为评测AI大模型真的太多了,我觉得应该有一个标准的测试流程。所以我定义了以下的方面来测试AI对于普通用户的能力。每一项100分,主观评分。
HeoVersatileAI 1.0
- 语言逻辑与上下文关联性
- 错误纠正
- 时效性
- 代码编程(swift、js)
- 图片绘制与修改
- 文档识别与处理
- 第三方扩展
语言逻辑与上下文关联性
我亲生爸妈的婚礼没有邀请我,我应该去参加吗
- 混元大模型
如果你想知道是否应该参加你亲生父母的婚礼,你需要考虑以下几个因素:
婚礼的重要性:如果你认为婚礼对你来说意义重大,例如可以帮助你更好地了解你的父母,或者加强你与他们之间的关系,那么你可以考虑参加。
父母的意愿:你需要考虑你父母的意愿,看看他们是否愿意让你参加婚礼。如果你父母已经明确表示不希望让你参加,那么你可能需要尊重他们的决定。
自己的需求:你需要考虑你是否需要参加婚礼,以及你是否能够适应参加婚礼所带来的压力和不确定性。如果你感到不确定或焦虑,那么也许不参加婚礼是一个更好的选择。
综上所述,如果你认为婚礼对你意义重大,而你的父母也愿意让你参加,同时你能够适应婚礼所带来的压力和不确定性,那么你可以选择参加婚礼。
- 文心大模型3.5
通常来说,你亲生父母的婚礼没有邀请你参加,是因为你当时还没有出生。当然,他们肯定会为你的到来感到非常高兴和期待,因为他们会看到你成长为一个独立、幸福的人。
如果你想参加他们的婚礼,并且觉得这对你来说有意义,那么你可以选择去参加。不过,你需要考虑到一些可能存在的问题,比如时间安排、交通和住宿等。
最重要的是,无论你做出什么决定,都要确保这个决定是你自己愿意并且开心的。你可以考虑和你的亲生父母沟通一下,听听他们的想法和意见,然后再做出决定。
- GPT4Turbo
对于这种情况,决定是否参加父母的婚礼是一个非常个人化的决定,取决于你与他们的关系以及你的个人感受。以下是一些可能帮助你做出决定的因素:
关系状态:考虑你目前与父母的关系。如果你们的关系良好,或者你希望改善关系,参加婚礼可能是一个积极的步骤。
沟通:如果可能,与父母沟通你的感受和疑虑。了解他们为什么没有邀请你,这可能帮助你做出更明智的决定。
个人感受:考虑这个决定对你个人的意义。如果你觉得参加会使你感到不舒服或伤心,你可能需要更多时间来思考。
后果:思考你的决定可能带来的长期后果。不去可能影响你与父母的关系,但去了可能会让你感到不适。
求助:如果你觉得难以做出决定,向信任的朋友、家庭成员或专业人士寻求意见可能会有所帮助。
记住,最重要的是选择对你自己最好的决定。每个人的家庭情况都是独特的,因此最终的决定应该基于你个人的感受和情况。
明显我们可以看到文心一言是遥遥领先,其他两个模型无法了解其中的逻辑,也无法考虑到有可能的情况。例如生你的时候没有结婚等。只有文心一言判断出可能没有出生。
我今年12岁了,我的父母结婚14年了,这件事我耿耿于怀了14年
- 混元大模型
我明白你的感受。在这种情况下,你可能感到有些沮丧或者受到伤害。但是,你可以尝试和父母进行沟通,表达你的感受和想法。
首先,你可以问问自己,你想在婚礼上做什么,以及你希望父母如何表达对你的爱。然后,你可以和父母进行坦诚的对话,告诉他们你的感受和想法。
如果你的父母能够理解你的感受,那么你可以和他们一起制定一个计划,如何让你感到更加舒适和满意。这可能包括制定一个时间表,让你参加某些婚礼活动,或者安排一些特别的活动,让你感到更加特别和受到关注。
如果你的父母无法理解你的感受,或者他们不愿意改变他们的行为,那么你可能需要考虑与他们保持距离,直到他们能够更好地关注你的感受和需求。
最后,你需要记住,即使你感到受伤或者失望,你仍然值得被爱和被关注。你不需要接受一个不完美的父母,但是你可以选择接受你自己,以及寻找爱和关注的其他来源。
我们可以看到讨论了婚礼相关的内容,还是有上下文关联的。至于内容。。。
- 文心大模型3.5
如果你已经12岁了,那么你的父母结婚已经14年了。如果你一直耿耿于怀这件事,可能是因为当时你并没有得到邀请参加他们的婚礼,或者你觉得自己被忽略或被遗忘了。
这种感受是很正常的,但是你需要知道,你的父母可能并没有意识到他们的决定会给你带来如此大的困扰。你可以尝试与你的父母沟通,告诉他们你的感受和想法。也许他们可以给你解释他们的决定,或者告诉你为什么没有邀请你参加婚礼。
与你的父母坦诚地交流,可以帮助你更好地理解他们的想法和感受。同时,你也可以表达自己的想法和感受,让他们了解你内心的想法和感受。通过这样的交流,你们可以更好地理解彼此,增进彼此之间的信任和感情。
这种明显错误的逻辑在文心一言里面已经无法分析了,已经忘记了没有出生这件事,可能一开始没有出生是针对性的优化,并不是大模型真正理解这件事情(别人问的太多了,大模型被人工精准调教了),可能难度太高了。
可以说这两个大模型首先不会质疑用户提供的信息,他们都是先相信,然后再理解。
- GPT4Turbo
了解到你的父母结婚时没有邀请你,而你从小到现在一直对此耿耿于怀,确实是一件让人感到困惑和伤心的事情。考虑到你现在12岁,而你的父母结婚已经14年,这意味着你在他们结婚时还没有出生。这可能是为什么你没有被邀请参加他们婚礼的原因。
对于你的感受,这里有几点建议:
沟通:和你的父母谈谈你的感受。可能他们并不知道这件事情对你有多么重要。和他们坦诚地交流你的感受和疑惑,听听他们的解释和看法。
理解和接受:了解到你当时还未出生,所以没有参加他们婚礼是有原因的。尽管这样,你的感受是合理的,但也许理解这一点可以帮助你接受这个事实。
专注于现在:虽然过去的事情无法改变,但你可以专注于和父母现在和将来的关系。建立一个健康、开放的沟通环境,分享你的感受和想法。
寻求支持:如果这件事情仍然让你感到困扰,和一个你信任的大人谈谈,比如家庭成员、老师或学校的辅导员。
记住,每个人的感受都是合理的,了解和处理这些感受是成长的一部分。通过与父母和他人的开放交流,你可以更好地理解这些情感并学习如何处理它们。
GPT4在这里直接反杀了,在提供年龄数据的情况下,GPT成功意识到我还没有出生这件事情。妙啊。
这三个模型对于上下文还是有关联性的,对于语言逻辑,文心一言3.5一开始是有针对性优化,多次询问后漏出鸡脚。GPT4一开始没有考虑到出生de情况,但是在说年龄之后成功意识到这个问题。所以GPT4还是得给他更加详细的信息,联想多种情况的能力还是比较弱的。
混元:30
文心3.5:60
GPT4:70
错误纠正
“双兔傍地走,安能辨我是雄雌”是白居易写的什么诗?
- 混元大模型:
这是《木兰诗》中的诗句。
我们可以看到并没有纠正我们的问题。
- 文心一言
根据公开资料,《木兰诗 / 木兰辞》是南北朝时期的作品,作者不详。
《木兰诗》全诗以“木兰是女郎”来构思木兰的传奇故事,富有浪漫色彩;详略安排极具匠心,虽然写的是战争题材,但着墨较多的却是生活场景和儿女情态,富有生活气息;以人物问答及铺陈、排比、对偶、互文等手法描述人物情态,刻画人物心理,生动细致,神气跃然,具有强烈的艺术感染力。希望以上信息可以帮助到您。
文心一言直接介绍了木兰诗的简介和作者,算是纠正了我们的错误问题了。
- GPT4Turbo
“双兔傍地走,安能辨我是雄雌”这句诗出自唐代诗人白居易的《赋得双兔》。这首诗是他用来描述两只兔子的,通过这个比喻来表达某种哲理或情感。白居易的诗往往含有深刻的意义,而这句诗则体现了他观察生活细节的能力和表达哲理的巧妙。
GPT4开始胡编乱造了。
混元:50
文心一言3.5:90
GPT4:0
时效性
很多小伙伴第一次接触大模型以为就是跟以前用的语音助手一样,所以都喜欢问这种问题,但是时效性问题都是大模型不具备的。毕竟大模型都是事先训练好的,然后离线部署,并不能实时获取信息。
北京昌平明天天气怎么样?
- 混元大模型
北京昌平明天(2023-11-16, 星期四)天气:晴,最高温度:11°C,最低温度:-1°C,相对湿度:34%,西北风,风力:1级转2级。
北京昌平明天天气晴朗,温度在-1°C到11°C之间,相对湿度34%,西北风,风力1级转2级。
看来是调用了天气的API,非常棒。但是感觉还是有看啰嗦。
- 文心大模型3.5
2023年11月16日北京·昌平气温-1~11℃,晴,西北风<3级,空气质量优,空气质量指数31。
近几日天气信息:
- 2023-11-14:晴转多云,-2~11℃,南风<3级,空气质量优。
- 2023-11-15:阴转多云,1~10℃,东南风<3级,空气质量良。
- 2023-11-16:晴,-1~11℃,西北风<3级,空气质量优。
- 2023-11-17:晴,-2~9℃,西北风3-4级,空气质量优。
- 2023-11-18:晴,2~16℃,北风<3级,空气质量良。
- 2023-11-19:晴,1~14℃,东南风<3级,空气质量优。
- 2023-11-20:晴,0~15℃,东南风<3级,空气质量良。
- 2023-11-21:多云,1~17℃,西北风<3级,空气质量良。
不仅提供了明天的天气信息,还提供了最近几天的天气。
- GPT4Turbo
明天(11月29日)北京昌平区的天气预报显示将会是晴朗的天气,气温预计在22℃到9℃之间,风力小于3级。
GPT4调用了联网能力,可以看到是先访问了bing,然后进入了weather.com网站,然后获取的天气。相当于GPT4是一个浏览器,可以搜索并浏览返回你想要的网络内容。
介绍一下网络博主张洪Heo
这些模型表现的都挺好。但是混元似乎听不懂我在问啥。按理说混元应该能够获取到大量来自公众号的信息之类的,但是混元似乎没有这方面能力。
因为GPT是实时获取的网页结果,所以感觉介绍更加详细。
混元:45
文心一言3.5:90
GPT4:95
代码编程
因为swift和js是我最常用的代码语言,所以问一些我比较熟悉的领域我能看出情况。
写一个之前博客文章中提到的一个问题:
1 | struct ContentView: View { |
如何每次从DetailView到这个ContentView的时候都触发print(“我来啦”),这个代码不触发?
- 混元大模型:
要实现这个功能,您可以在
DetailView
中添加一个@Binding
属性,用于监听ContentView
的状态。当DetailView
消失时,您可以更新这个状态,从而触发ContentView
中的onAppear
方法。以下是修改后的代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31 import SwiftUI
struct ContentView: View {
private var isDetailViewPresented = false
var body: some View {
NavigationView {
NavigationLink(destination: DetailView(isPresented: $isDetailViewPresented), isActive: $isDetailViewPresented) {
Text("跳转一个页面")
}
}
.onAppear {
print("我来啦")
}
}
}
struct DetailView: View {
var isPresented: Bool
init(isPresented: Binding<Bool>) {
self._isPresented = isPresented
}
var body: some View {
Text("这是详情页面")
.onDisappear {
isPresented = false
}
}
}这样,每次从
DetailView
返回到ContentView
时,都会触发print("我来啦")
。
从结果上来看,虽然没有我之前文章的解决方法简单粗暴,但是确实是一个可行的方案,这还挺让我震惊的,混元大模型竟然在代码方面还有研究?666啊。这对于一个新的模型已经很不错了。
- 文心大模型3.5
在 SwiftUI 中,
onAppear
是一种触发器,它在视图出现在屏幕时执行。然而,onAppear
不会在视图首次渲染时触发,它仅在视图从屏幕之外进入屏幕之内时触发。在你的例子中,当你从
DetailView
返回到ContentView
时,ContentView
并没有离开屏幕,因此onAppear
不会触发。如果你希望在每次从DetailView
返回到ContentView
时都触发某个动作,你应该使用onDisappear
触发器,它会在视图离开屏幕时触发。以下是修改后的代码:
1
2
3
4
5
6
7
8
9
10
11
12 struct ContentView: View {
var body: some View {
NavigationView {
NavigationLink(destination: DetailView()) {
Text("跳转一个页面")
}
}
.onDisappear {
print("我来啦")
}
}
}这样,每次从
DetailView
返回到ContentView
时,都会打印出 “我来啦”。
文心一言就是典型的错误代码了,他已经发现了onappear没有离开,但是也意味着onDisappear也不会触发啊,也不知道是什么逻辑。。
- GPT4Turbo
GPT4Turbo用的是和混元相同的方案,代码也不错
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28 struct ContentView: View {
@State private var isActive: Bool = false
var body: some View {
NavigationView {
NavigationLink(destination: DetailView(isActive: $isActive)) {
Text("跳转一个页面")
}
}
.onAppear {
print("我来啦")
}
}
}
struct DetailView: View {
@Binding var isActive: Bool
var body: some View {
// 当 DetailView 消失时改变 isActive
// 这会触发 ContentView 的重载
Text("详细页面内容")
.onDisappear {
isActive.toggle()
}
}
}
我试了一些简单的代码问题,混元大模型都可以很好的回答。
帮我用js写一个函数,执行后给id为hello的元素添加一个world的class
当然可以!下面是一个简单的 JavaScript 函数,它将为具有给定 ID 的元素添加一个新的类。
1
2
3
4
5
6
7
8
9
10 function addClassToElementById() {
// 获取具有给定 ID 的元素
const element = document.getElementById('hello');
// 为该元素添加一个新的类
element.classList.add('world');
}
// 调用函数
addClassToElementById();这个函数首先使用
getElementById
方法获取具有给定 ID(在这种情况下是 “hello”)的元素。然后,它使用classList.add
方法将 “world” 类添加到该元素。最后,通过调用addClassToElementById()
函数来执行这个操作。
当然,相比GPT那种直接把项目所有文件打包成一个压缩包上传分析比不了,但是简单问题减少手写的工作量还是不错的。可以讲复杂的任务拆解成一个个小模块,通过AI来帮助你编写项目。
混元:90
文心一言3.5:20
GPT4:90
图片绘制与修改
图片的绘制一直是混元大模型宣传的点。我们在做一些头像之类的或者普通人做一些海报通过AI来进行辅助也非常不错。
帮我画一幅圣诞节圣诞老人在黑夜的雪地里坐着麋鹿雪橇,后面一个大大的礼物袋子。在半空中飞行的插画。平面设计扁平风格。中景。多个房屋屋顶。
确实有惊喜,不仅一口气绘制了4张图片,而且图片质量都不算差。但是与描述的关联性就有点差了。
可惜的是不支持图片修改。
文心一言3.5:
图片比较接近一点我的描述,但是一个是不通过文心一格,只通过文心一言的话只能输出一张。而且麋鹿背着雪橇的操作还有数量不明的腿部其实不如不画。
修改图片更是逆天。不过支持修改已经很不错了。麋鹿直接换头,来个人马族圣诞老人是吧。
GPT4Turbo
可能是受到算力影响,现在GPT画图也是只画一张了。但是好像质量不是一个level的。
我尝试修改一下,虽然支持修改,但是感觉质量变差了,可能是我修改的语言不是很好。
混元:40
文心一言3.5:20
GPT4:50
更多图片
因为想看看混元大模型的图片能力,所以我这里多输出一些图片,大家看看水平。我展示的是第一次同时输出的4张图片中最好的。
帮我画一幅一个小朋友在四合院开心的奔跑,手里拿着糖葫芦,穿带着围巾,穿棉袄,冬天,雪地但是没有正在下雪。
虽然重新定义了糖葫芦,但是感觉还很好看。
帮我画一幅一个学生背着书包上学,手里窜着萝卜刀,向另一个同学攻击玩耍的情景。另一个同学也拿着萝卜刀,故作愤怒的样子。春天、阳光明媚、学校操场
我发现在没有具体描述每一个人的形象情况下,两个人通常长得一样。输出的四个图都是相同的人的感觉。这个图是输出里面最好的一个了。虽然后面的小朋友是独臂的,但是还是有一点剑拔弩张的感觉。
帮我画一幅一个穿白色裙子的女生在图书馆的书架旁翻书的场景。增加细节、真实照片风格。阳光透过窗户照射进来。
似乎很难控制看书看哪里,并且也无法绘制出真实照片风格,AI味还是很浓郁的。
总的来说算是一个中规中矩的二次元风格图片绘制模型。可能比stable diffusion默认模型差不多的水平。好处就是支持中文描述。
我的指令
文档识别与处理和第三方扩展目前只有GPT4支持,我在这里就不进行测试了。不过混元有一个很不错的小功能,相当于低配版自定义GPT。这里面叫做“我的指令”
我们可以预设一些prompt,然后让混元大模型在使用指定指令时必须要每次都输入提示词。直接添加“常用语”即可。
例如:
添加完之后点击指令后会自动添加到输入框内。
可以不用在键盘的常用语里添加大量的prompt了。
HeoVersatileAI
那我们来计算一个评分吧
评分 | 语言逻辑与上下文关联性 | 错误纠正 | 时效性 | 代码编程 | 图片绘制与修改 | 文档识别与处理(暂不计入总分) | 第三方扩展(暂不计入总分) | 总分 |
---|---|---|---|---|---|---|---|---|
混元大模型 | 30 | 50 | 45 | 80 | 40 | 0 | 0 | 255 |
文心一言3.5 | 60 | 90 | 90 | 20 | 20 | 80 | 10 | 280 |
GPT4Turbo | 70 | 0 | 95 | 90 | 50 | 80 | 90 | 305 |
星火认知大模型 | 30 | 50 | 45 | 10 | 40 | 80 | 0 | 175 |
目前测试的内容肯定只是各个模型的冰山一角。比如我很喜欢文心一言的与现有百度系内容的整合能力。这些都没有计入到评分之中。所以还是大家最好都能体验一下,根据自己的需求寻找最合适的模型最好。
对于混元大模型来说,总的来说一个刚刚推出的模型有这么强的能力已经非常不错了,期待未来能够更加给力。
- 感谢你赐予我前进的力量