免费猜字小游戏,wordle席卷全球( 三 )


成绩不够好的一个问题出在每个单词作为答案的可能性其实并不相同 。
像aahedaaliiaargh这种偏门单词虽然在允许猜测的总单词列表里 , 但并不在答案列表的2315个单词里 。
找一个典型的例子 , 当遇到abbas(人名 , 阿巴斯)和abyss(深渊)二选一时 , 如果程序能知道abyss是常用词 , 就可以省下一步 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

下一步改进方向就是引入词频统计数据 , 这样的数据集可以从Wolfram上找到 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

这里还遇到一个问题 , 比如which和braid的出现频率相差1000倍 , 但都可以算是常见单词 , 出现在答案列表里的可能性相差不大 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

解决办法就是用Sigmoid函数做处理 , 让更多数据靠近0或1 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

将处理后的词频数据与前面的信息量计算结果相结合 , 得到优化后的信息量计算方法 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

在实际游戏中 , 也把信息量与词频结合考虑 , 就能让程序更倾向于选择常见单词 。
比如在下面的情况中 , words和dorms的信息量并不是最高的 , 但因为词频较高所以优先考虑 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

优化后的成绩到了3.601 , 平均节省了半步 。
如果加大计算量 , 每次根据两步搜索的结果选择单词可以进一步提高成绩 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

而且根据两步搜索的计算结果 , 3Blue1Brown认为能获得最大信息量的开局单词是crane 。
此外还可以让程序知道具体哪2315个单词真的是在答案列表里的 , 用上所有这些技巧后 , 成绩再次提升到3.438 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

实际上这个成绩的理论极限就不可能低于3 。
2315种答案意味着有11.17比特的不确定性 , 而暴力搜索后 , 前两步能获得的最大信息量在10.01比特 , 还剩下1.16 。
也就是说第三步的难度比二选一还要难一点 , 没有算法能保证每次都正确 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

不过3Blue1Brown还是找到了新办法进一步提升成绩 。
让程序记住每个正确答案 , 并在下一局中把猜过的单词排除出去 , 最终成绩到达3.138 , 逼近了理论极限 。
免费猜字小游戏,wordle席卷全球
文章图片

文章图片

看完整个视频后 , 有网友表示学到的信息论知识比上课学到的还多 。
也有很多人对到底哪个单词才是最佳开局展开了讨论 。
虽然两步搜索的结果是crane , 不过3Blue1Brown也不确定对于人类玩家来说是不是最佳开局单词 。
毕竟实际游戏中人类很难像程序一样算出第二步的情况 。