25 / 08 / 26
语音输入有时候很方便,但是也常常出现一些问题,我试过很多语音输入的软件,例如:Tana,Heptabase, Wispr Flow, Voicenotes, Flomo等等,有些表的好一些,有些表现差一些,但是通常会出现几个方面的问题。
中文输入时,文字间隔不一致。
中文输入时,标点符号丢失,或者不准确。
简体中文和繁体中文互相切换。
英语单词和中文词汇不能混合显示,有时候会出现格式不对,或者自行翻译英文。
出现这些问题时,通常需要一定时间去整理,虽然其他LLMs可以处理这个问题,但是切换窗口,多步操作。如此以来,语音节约的时间被反复调整而挥霍掉了。如果不能解决这些问题,还不如直接键盘输入。
在Tana中,我在supertag “voice note”下,手机端语音输入,但是显示出来的效果包含了上述几个方面。如下图:
后来,我想到Tana中有AI Agent的功能,可以设置AI button来处理这种问题。
第一步:我在voice note这个supertag下,点击Configure Tag。如下:
然后在AI and commands的栏目里拉到最下端,在Full Menu的框中设置“整理录音”按钮。
首先建立Ask AI的configuration,然后再建立四个栏目,分别如下:
最关键的Prompt如上,只是简单的一些提示词要求,但是已经能满足我的整理要求。
在Insert output strategy上,我更喜欢sibling,这样输出的内容就可以单独再起一行node,而非as child的在之前的node之下,因为之前凌乱的node我之后会删除掉。
在AI model上,可以自行选择,以前我喜欢Claude的模型,现在不知道为什么没有了,我就选择了GPT-5。
Temperature的话,大于0.8,会有一些随机输出,这个不是我希望的,所以调节在0.7就可以了,保证输出的稳定性。
建立了这个AI button,每次只需要在supertag后面点击,就单独形成一个比较好的版本,还是比较节约时间的。你也可以把这个“整理录音”的按钮,复制粘贴到任何你喜欢的supertag的configuration的Full Menu下,不用每次在不同的supertag下都建立这个AI Agent,避免重复劳动,每个AI Agent就相当于一个单独的模块,可以在不同的supertag下调用。
效果如下图,我对比后,感觉不错。
相比起一些其他PKM软件,把AI功能单独使用,Tana的这种嵌入式AI的笔记软件,自定义的功能比较灵活,或许这个就是为什么我喜欢Tana的原因吧。确实有时候学习曲线比较陡峭,随着一步步的技能积累,慢慢驾驭好它赋予的功能,也有一种满足感。每次尝试不同笔记软件的时候,我还是比较喜欢多提取他们的优点,每个优点背后,肯定包含着一种解决思路和思维模式,这背后的原则,是最让人着迷的。