AI又對奧數下手刷題刷出“模考”最好成績

2022-02-04 15:56 • 熱點資訊

AI 在最不擅長的數學方面，這次大幅刷新了最好成績。其中關鍵角色是 OpenAI 給 Lean 做的一個定理證明器。聽起來有點耳熟？沒錯，就是去年參加國際數學奧林匹克競賽（IMO）的“非人”選手 Lean~

自從 2013 年微軟研究院推出 Lean 以來，就一直嘗試讓 AI 在數學命題證明這方面取得進展。

而這次也確實得到了回報，OpenAI 新做的這個定理證明器讓它學會了解決一部分有難度的高中奧數題，包括美國的數學競賽 AMC12、AIME 甚至是國際奧數競賽中的題。

它首先會用語言模型將數學問題轉化為另一種形式，列出隱藏的條件和已知信息，然後來推理求證。

雖然在剛開始效果並不明顯，只能證明幾個命題。但是在不斷地搜索新的證明，經過八次迭代之後，在 miniF2F 測試中，成功地把分數從 29.3% 刷到了 41.2%。

我們來看看這 AI 是怎麼在奧數題上施展拳腳的。

AI 如何做奧數題

先來看一個簡單的問題熱熱身：

對於所有大於等於 9 的整數 n，證明下圖中的式子是一個完全平方數。

按照普通人的思考方式，可以先把式中分子提出一個 n 的階乘，與分母約去。

然後分子化簡為（n+1）²。這在形式上就是一個完全平方數，問題得證。

那 AI 是怎麼做的呢？

它首先從文本中提取了條件和已知信息，例如 n 是整數、n 大於等於 9。

接下來，它把需要證明的問題換了一種說法，改為：

存在一個整數 x，使 x² 和原式相等。

然後在解題的過程中，完全由模型直接生成了一個數學項“n+1”作為一個解：use n+1。接下來再去驗證這個解是否成立。

如果沒有語言模型，這是不可能做到的。

這麼看來這模型能耐了，還有了一些數學想法，再拿一道國際奧賽的改編題來考考它：

設 a、b、c 是一個三角形的三條邊，證明 a²（b+c-a）+b²（c+a-b）+c²（a+b-c）≤3abc。

同樣地，AI 還是先把條件都列出來。不過這次還列出了與三角形有關的隱藏條件：

a、b、c 都是大於 0 的實數，並且有任意兩邊之和大於第三邊。

然後模型還自創了一個方法，列出了（b-a）、（c-b）、（c-a），看起來好像不明所以。

但是如果把目標式子展開，你就會發現這三項正是舒爾不等式的幾個對稱項：

根據舒爾不等式，對所有非負實數 x、y、z 和正數 t，都有：

當 t=1 時，這和奧數題中的形式完全一樣，命題得證。

這麼看來，AI 這水平着實不簡單啊，要構造出這種效果可絕非易事。

對奧數下手的難點

讓 AI 來做奧數，確實比學生自己磕高數題難多了。

這第一個難點就是，模型不是從有限的選項中做選擇。要是像下圍棋那樣，格點就那麼多，選擇空間有限，還好說一點。

但是做奧數，模型要從一組複雜的無限策略中做選擇，期間還要生成一些數學中的術語，例如“存在”、“任意”等。

針對這個難點，OpenAI 通過在搜索證明方法時從語言模型中採樣來解決。

而第二點就是模型缺乏自我對抗和博弈。做奧數題和雙人遊戲不同，它不是和另一個玩家比賽，而是要證明一個數學命題。

這樣一來在雙人遊戲上成功的算法就不能遷移過來。

為了解決這個問題，研究人員提供了一套不同難度“教輔資料”，用來輔助描述問題而不需要證明。

當這些輔助的描述難度越來越大時，模型就能解決越來越難的問題。

不過這兩個難點，反倒可以成為它的優勢。

一方面，因為這類數學命題的證明就是需要推理，需要無限的創造力和洞察力。

另一方面，這種輔助描述式的方法也有助於 AI 自動推理的發展。

說不好，將來深度學習模型還能征服奧數這座高山。

參考鏈接：

https://openai.com/blog/formal-math/

ai 數學證明

赞 (0)

新作開發準備中？頑皮狗公布大量新職位招聘

上一篇 2022-02-04 15:56

黃健翔呼籲按男足標準獎勵中國女足支付寶已安排

下一篇 2022-02-04 15:56

熱點資訊

哈勃太空望遠鏡窺視美麗螺旋星系NGC 1317

在下面這張圖片中，NASA/ESA哈勃太空望遠鏡望向了位於福爾納克斯星座的螺旋星系NGC 1317。據悉，其距離地球超過5000萬光年。這個星系是一對中的一個，但NGC 1317的…

2021-11-29
熱點資訊

聊天圖片搜索來了安卓微信8.0.21新體驗

Android微信新版又來啦，這次把版本更新到了8.0.21，一起來看看都有哪些變化吧。微信狀態自從上線以來就火了一段時間，不過最近就給許多用戶丟在一旁了，小編的圈子裡就少見設置狀…

2022-04-04
熱點資訊

5G手機專利收益將於2025年達200億美元訴訟背後誰在收割市場？

5G普及之際，通信技術%ignore_a_1%紛爭四起。高通和蘋果的專利訴訟“車輪戰”平息不到兩年，諾基亞又在全球向中國廠商發起了專利訴訟戰。7月9日，OPPO方面對第一財經記者表…

2021-07-15
熱點資訊

“郵編彩票”：研究發現各國出生時有缺陷的嬰兒的存活率有很大差異

根據7月13日發表在《柳葉刀》上的一項研究，來自74個國家的科學家發文稱，出生時有出生缺陷–又稱先天性異常–的嬰兒的存活率是一種 “郵編彩票”。這項研究由…

2021-07-14
熱點資訊

降低對高通依賴三星手機將把Exynos處理器採用率提至60%

這些年，三星Exynos處理器似乎越來越被人遺忘，但局面可能很快要改變了。有報道稱，操盤手機業務的三星移動通訊部門和操盤芯片的半導體解決方案部門已經達成共識，將致力於把Galaxy…

2021-10-12
熱點資訊

微軟Windows 10 22H2準備就緒 ISO下載鏈接已經被發現

微軟上個月開始推出其Windows 11 22H2版功能更新，現在，微軟也準備為Windows10發布22H2功能更新。今年6月，微軟在Windows 11 2022更新推出期間確…

2022-10-03
熱點資訊

英特爾股價周五收盤大跌近9% 市值被AMD反超

芯片巨頭AMD的市值在周五超過了英特爾。AMD股價周五收盤上漲逾3%，市值達到1530億美元。英特爾股價則下跌近9%，市值為1480億美元。此前一天，英特爾公布了不及預期的二季度財…

2022-07-30
熱點資訊

西部數據為任天堂Switch遊戲機推出《堡壘之夜》存儲卡

西部數據公司今天宣布與Epic Games和任天堂建立新的合作關係，為任天堂Switch提供首張官方授權的《堡壘之夜》主題SanDiskmicroSDXC卡。任天堂Switch專用…

2022-09-13
熱點資訊

3月南極洲出現極端高溫海冰面積縮小至歷史新低

據@央視財經消息（視頻），據法國24台日前報道，最新研究顯示，截至今年2月底（南極夏季結束），南極海冰面積首次縮小至200萬平方公里以下，僅為190萬平方公里左右，創歷史最低水平…

2022-04-23
熱點資訊

比特幣下看去年7月以來最低水平加密貨幣普遍人氣消沉

比特幣價格正跌向2021年7月以來最低水平，在全球投資者逃離高風險投資之際，各種加密貨幣普遍下滑。全球最大數字貨幣比特幣周一一度下跌2.7%，新加坡時間13：56報33，517美元…

2022-05-09