大規(guī)模 GUI的機(jī)器學(xué)習(xí)
學(xué)費(fèi)10000-25000元,平均每堂課200-300元,為每個(gè)學(xué)生提供經(jīng)濟(jì)實(shí)惠的編程教育。互聯(lián)網(wǎng)上對(duì)學(xué)校學(xué)術(shù)實(shí)力的好評(píng)如潮,機(jī)構(gòu)介紹清晰透明,師資團(tuán)隊(duì)備受認(rèn)可,多元化教學(xué)項(xiàng)目滿足不同學(xué)生需求,以學(xué)生成績和學(xué)習(xí)效果為導(dǎo)向,獲得學(xué)員家長高度評(píng)價(jià)。
想象一下,如果您可以對(duì) ChatGPT 說:“嘗試一下我的應(yīng)用程序 5 分鐘,然后讓我知道您對(duì)入門體驗(yàn)的看法。” 或者,如果您可以提出諸如...我的 iOS 應(yīng)用程序的 GUI 遵循常見做法嗎?可以訪問嗎?在同一屏幕上使用這些特定 UI 控件的應(yīng)用程序示例有哪些?
如果我們擁有豐富的應(yīng)用程序 GUI 數(shù)據(jù)庫和正確的 ML 模型,那么我們就可以回答這些問題并構(gòu)建一個(gè)“理解”GUI 的視覺和交互設(shè)計(jì)的副駕駛工具,而不僅僅是代碼!
人們曾多次嘗試建立 GUI 數(shù)據(jù)庫。不過,他們中的大多數(shù)人都是通過分析應(yīng)用程序的源代碼或字節(jié)碼靜態(tài)地完成此操作的。這有各種各樣的限制:需要代碼,只能分析視圖層次結(jié)構(gòu),并忽略運(yùn)行時(shí)生成的復(fù)雜 UI(例如在畫布上繪圖)的任何內(nèi)容。許多還需要人工貼標(biāo)簽。
UIST'17 上有一篇論文在此類數(shù)據(jù)庫方面取得了巨大進(jìn)展: Rico: Deka 等人的用于構(gòu)建數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)應(yīng)用程序的移動(dòng)應(yīng)用程序數(shù)據(jù)集。(ACM)。
他們的系統(tǒng)自動(dòng)運(yùn)行許多很多 Android 應(yīng)用程序,并引發(fā)眾包工作者的互動(dòng)。他們從 9,700 個(gè)應(yīng)用程序中收集了 72,000 個(gè)界面。然后,他們使用這些數(shù)據(jù)來訓(xùn)練編碼模型,以學(xué)習(xí) UI 布局的嵌入。它可用于搜索 UI:
然后在 FSE'21 上,Frontmatter:大規(guī)模挖掘 Android 用戶界面,作者:Kuznetsov 等人。(ACM)使該研究領(lǐng)域向前邁出了一大步。他們貢獻(xiàn)了一個(gè) GUI 數(shù)據(jù)的公共數(shù)據(jù)集,該數(shù)據(jù)集是從 160,000 個(gè) Android 應(yīng)用程序中進(jìn)行靜態(tài)分析的,人工標(biāo)記。
較近,Wu 等人提出了“永無止境的用戶界面學(xué)習(xí)” 。( ACM ) 發(fā)表于 UIST'23。他們設(shè)計(jì)了一個(gè)應(yīng)用程序爬蟲,可以從 Apple 應(yīng)用商店安裝真實(shí)的應(yīng)用程序,并對(duì)其進(jìn)行爬行以了解 UI。它使用不同的啟發(fā)式方法與 UI 元素交互,以在爬行時(shí)更新其機(jī)器學(xué)習(xí)模型。
例如,它截取屏幕截圖,使用現(xiàn)有模型來識(shí)別 UI 元素,然后點(diǎn)擊或拖動(dòng)它認(rèn)為可以與之交互的元素,并根據(jù)效果更新模型以了解該元素是可點(diǎn)擊的或可拖動(dòng)。到目前為止,他們已經(jīng)使用一組 iPhone 對(duì) 6,000 個(gè)應(yīng)用程序執(zhí)行了超過 500,000 次操作。
通過這樣的研究,我們已經(jīng)接近擁有可以像人類一樣測試應(yīng)用程序的人工智能。仍然需要一個(gè)決策層來模擬與哪個(gè) UI 元素進(jìn)行交互。這樣它就可以測試特定的任務(wù),而不是隨機(jī)地進(jìn)行測試。
幾十年前,Chi 等人。使用信息搜尋理論來準(zhǔn)確預(yù)測用戶將如何瀏覽網(wǎng)頁(請參閱他們的 CHI'01論文)。這種方法應(yīng)用于這些應(yīng)用程序收集的標(biāo)準(zhǔn)用戶數(shù)據(jù)(即查看的屏幕和單擊的帶有時(shí)間戳的按鈕),可用于訓(xùn)練 GUI 的決策模型。
那么,誰來構(gòu)建一個(gè)支持 GUI 實(shí)時(shí)推理和交互的副駕駛呢?
微信掃碼,享更多好課
熱門資訊
- 人工智能公司有各種各樣的理由反對(duì)為受版權(quán)保護(hù)的內(nèi)容付費(fèi)
- 即時(shí)工程的消亡:用戶驅(qū)動(dòng)的人工智能訓(xùn)練的黎明
- 大規(guī)模 GUI的機(jī)器學(xué)習(xí)
- 電池價(jià)格兩年來首次跌破100美元/kWh
- 數(shù)據(jù)庫和文件的事件驅(qū)動(dòng)架構(gòu)較佳實(shí)踐
- 真正的代碼可讀性并不存在!但當(dāng)它真的發(fā)生時(shí)你會(huì)感覺到
- 李開復(fù)的法學(xué)碩士初創(chuàng)公司估值10億美元,推出開源模式
- 體力活動(dòng)悖論:新研究將體力勞動(dòng)與認(rèn)知障礙聯(lián)系起來
- 語言模型擅長預(yù)測嗎?
- LinkedIn 會(huì)員數(shù)量突破10 億,為求職者增加人工智能功能