亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

判定工件合格與否的加工機械系統(tǒng)的制作方法

文檔序號:11176387閱讀:591來源:國知局
判定工件合格與否的加工機械系統(tǒng)的制造方法與工藝

本發(fā)明涉及一種判定工件合格與否的加工機械系統(tǒng)。



背景技術(shù):

在制造工廠中,通過機床、注射成型機、或者電弧焊接等機器人這樣的加工機械,進行工件的加工或焊接等作業(yè)。另外,為了加工工件,通過多個加工機械構(gòu)筑生產(chǎn)線,例如構(gòu)筑制造單元。此時,經(jīng)由通信網(wǎng)絡(luò)通過單元控制器來控制構(gòu)筑制造單元的各機床。還通過上位的主控制器來管理單元控制器。

在這樣的加工機械系統(tǒng)中,通過對全部工件進行檢查或抽樣檢查來進行通過加工機械加工后的工件的合格與否判定。

例如像日本特開2006-146459號公報所記載的那樣,已知在半導(dǎo)體裝置的制造系統(tǒng)中,根據(jù)裝置日志信息的履歷數(shù)據(jù)制作多個異常判定閾值,并進行晶圓加工處理的異常判定。

此外,例如像日本特開2002-341909號公報所記載的那樣,已知一種在工件加工裝置中,對于作業(yè)工程設(shè)定抽樣部位,根據(jù)該每個部位的信號的標準偏差來監(jiān)視作業(yè)工程有無異常的方法。

此外,例如像日本特開2010-76177號公報所記載的那樣,已知一種合格與否判定裝置,其測量對注射成型機的成型品品質(zhì)造成影響的壓力、速度、時間等物理量,并設(shè)定上限值以及下限值來進行成型品的合格與否判定。

如果能夠針對全部數(shù)量的工件進行通過加工機械加工后的工件的合格與否判定則檢查精度高,但是會花費很多工時,并且效率差。另一方面,如果不進行全部數(shù)量的檢查而進行抽樣檢查,則能夠削減合格與否判定對象的工件個數(shù),但是可能會漏過不良品。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于鑒于上述問題,提供一種能夠削減精度檢查對象的工件個數(shù),同時防止漏過不良品的加工機械系統(tǒng)。

為了實現(xiàn)上述目的,加工機械系統(tǒng)具備:加工機械,其通過至少一個電動機驅(qū)動軸來加工工件;數(shù)值控制裝置,其基于加工程序生成用于驅(qū)動加工機械的軸的指令;內(nèi)部信息取得部,其取得數(shù)值控制裝置的內(nèi)部信息;臨時判定部,其基于通過內(nèi)部信息取得部取得的內(nèi)部信息與閾值的比較結(jié)果來判定加工機械加工后的工件的合格與否;最終判定部,其針對至少包含了由臨時判定部進行了合格與否判定的工件的精度檢查對象的工件,基于與該工件的精度相關(guān)的實測結(jié)果來判定合格與否;以及閾值更新部,其基于臨時判定部的判定結(jié)果以及最終判定部的判定結(jié)果來更新在臨時判定部的判定處理中使用的閾值。

在此,加工機械系統(tǒng)可以還具備測定器,該測定器實際測定加工機械加工后的工件的至少關(guān)于加工形狀或加工面的精度。

另外,加工機械系統(tǒng)還可以具備:通信網(wǎng)絡(luò),其將各組由加工機械和與該加工機械對應(yīng)地設(shè)置的數(shù)值控制裝置構(gòu)成的多組制造單元與至少一個測定器之間可相互通信地連接;以及單元控制器,其與通信網(wǎng)絡(luò)可通信地連接,控制各個制造單元的動作,將內(nèi)部信息取得部、臨時判定部、最終判定部以及閾值更新部設(shè)置在單元控制器內(nèi)。

另外,加工機械系統(tǒng)還可以具備主控制器,該主控制器與多個單元控制器可通信地連接,記錄并管理在各個單元控制器中取得的與臨時判定部的判定結(jié)果相關(guān)的信息、在各個單元控制器中取得的與最終判定部的判定結(jié)果相關(guān)的信息、以及由測定器取得的與加工機械加工后的工件的精度相關(guān)的實測結(jié)果。

另外,閾值更新部可以在通過臨時判定部判定為合格且對于精度檢查對象的全部工件通過最終判定部判定為合格的情況下,將已經(jīng)設(shè)定的閾值乘以小于1且大于0的第一系數(shù)而得到的值設(shè)定為新的閾值,在通過臨時判定部判定為合格且在精度檢查對象的工件中包含通過最終判定部判定為不合格的工件的情況下,將已經(jīng)設(shè)定的閾值乘以小于第一系數(shù)且大于0的第二系數(shù)而得到的值設(shè)定為新的閾值,在通過臨時判定部判定為不合格且在精度檢查對象的工件中包含通過最終判定部判定為合格的工件的情況下,將已經(jīng)設(shè)定的閾值乘以大于1的第三系數(shù)而得到的值設(shè)定為新的閾值,在通過臨時判定部判定為不合格且對于精度檢查對象的全部工件通過最終判定部判定為不合格的情況下,維持已經(jīng)設(shè)定的閾值。

加工機械可以是通過電動機驅(qū)動旋轉(zhuǎn)軸以及直線軸來加工工件的機械,內(nèi)部信息可以包含與位置偏差有關(guān)的信息,該位置偏差為針對直線軸的位置指令與關(guān)于直線軸的測定位置之間的差。

加工機械可以是通過電動機驅(qū)動多個旋轉(zhuǎn)軸以及多個直線軸來加工工件的機械,內(nèi)部信息可以包含與關(guān)于工具的位置偏差相關(guān)的信息,該關(guān)于工具的位置偏差是針對在旋轉(zhuǎn)軸以及直線軸上設(shè)置的工具的基于加工程序的位置指令與關(guān)于工具的位置的測定位置之間的差。

另外,可以針對加工機械加工的工件的每個加工對象區(qū)域設(shè)置在臨時判定部的判定處理中使用的閾值。

另外,內(nèi)部信息可以包含對高頻成分進行二階積分而得到的數(shù)據(jù),該高頻成分是使數(shù)值控制裝置生成的具有加速度因次的指令經(jīng)過高通濾波器而抽出的高頻成分。

另外,內(nèi)部信息也可以包含通過由安裝在加工機械上的傳感器取得的信息和加工位置或加工時刻聯(lián)系起來的數(shù)據(jù)。

另外,加工機械系統(tǒng)還可以具備機器學(xué)習(xí)器,該機器學(xué)習(xí)器具有:狀態(tài)觀測部,其觀測狀態(tài)變量,該狀態(tài)變量包含如下信息而構(gòu)成:通過內(nèi)部信息取得部取得的內(nèi)部信息、與加工機械加工后的工件的精度相關(guān)的實測結(jié)果、與臨時判定部的判定結(jié)果相關(guān)的信息、以及與最終判定部的判定結(jié)果相關(guān)的信息;以及學(xué)習(xí)部,其按照基于狀態(tài)變量生成的訓(xùn)練數(shù)據(jù)集來學(xué)習(xí)內(nèi)部信息取得部應(yīng)取得的內(nèi)部信息。

在此,作為狀態(tài)觀測部觀測的狀態(tài)變量,還可以包含通過閾值更新部設(shè)定的閾值以及加工程序。

另外,加工機械系統(tǒng)還可以具備意圖決定部,該意圖決定部基于學(xué)習(xí)部按照訓(xùn)練數(shù)據(jù)集進行學(xué)習(xí)的結(jié)果,對當(dāng)前的狀態(tài)變量的輸入進行響應(yīng)來決定內(nèi)部信息取得部應(yīng)取得的內(nèi)部信息。

另外,學(xué)習(xí)部可以具備回報計算部,其基于與臨時判定部的判定結(jié)果相關(guān)的信息以及與最終判定部的判定結(jié)果相關(guān)的信息來計算回報;以及函數(shù)更新部,其基于狀態(tài)變量以及回報來更新用于選擇內(nèi)部信息取得部應(yīng)取得的內(nèi)部信息的函數(shù)。

另外,回報計算部可以在通過臨時判定部判定為合格且對于精度檢查對象的全部工件通過最終判定部判定為合格的情況、以及通過臨時判定部判定為不合格且對于精度檢查對象的全部工件通過最終判定部判定為不合格的情況下,增加回報,在通過臨時判定部判定為合格且在精度檢查對象的工件中包含通過最終判定部判定為不合格的工件的情況、以及通過臨時判定部判定為不合格且在精度檢查對象的工件中包含通過最終判定部判定為合格的工件的情況下,減少回報。

附圖說明

通過參照以下的附圖,能夠更加明確地理解本發(fā)明。

圖1是第一實施方式的加工機械系統(tǒng)的原理框圖。

圖2是表示數(shù)值控制裝置內(nèi)的軸控制部以及與數(shù)值控制裝置相連接的加工機械的結(jié)構(gòu)的框圖。

圖3是表示第一實施方式的加工機械系統(tǒng)的動作流程的流程圖。

圖4是表示圖3所示的臨時判定部的判定處理、最終判定部的判定處理、以及閾值更新部的閾值更新處理的動作流程的流程圖。

圖5是第二實施方式的加工機械系統(tǒng)的原理框圖。

圖6是第三實施方式的加工機械系統(tǒng)的原理框圖(其1)。

圖7是第三實施方式的加工機械系統(tǒng)的原理框圖(其2)。

圖8是第四實施方式的加工機械系統(tǒng)的原理框圖。

圖9是表示第四實施方式的具備應(yīng)用了強化學(xué)習(xí)的機器學(xué)習(xí)器的加工機械系統(tǒng)的機器學(xué)習(xí)的動作流程的流程圖。

圖10是表示神經(jīng)元模型的示意圖。

具體實施方式

以下,參照附圖對判定工件合格與否的加工機械系統(tǒng)進行說明。然而,本發(fā)明并不限于附圖或以下說明的實施方式。

圖1是第一實施方式的加工機械系統(tǒng)的原理框圖。另外,圖2是表示數(shù)值控制裝置內(nèi)的軸控制部以及與數(shù)值控制裝置相連接的加工機械的結(jié)構(gòu)的框圖。以下,在不同的附圖中賦予了相同參照符號意味著是具有相同功能的結(jié)構(gòu)要素。為了容易理解,這些附圖適當(dāng)變更了比例尺。另外,附圖所示的方式是用于實施本發(fā)明的一個例子,但是本發(fā)明并不限于圖示的方式。

第一實施方式的加工機械系統(tǒng)1具備加工機械11、數(shù)值控制裝置12、內(nèi)部信息取得部13、臨時判定部14、最終判定部15、閾值更新部16。另外,加工機械系統(tǒng)1還具備測定器17,該測定器17實際測定加工機械11加工后的工件的至少加工形狀或加工面的精度。在本實施方式中,在臨時判定部14中基于數(shù)值控制裝置12的內(nèi)部信息與通過閾值更新部16設(shè)定的閾值之間的比較結(jié)果來暫時進行由加工機械11加工后的工件的合格與否判定,并且在最終判定部15中針對至少包含通過臨時判定部14判定為不合格的工件的精度檢查對象的工件,基于與該工件的精度相關(guān)的實測結(jié)果進行最終的合格與否判定,由此能夠在削減精度檢查對象的工件個數(shù)的同時防止漏過不良品。

加工機械11通過電動機21驅(qū)動軸(驅(qū)動體)22來加工工件。作為加工機械11的例子,具有nc機床、注射成型機、電弧焊接等工業(yè)機器人、plc、輸送機、測量器、實驗裝置、沖壓機、壓入器、打印機、壓鑄機、食品機械、包裝機、焊接機、清洗機、涂裝機、組裝裝置、安裝機、木工機械、密封裝置、或切割機等,但是對于加工機械11自身的種類,并不特別地限于本發(fā)明。

在加工機械11中至少設(shè)置了1個根據(jù)用途安裝了工具或工件等的軸(驅(qū)動體)。例如,在加工機械11為車床時組合設(shè)置了直線軸以及旋轉(zhuǎn)軸,在加工機械為加工中心時作為軸22以組合的形式設(shè)置了多個直線軸以及多個旋轉(zhuǎn)軸。此外,在圖示的例子中,作為一個例子使軸22為3個,但是對于軸22自身的個數(shù)并不限于本發(fā)明。一般對應(yīng)于一個軸22,設(shè)置了1個電動機21以及1個放大器23。

作為安裝了工具或工件等的軸(驅(qū)動體)22的驅(qū)動源使用加工機械11內(nèi)的電動機21,根據(jù)電動機21與軸22之間的動力傳遞機構(gòu)來直線驅(qū)動或旋轉(zhuǎn)驅(qū)動軸22。此外,電動機21的種類和結(jié)構(gòu)并不限于本發(fā)明,可以是感應(yīng)電動機或同步電動機這樣的交流電動機,或者也可以是直流電動機。通過放大器23供給電動機21的驅(qū)動電力。

加工機械11內(nèi)的放大器23是基于由后述的數(shù)值控制裝置12生成的指令來生成驅(qū)動電力的電流放大器,該驅(qū)動電力用于向電動機21供給驅(qū)動電力,例如,放大器23通過由半導(dǎo)體開關(guān)元件的全橋電路組成的逆變器而構(gòu)成。根據(jù)由數(shù)值控制裝置12內(nèi)的軸控制部24生成的開關(guān)指令,對放大器23內(nèi)的開關(guān)元件進行接通斷開驅(qū)動,由此放大器23將直流電力變換為期望的交流電力后向電動機21進行供給。放大器23的種類和結(jié)構(gòu)并不特別地限于本發(fā)明。

在加工機械11中設(shè)置了傳感器25,該傳感器25用于取得電動機21的速度、包含電動機21在內(nèi)的加工機械11的各部位的溫度、軸22的位置、或者由加工機械11產(chǎn)生的振動、噪音、濕氣或影像信息等各種傳感器信息。作為傳感器25的例子,具有用于檢測電動機21速度的速度檢測器25-1、用于檢測包含電動機21在內(nèi)的加工機械11的各部位的溫度的溫度檢測器(未圖示)、用于檢測軸22位置的位置檢測器25-2、用于檢測振動的振動傳感器(未圖示)、用于檢測噪音的聲音傳感器(未圖示)、用于檢測濕氣的濕度傳感器(未圖示)、用于檢測影像的ccd照相機(未圖示)等。

測定器17實際測定加工機械11加工后的工件的至少加工形狀或加工面的精度。測定器17的種類和結(jié)構(gòu)并不特別地限于本發(fā)明,例如通過光學(xué)或電子的方法來實際測定工件的加工形狀或加工面的精度。將測定器17的實測結(jié)果發(fā)送給最終判定部15。

數(shù)值控制裝置12具有軸控制部24,其基于預(yù)定的加工程序生成用于驅(qū)動加工機械11的軸22的指令。對應(yīng)于加工機械11的放大器23設(shè)置軸控制部24。在圖2中,表示了軸控制部24為1個的情況,但是在加工機械11內(nèi)的軸22為多個時,設(shè)置與該個數(shù)相對應(yīng)的軸控制部24。加工程序是把用于加工機械11進行預(yù)定作業(yè)的命令處理進行編程后的信息。例如,在多關(guān)節(jié)機器人的情況下,在加工程序中包含用于使手臂部移動到作業(yè)位置的動作命令、向外部通知任意信號的命令、讀取任意信號的狀態(tài)的命令等信息。另外,在加工程序中還包含作業(yè)位置的位置信息、進行操作的信號的編號。當(dāng)然,只要是能夠在程序上登記的命令則可以是任何的命令。即,本發(fā)明并不限于在此舉例說明的編程信息。

軸控制部24具備位置控制部31、速度控制部32以及電流控制部33。位置控制部31基于位置指令與通過位置檢測器25-2測定到的軸22的測定位置即位置反饋值之間的差即位置偏差來生成速度指令,該位置指令是從上述控制裝置(例如后述的單元控制器19或主控制器100等)接收到的基于加工程序的位置指令。速度控制部32基于從位置控制部31接收到的速度指令與速度檢測器25-1測定出的電動機21的速度即速度反饋值之間的差即速度偏差來生成電流指令(扭矩指令)。電流控制部33基于從速度控制部32接收到的電流指令與電流檢測器(未圖示)測定出的從放大器23向電動機21流動的電流即電流反饋值之間的差即電流偏差來生成用于對放大器23內(nèi)的開關(guān)元件進行接通斷開控制的開關(guān)指令。例如,在放大器23為pwm控制方式的逆變器時,由電流控制器33生成的開關(guān)指令是pwm指令。由此,放大器23根據(jù)由軸控制部24生成的開關(guān)指令,對放大器23內(nèi)的開關(guān)元件進行接通斷開驅(qū)動,由此放大器23將直流電力變換為期望的交流電力后向電動機21進行供給。

內(nèi)部信息取得部13從數(shù)值控制裝置12取得在臨時判定部14的判定處理中使用的內(nèi)部信息。

內(nèi)部信息取得部13取得的內(nèi)部信息是在加工機械11內(nèi)的運算處理裝置(未圖示)的計算中使用的信息,或者是保存在加工機械11內(nèi)的存儲器(未圖示)中的信息,或者是通過設(shè)置在加工機械11中的傳感器25取得的信息,例如,具有與位置指令與測定位置之間的差即位置偏差有關(guān)的數(shù)據(jù)、負載數(shù)據(jù)、各種傳感器信息等。

與位置指令與測定位置之間的差即位置偏差有關(guān)的內(nèi)部信息例如具有以下兩個信息。例如,在加工機械11為通過電動機21驅(qū)動旋轉(zhuǎn)軸以及直線軸來加工工件的車床這樣的機械時,因為對于直線軸的位置指令與關(guān)于直線軸的測定位置之間的差即位置偏差對工件的形狀精度造成影響,所以將與該位置偏差有關(guān)的信息作為內(nèi)部信息來使用。另外,例如在加工機械11是通過電動機21驅(qū)動多個旋轉(zhuǎn)軸以及多個直線軸來加工工件的加工中心這樣的機械時,因為通過進行加工的工具前端與工件的位置關(guān)系來決定形狀精度,所以作為內(nèi)部信息使用與工具的位置偏差有關(guān)的信息,工具的位置偏差是指針對設(shè)置在旋轉(zhuǎn)軸以及直線軸上的工具的基于加工程序的位置指令與關(guān)于工具位置的測定位置之間的差。

除了與位置偏差有關(guān)的內(nèi)部信息以外,作為例子舉出如下的內(nèi)部信息。

例如,一般已知當(dāng)對拍攝工件的加工面而得到的圖像數(shù)據(jù)進行解析時,工件加工面的粗糙度具有高頻成分。因此在本實施方式中,考慮到由于數(shù)值控制裝置12生成的扭矩指令或電流指令等具有加速度的因次的指令而引起工件加工面的粗糙度,可以將如下數(shù)據(jù)作為內(nèi)部信息來使用,該數(shù)據(jù)是通過使數(shù)值控制裝置12生成的具有加速度的因次的指令經(jīng)過高通濾波器來抽出高頻成分,并對該高頻成分進行二階積分而得到的具有位置因次的數(shù)據(jù)(不具有漂移成分,相當(dāng)于表面粗糙度的數(shù)據(jù))。如果使用該內(nèi)部信息來進行臨時判定部14的判定處理,則能夠高效地評價最終判定部15中的與表面精度有關(guān)的判定結(jié)果。

此外,例如作為內(nèi)部信息,還可以使用通過安裝在加工機械11中的傳感器25取得的信息和工件的加工位置或加工時刻聯(lián)系起來的數(shù)據(jù)。例如,已知電動機21的溫度對工件的形狀精度造成影響,加工機械11產(chǎn)生的振動或噪音對工件的表面精度造成影響,因此可以在內(nèi)部信息中包含這些溫度信息、振動信息、影像信息以及聲音信息。如果使用通過傳感器25取得的信息來進行臨時判定部14的判定處理,則能夠高效地評價最終判定部15中的與表面精度有關(guān)的判定結(jié)果。

另外,例如在內(nèi)部信息中還可以包含在數(shù)值控制裝置12內(nèi)的軸控制部24中設(shè)置的速度控制部32生成的電流指令(扭矩指令)、通過速度檢測器25-1取得的速度反饋值、通過電流檢測器(未圖示)測定出的從放大器23向電動機21流動的電流即電流反饋值等。另外,例如在內(nèi)部信息中可以包含在加工機械11中使用的加工程序。

如以上說明的那樣考慮具有多個內(nèi)部信息,在將這些內(nèi)部信息與用于識別加工機械11所加工的工件的編號(以下,稱為“工件識別編號”)聯(lián)系起來的狀態(tài)下,通過內(nèi)部信息取得部13取得這些內(nèi)部信息,并發(fā)送給臨時判定部14。

返回到圖1的加工機械系統(tǒng)1的結(jié)構(gòu)的說明,臨時判定部14基于內(nèi)部信息取得部13取得的內(nèi)部信息與通過閾值更新部16設(shè)定的閾值之間的比較結(jié)果來判定加工機械11加工后的工件合格與否。將臨時判定部14的判定結(jié)果發(fā)送給閾值更新部16。

最終判定部15對于至少包含由臨時判定部14進行了合格與否判定的工件的精度檢查對象的工件,基于與該工件的精度相關(guān)的實測結(jié)果來判定合格與否。工件的精度通過測定器17進行測定,至少與加工形狀或加工面的精度有關(guān)。精度檢查對象的工件只要至少包含由臨時判定部14進行了合格與否判定的工件即可,例如在進行了合格與否判定的工件為10個時,精度檢查對象的工件只要是進行了該合格與否判定的10個工件自身,或者包含該進行了合格與否判定的10個工件在內(nèi)的總共11個以上的工件即可。將最終判定部15的判定結(jié)果發(fā)送給閾值更新部16。

閾值更新部16基于臨時判定部14的判定結(jié)果以及最終判定部15的判定結(jié)果來更新在臨時判定部14的判定處理中使用的閾值。關(guān)于閾值,設(shè)定了上限閾值以及下限閾值。即,在內(nèi)部信息收納在上限閾值與下限閾值之間時,臨時判定部14判定為“工件合格”,在內(nèi)部信息超過上限閾值時以及在低于下限閾值時,臨時判定部14判定為“工件不合格”。

對在臨時判定部14的判定處理中使用的由內(nèi)部信息取得部13取得的每個內(nèi)部信息設(shè)定閾值。例如,在內(nèi)部信息是對于直線軸的位置指令與關(guān)于直線軸的測定位置之間的差即位置偏差相關(guān)的信息時,設(shè)定與該位置偏差對應(yīng)的閾值,在內(nèi)部信息是針對在旋轉(zhuǎn)軸以及直線軸上設(shè)置的工具的基于加工程序的位置指令與工具位置的測定位置之間的差即與工具有關(guān)的位置偏差相關(guān)的信息時,設(shè)定與該位置偏差對應(yīng)的閾值。此時,因為加工機械11加工的工件的每個加工對象區(qū)域的要求精度不同,所以針對加工機械11加工的工件的每個加工對象區(qū)域設(shè)定在臨時判定部14的判定處理中使用的閾值。對于與如下數(shù)據(jù)有關(guān)的內(nèi)部信息,設(shè)定與其對應(yīng)的閾值,該數(shù)據(jù)是通過使數(shù)值控制裝置12生成的具有加速度的因次的指令經(jīng)過高通濾波器來抽出高頻成分,并對該高頻成分進行二階積分而得到的具有位置因次的數(shù)據(jù)。同樣地,對于內(nèi)部信息設(shè)定與溫度信息、振動信息以及聲音信息相對應(yīng)的閾值。通過閾值更新部16,基于臨時判定部14的判定結(jié)果以及最終判定部15的判定結(jié)果來適當(dāng)更新與各內(nèi)部信息相對應(yīng)的閾值。將通過閾值更新部16設(shè)定(更新)后的閾值發(fā)送給臨時判定部14。接著說明閾值更新部16的閾值更新處理的詳細內(nèi)容。

此外,上述的內(nèi)部信息取得部13、臨時判定部14、最終判定部15以及閾值更新部16例如可以通過軟件程序形式來構(gòu)筑,或者也可以通過各種電路與軟件程序的組合來構(gòu)筑。例如在通過軟件程序形式來構(gòu)筑它們的情況下,使加工機械系統(tǒng)1內(nèi)具有的運算處理裝置按照該軟件程序進行動作,能夠?qū)崿F(xiàn)上述各部的功能。又或者,也可以作為寫入了用于實現(xiàn)各部的功能的軟件程序的半導(dǎo)體集成電路來實現(xiàn)內(nèi)部信息取得部13、臨時判定部14、最終判定部15以及閾值更新部16。

接著,對本實施方式的加工機械系統(tǒng)1的動作原理進行說明。圖3是表示第一實施方式的加工機械系統(tǒng)的動作流程的流程圖。

在步驟s101中,加工機械11基于從數(shù)值控制裝置12接收到的指令,從放大器23供給電力來使電動機21進行驅(qū)動,從而對根據(jù)用途安裝了工件或工具等的軸22進行驅(qū)動來加工工件。

在步驟s102中,內(nèi)部信息取得部13在加工機械11加工工件的加工期間,從數(shù)值控制裝置12取得內(nèi)部信息,并從傳感器25取得作為內(nèi)部信息的各種傳感器信息。

在步驟s103中,臨時判定部14將內(nèi)部信息取得部13取得的內(nèi)部信息與通過閾值更新部16設(shè)定的閾值進行比較,基于該比較結(jié)果來判定加工機械11加工后的工件合格與否。將臨時判定部14的判定結(jié)果發(fā)送給閾值更新部16。步驟s103中的臨時判定部14的判定處理的詳細內(nèi)容如后所述。

在步驟s104中,最終判定部15對于至少包含由臨時判定部14進行了合格與否判定的工件的精度檢查對象的工件,基于與該工件的精度有關(guān)的測定器17的實測結(jié)果來判定合格與否。將最終判定部15的判定結(jié)果發(fā)送給閾值更新部16。

在步驟s105中,閾值更新部16基于步驟s103中的臨時判定部14的判定結(jié)果以及步驟s104中的最終判定部15的判定結(jié)果來更新在步驟s103中的臨時判定部14的判定處理中使用的閾值。將閾值更新部16設(shè)定的閾值發(fā)送給臨時判定部14。步驟s105中的閾值更新部16的閾值更新處理的詳細內(nèi)容如后所述。

在步驟s106中,判定是否結(jié)束加工機械11的工件加工。因為加工機械11基于從數(shù)值控制裝置12接收到的指令進行動作,所以如果從數(shù)值控制裝置12接收到加工結(jié)束的指令則加工結(jié)束。關(guān)于來自數(shù)值控制裝置12的加工結(jié)束指令,例如一般在加工程序中規(guī)定的,或者由作業(yè)者通過預(yù)定的操作進行輸出,或者例如在檢測到停電等異常時進行輸出,步驟s106的處理內(nèi)容本身并不特別地限定本發(fā)明。在步驟s106中沒有判定為加工結(jié)束時,返回到步驟s101,繼續(xù)進行加工機械11針對工件的加工。

在此,對步驟s103中的臨時判定部14的判定處理、步驟s104中的最終判定部15的判定處理以及步驟s105中的閾值更新部16的閾值更新處理的詳細內(nèi)容進行說明。

圖4是表示圖3所示的臨時判定部的判定處理、最終判定部的判定處理、以及閾值更新部的閾值更新處理的動作流程的流程圖。

在步驟s103中,臨時判定部14將內(nèi)部信息取得部13取得的內(nèi)部信息與通過閾值更新部16設(shè)定的閾值進行比較,基于該比較結(jié)果來判定加工機械11加工后的工件合格與否。如上所述,針對內(nèi)部信息取得部13取得的每個內(nèi)部信息設(shè)定閾值。例如,當(dāng)內(nèi)部信息是與位置指令與測定位置之間的差即位置偏差相關(guān)的內(nèi)部信息時,在作為內(nèi)部信息的位置偏差收納在上限閾值與下限閾值之間時,判定為“工件合格”,在超過上限閾值以及低于下限閾值的情況下,判定為“工件不合格”。又例如,在內(nèi)部信息與通過使數(shù)值控制裝置12生成的具有加速度的因次的指令經(jīng)過高通濾波器來抽出高頻成分,并對該高頻成分進行二階積分而得到的具有位置因次的數(shù)據(jù)(不具有漂移成分,相當(dāng)于表面粗糙度的數(shù)據(jù))相關(guān)的情況下,當(dāng)該內(nèi)部信息收納在上限閾值與下限閾值之間的范圍時,將工件的加工面的粗糙度判定為“合格”,在除此之外的情況下,判定為“工件不合格”。對于為溫度信息、振動信息、影像信息以及聲音信息的內(nèi)部信息也同樣地進行合格與否判定。

在步驟s103中通過臨時判定部14判定為“工件合格”時,向步驟s104-1前進,在判定為“工件不合格”時,向步驟s104-2前進。

在步驟s104-1中,最終判定部15對至少包含由臨時判定部14進行了合格與否判定的工件的精度檢查對象的全部工件,基于與該工件的精度相關(guān)的測定器17的實測結(jié)果來判定是否合格。在步驟s104-1中,當(dāng)通過最終判定部15判定為“精度檢查對象的全部工件合格”時,向步驟s105-1前進。另一方面,在步驟s104-1中,當(dāng)通過最終判定部15沒有判定為“精度檢查對象的全部工件合格”時,意味著“在精度檢查對象的工件中包含不合格的工件”,此時,向步驟s105-2前進。

同樣的,在步驟s104-2中,最終判定部15對于至少包含由臨時判定部14進行了合格與否判定的工件的作為精度檢查對象的全部工件,基于與該工件的精度相關(guān)的測定器17的實測結(jié)果來判定是否合格。在步驟s104-2中,當(dāng)通過最終判定部15沒有判定為“精度檢查對象的全部工件不合格”時,意味著“在精度檢查對象的工件中包含合格的工件”,并向步驟s105-3前進。另一方面,在步驟s104-2中,當(dāng)通過最終判定部15判定為“精度檢查對象的全部工件不合格”時,向步驟s105-4前進。

當(dāng)在步驟s103中通過臨時判定部14判定為合格且在步驟s104-1中對于作為精度檢查對象的全部工件通過最終判定部15判定為合格的情況下,通過閾值更新部16執(zhí)行步驟s105-1。此時,臨時判定部14的判定結(jié)果與最終判定部15的判定結(jié)果一致,能夠?qū)㈤撝蹈虏?6已經(jīng)設(shè)定的閾值縮減為更小的值來提高評價效率,所以把已設(shè)定的閾值乘以小于1且大于0的第一系數(shù)α1而得到的值設(shè)定為新的閾值。

當(dāng)在步驟s103中通過臨時判定部14判定為合格,且在步驟s104-1中在作為精度檢查對象的工件中包含通過最終判定部15判定為不合格的工件的情況下,通過閾值更新部16執(zhí)行步驟s105-2。此時,臨時判定部14的判定結(jié)果與最終判定部15的判定結(jié)果不一致,在臨時判定部14的判定處理中使用的閾值的情況下,在作為精度檢查對象的工件中包含不合格的工件,所以將已設(shè)定的閾值乘以小于第一系數(shù)α1且大于0的第二系數(shù)α2而得到的值設(shè)定為新的閾值。

當(dāng)在步驟s103中通過臨時判定部14判定為不合格,且在步驟s104-2中在精度檢查對象的工件中包含通過最終判定部15判定為合格的工件的情況下,通過閾值更新部16執(zhí)行步驟s105-3。此時,意味著即便具有由臨時判定部14判定為不合格的工件,但是在作為精度檢查對象的工件中包含通過最終判定部15判定為合格的工件,即,在臨時判定部14的判定處理中使用的閾值的情況下,將本來應(yīng)該合格的工件誤判定為不合格。因此在這種情況下,為了將閾值更新部16已經(jīng)設(shè)定的閾值變更為更大的值,將已設(shè)定的閾值乘以大于1的第三系數(shù)α3而得到的值設(shè)定為新的閾值。

在步驟s103中通過臨時判定部14判定為不合格且在步驟s104-2中對于作為精度檢查對象的全部工件通過最終判定部15判定為不合格的情況下,通過閾值更新部16執(zhí)行步驟s105-4。此時,因為臨時判定部14的判定結(jié)果與最終判定部15的判定結(jié)果一致,所以維持已經(jīng)設(shè)定的閾值。

如此,閾值更新部16根據(jù)判定部14的判定結(jié)果與最終判定部15的判定結(jié)果是否一致,將0<α2<α1<1<α3的關(guān)系成立的系數(shù)與已經(jīng)設(shè)定的閾值相乘來設(shè)定新的閾值。經(jīng)過步驟s105-1~s105-4中的任意一個的處理向圖3的步驟s106前進。直到在步驟s106中判定為加工機械11的工件加工結(jié)束為止,重復(fù)執(zhí)行閾值更新部16的閾值更新處理。通過該重復(fù)處理,對閾值進行適當(dāng)設(shè)定使得判定部14的判定結(jié)果與最終判定部15的判定結(jié)果盡可能一致。如果判定部14的判定結(jié)果與最終判定部15的判定結(jié)果一致的精度高,則能夠減少最終判定部15的精度檢查對象的工件的個數(shù),并且能夠防止不良品的漏檢。

接下來,對第二實施方式進行說明。圖5是第二實施方式的加工機械系統(tǒng)的原理框圖。將第二實施方式的加工機械系統(tǒng)2構(gòu)成為單元制造系統(tǒng),該單元制造系統(tǒng)具備多組由第一實施方式的加工機械11和與其對應(yīng)地設(shè)置的數(shù)值控制裝置12構(gòu)成的制造單元10。

如圖5所示,第二實施方式的加工機械系統(tǒng)2還具備在多個制造單元10與至少1個測定器17之間可相互通信地連接的通信網(wǎng)絡(luò)18、與通信網(wǎng)絡(luò)可通信地連接并控制各制造單元10的動作的單元控制器19。在本實施方式的加工機械系統(tǒng)2中,內(nèi)部信息取得部13、臨時判定部14、最終判定部15以及閾值更新部16設(shè)置在單元控制器19內(nèi)。

將制造單元10與單元控制器19例如經(jīng)由內(nèi)聯(lián)網(wǎng)等那樣的網(wǎng)絡(luò)18可通信地相互連接。單元控制器19內(nèi)的內(nèi)部信息取得部13經(jīng)由網(wǎng)絡(luò)18從各制造單元10中的數(shù)值控制裝置12取得內(nèi)部信息。另外,單元控制器19內(nèi)的最終判定部15經(jīng)由網(wǎng)絡(luò)18從與各個制造單元10相連接的測定部17取得與各制造單元10中的加工機械11加工后的工件的精度相關(guān)的實測結(jié)果。因此,單元控制器19具備針對網(wǎng)絡(luò)18的通信接口即通信部20。

制造單元10是將制造產(chǎn)品的多個加工機械11柔性地進行組合后的集合。制造單元10例如由各種機床或機器人這樣的多個或多種的加工機械11來構(gòu)筑,但是不限定制造單元10中的加工機械11的個數(shù)。例如,制造單元10可以是通過多個加工機械11依次處理某個工件由此成為最終產(chǎn)品的生產(chǎn)線。此外,例如制造單元10也可以是將2個以上的加工機械11分別處理后的2個以上的工件(部件)在制造工序的過程中通過其他的加工機械11進行組合由此完成最終的工件(產(chǎn)品)的生產(chǎn)線。此外,例如也可以通過將2個以上的制造單元10處理后的2個以上的工件進行組合來完成最終的工件(產(chǎn)品)。

將制造單元10配置在制造產(chǎn)品的工廠中。與此相對,單元控制器19可以配置在設(shè)置有制造單元10的工廠中,或者可以配置在與工廠不同的建筑物中。例如,單元控制器19也可以配置在設(shè)置有制造單元10的工廠用地上的其他的建筑物中。

關(guān)于加工機械系統(tǒng)2,因為上述以外的結(jié)構(gòu)要素與參照圖1~4說明的結(jié)構(gòu)要素相同,所以對相同的結(jié)構(gòu)要素賦予相同的符號并省略關(guān)于該結(jié)構(gòu)要素的詳細說明。

通過以上說明的第二實施方式,關(guān)于內(nèi)部信息取得部13、臨時判定部14、最終判定部15以及閾值更新部16,因為不是對每個制造單元10單獨設(shè)置,而是在單元控制器19內(nèi)集中設(shè)置,所以能夠降低各制造單元10的運行成本和處理負擔(dān),并且能夠防止系統(tǒng)大型化。

接下來,對第三實施方式進行說明。圖6以及圖7是第三實施方式的加工機械系統(tǒng)的原理框圖。將第三實施方式的加工機械系統(tǒng)3構(gòu)成為在第二實施方式的單元控制器19的上位設(shè)置了主控制器100的單元制造系統(tǒng)。圖6表示在主控制器100上可通信地連接1個單元控制器19的例子,圖7表示在主控制器100上可通信地連接多個單元控制器19的例子。

主控制器100記錄并管理在各單元控制器19中取得的與臨時判定部14的判定結(jié)果相關(guān)的信息、在各單元控制器19中取得的與最終判定部15的判定結(jié)果相關(guān)的信息、以及由各測定器17取得的與各加工機械11加工后的工件的精度相關(guān)的實測結(jié)果。另外,主控制器100還具有顯示所取得的各信息的功能。

主控制器100例如可以配置在遠離工廠的辦公室中。在這種情況下,單元控制器19與主控制器100可以經(jīng)由通信裝置32、例如因特網(wǎng)的網(wǎng)絡(luò)來可通信地相互連接。

關(guān)于加工機械系統(tǒng)3因為上述以外的結(jié)構(gòu)要素與參照圖1~6說明的結(jié)構(gòu)要素相同,所以對相同的結(jié)構(gòu)要素賦予相同的符號并省略關(guān)于該結(jié)構(gòu)要素的詳細說明。

通過以上說明的第三實施方式,能夠記錄、管理以及顯示在各單元控制器19中取得的與臨時判定部14的判定結(jié)果相關(guān)的信息、在各單元控制器19中取得的與最終判定部15的判定結(jié)果相關(guān)的信息以及由各測定器17取得的與各加工機械11加工后的工件的精度相關(guān)的實測結(jié)果。

接下來對第四實施方式進行說明。圖8是第四實施方式的加工機械系統(tǒng)的原理框圖。第四實施方式的加工機械系統(tǒng)4在第一~第三實施方式的加工機械系統(tǒng)中還具備用于學(xué)習(xí)內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息的種類的機器學(xué)習(xí)器40。第四實施方式的機器學(xué)習(xí)器40可用于上述第一~第三實施方式中的任意一個實施方式,在這里對用于第一實施方式的情況進行說明。

第四實施方式的加工機械系統(tǒng)4還具備:具有狀態(tài)觀測部111和學(xué)習(xí)部112的機器學(xué)習(xí)器20、意圖決定部113。

狀態(tài)觀測部111觀測狀態(tài)變量,該狀態(tài)變量是包含由內(nèi)部信息取得部13取得的內(nèi)部信息、與加工機械11加工后的工件的精度相關(guān)的實測結(jié)果、與臨時判定部的判定結(jié)果相關(guān)的信息、以及與最終判定部15的判定結(jié)果相關(guān)的信息而構(gòu)成的。另外,在狀態(tài)觀測部111觀測的狀態(tài)變量中還可以包含由閾值更新部16設(shè)定的閾值以及加工程序。

學(xué)習(xí)部112按照基于狀態(tài)觀測部111觀測到的狀態(tài)變量而生成的訓(xùn)練數(shù)據(jù)集來學(xué)習(xí)內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息。學(xué)習(xí)部12使用的學(xué)習(xí)算法可以使用任意的算法,機器學(xué)習(xí)器40具有從輸入到裝置的數(shù)據(jù)集合中,通過解析抽出其中有用的規(guī)則、知識表示、判斷基準等,輸出該判斷結(jié)果,并且進行知識學(xué)習(xí)的功能。在本實施方式中,作為學(xué)習(xí)算法使用強化學(xué)習(xí)。例如,優(yōu)選通過應(yīng)用gpgpu(general-purposecomputingongraphicsprocessingunits通用圖形處理器)或大規(guī)模pc集群等來實現(xiàn)機器學(xué)習(xí)器40。

學(xué)習(xí)部112具備回報計算部121和函數(shù)更新部122。

回報計算部121基于與臨時判定部14的判定結(jié)果相關(guān)的信息和與最終判定部15的判定結(jié)果相關(guān)的信息來計算回報。

函數(shù)更新部122基于狀態(tài)觀測部111觀測到的狀態(tài)變量以及回報計算部121計算出的回報,來更新用于選擇內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息的函數(shù)(行為價值表)。函數(shù)(行為價值表)的更新方法如后所述。

學(xué)習(xí)部112可以通過多層結(jié)構(gòu)運算由狀態(tài)觀測部111觀測到的狀態(tài)變量,并實時地更新函數(shù)(行為價值表)。例如,函數(shù)更新部122可以基于由狀態(tài)觀測部111觀測到的狀態(tài)變量以及由回報計算部121計算出的回報,按照神經(jīng)網(wǎng)絡(luò)模型來更新用于選擇內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息的函數(shù)(行為價值表)。在這里,作為通過多層結(jié)構(gòu)運算狀態(tài)變量的方法,例如能夠使用多層神經(jīng)網(wǎng)絡(luò)。

回報計算部121在通過臨時判定部14判定為合格并且對于精度檢查對象的全部工件通過最終判定部15判定為合格的情況下,以及在通過臨時判定部14判定為不合格并且對于精度檢查對象的全部工件通過最終判定部15判定為不合格的情況下,臨時判定部14的判定結(jié)果與最終判定部15的判定結(jié)果一致,意味著為了臨時判定部14的判定處理,內(nèi)部信息取得部13取得的內(nèi)部信息是適當(dāng)?shù)?,所以增加回報?/p>

另一方面,回報計算部121在通過臨時判定部14判定為合格并且在精度檢查對象的工件中包含通過最終判定部15判定為不合格的工件的情況下,以及在通過臨時判定部14判定為不合格并且在精度檢查對象的工件中包含通過最終判定部15判定為合格的工件的情況下,臨時判定部14的判定結(jié)果和最終判定部15的判定結(jié)果不一致,意味著為了臨時判定部14的判定處理,內(nèi)部信息取得部13取得的內(nèi)部信息不適當(dāng),所以減少回報。

意圖決定部113基于上述學(xué)習(xí)部112按照訓(xùn)練數(shù)據(jù)集進行學(xué)習(xí)的結(jié)果,對當(dāng)前的狀態(tài)變量的輸入進行響應(yīng)來決定內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息。將與已決定的內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息相關(guān)的學(xué)習(xí)結(jié)果發(fā)送給內(nèi)部信息取得部13,內(nèi)部信息取得部13基于該學(xué)習(xí)結(jié)果從數(shù)值控制裝置12取得內(nèi)部信息。就這樣,通過第四實施方式,自動地學(xué)習(xí)通過內(nèi)部信息取得部13從數(shù)值控制裝置12應(yīng)取得的效率最好的內(nèi)部信息。

圖9表示第四實施方式的具備應(yīng)用了強化學(xué)習(xí)的機器學(xué)習(xí)器的加工機械系統(tǒng)的機器學(xué)習(xí)的動作流程的流程圖。

一般來說,在強化學(xué)習(xí)中隨機地選擇行為的初始值。在本實施例中,在步驟s201中隨機地選擇作為行為的“內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息”。

在步驟s202中,加工機械11基于從數(shù)值控制裝置12接收到的指令,從放大器23供給電力來使電動機21進行驅(qū)動,從而對根據(jù)用途安裝了工件或工具等的軸22進行驅(qū)動來加工工件。在此期間,內(nèi)部信息取得部13取得當(dāng)前的內(nèi)部信息,測定器17取得與加工機械11加工后的工件的精度相關(guān)的實測結(jié)果,臨時判定部14以及最終判定部15分別進行判定處理,閾值更新部16進行閾值的更新處理。

在步驟s203中,狀態(tài)觀測部111觀測狀態(tài)變量,該狀態(tài)變量是包含內(nèi)部信息取得部13取得的內(nèi)部信息、與加工機械11加工后的工件的精度相關(guān)的實測結(jié)果、與臨時判定部14的判定結(jié)果相關(guān)的信息、以及與最終判定部15的判定結(jié)果相關(guān)的信息而構(gòu)成。另外,狀態(tài)觀測部111還可以觀測由閾值更新部16設(shè)定的閾值以及加工程序來作為狀態(tài)變量。

接下來,在步驟s204中,狀態(tài)觀測部111判定觀測到的臨時判定部14的判定結(jié)果與最終判定部15的判定結(jié)果是否一致。在通過臨時判定部14判定為合格并且對于精度檢查對象的全部工件通過最終判定部15判定為合格的情況下,以及在通過臨時判定部14判定為不合格并且對于精度檢查對象的全部工件通過最終判定部15判定為不合格的情況下,在步驟s205中回報計算部121增加回報。另一方面,在通過臨時判定部14判定為合格并且在精度檢查對象的工件中包含通過最終判定部15判定為不合格的工件的情況下,以及在通過臨時判定部14判定為不合格并且在精度檢查對象的工件中包含通過最終判定部15判定為合格的工件的情況下,在步驟s206中回報計算部121減少回報。

在步驟s207中,函數(shù)更新部122基于通過狀態(tài)觀測部111觀測到的狀態(tài)變量以及通過回報計算部121計算出的回報,來更新用于選擇內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息的函數(shù)(行為價值表)。

在步驟s208中,意圖決定部113基于在步驟s207中更新后的函數(shù)來選擇(決定)獲得最多回報的內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息,并輸出該內(nèi)部信息。把意圖決定部113決定的內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息在步驟s209中通知給內(nèi)部信息取得部13。

此后,返回到步驟s202。在此之后,直到加工機械系統(tǒng)4停止為止,重復(fù)執(zhí)行步驟s202~s208的處理。由此,機器學(xué)習(xí)器40學(xué)習(xí)內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息。此外,可以從多個電動機驅(qū)動裝置取得訓(xùn)練數(shù)據(jù)集,此時,學(xué)習(xí)部112按照對于多個加工機械系統(tǒng)取得的訓(xùn)練數(shù)據(jù)集來重復(fù)執(zhí)行步驟s201~s209的處理,學(xué)習(xí)內(nèi)部信息取得部13應(yīng)取得的內(nèi)部信息。當(dāng)對于多個加工機械系統(tǒng)取得了訓(xùn)練數(shù)據(jù)集時,機器學(xué)習(xí)器40的學(xué)習(xí)精度提高。

接著對使用了強化學(xué)習(xí)的機器學(xué)習(xí)器40進行更詳細的說明。

作為強化學(xué)習(xí)的問題設(shè)定,如下進行考慮。

·加工機械系統(tǒng)觀測環(huán)境的狀態(tài),決定行為。

·環(huán)境按照某些規(guī)則進行變化,并且還有自身的行為對環(huán)境造成變化的情況。

·在每次進行行為時會返回回報信號。

·希望最大化的是今后的(折扣)回報的總和。

·從完全不知道行為引起的結(jié)果,或者只是不完全知道的狀態(tài)起開始學(xué)習(xí)。即,加工機械系統(tǒng)只在實際進行動作后,能夠取得其結(jié)果來作為數(shù)據(jù)。也就是說,需要一邊試錯一邊探索最佳的行為。

·將為了模仿人的動作而進行了先前學(xué)習(xí)(有教師學(xué)習(xí)、逆強化學(xué)習(xí)這樣的方法)的狀態(tài)作為初始狀態(tài),能夠從好的開始地點開始學(xué)習(xí)。

在這里,“強化學(xué)習(xí)”是不僅通過判定和分類,還通過學(xué)習(xí)行為,根據(jù)行為對環(huán)境賦予的相互作用來學(xué)習(xí)適當(dāng)?shù)男袨椋?,用于使將來獲得的回報成為最大的學(xué)習(xí)方法。這表示在本實施方式中,能夠獲得使內(nèi)部信息取得部13取得的內(nèi)部信息最佳化的對未來造成影響的這樣的行為。例如在q學(xué)習(xí)的情況下繼續(xù)說明,但是并不限于此。

q學(xué)習(xí)是在某種環(huán)境狀態(tài)s下,學(xué)習(xí)用于選擇行為a的價值q(s、a)的方法。即,在某種狀態(tài)s時,可以選擇價值q(s、a)最高的行為a來作為最佳的行為。但是,最初對于狀態(tài)s與行為a的組合,完全不知道價值q(s、a)正確的值。因此,智能體(行為主體)在某種狀態(tài)s下選擇各種行為a,并針對此時的行為a給予回報。因此,智能體學(xué)習(xí)更好的行為的選擇,即正確的價值q(s、a)。

并且,作為行為的結(jié)果,希望使將來獲得的回報的總和最大化,所以最終的目標是成為q(s,a)=e[σγtrt]。在此,對于按照最佳的行為狀態(tài)進行了變化時的情況來取得期望值,因為不知道該期望值,所以一邊探索一邊進行學(xué)習(xí)。這樣的價值q(s、a)的更新式例如能夠通過下式1來表示。

在上述的式1中,st表示在時刻t的環(huán)境的狀態(tài),at表示在時刻t的行為。通過行為at,狀態(tài)變化為st+1。rt+1表示由于該狀態(tài)的變化而得到的回報。另外,帶有max的項是在狀態(tài)st+1下,選擇了此時已知的q值最高的行為a時的q值乘以γ的項。γ是0<γ≤1的參數(shù),被稱為折扣率。α是學(xué)習(xí)系數(shù),為0<α≤1的范圍。

式1表示基于作為試行at的結(jié)果而返回的回報rt+1,對狀態(tài)st下的行為at的評價值q(st、at)進行更新的方法。表示了如下情況:如果基于回報rt+1+行為a的下一個狀態(tài)下的最佳的行為maxa的評價值q(st+1、maxat+1)比狀態(tài)s下的行為a的評價值q(st、at)大,則將q(st、at)增大,反之如果基于回報rt+1+行為a的下一個狀態(tài)下的最佳的行為maxa的評價值q(st+1、maxat+1)比狀態(tài)s下的行為a的評價值q(st、at)小,則將q(st、at)也減小。即,使某個狀態(tài)下的某個行為的價值接近作為結(jié)果立即返回的回報和基于該行為的下一個狀態(tài)下的最佳行為的價值。

在此,作為q(s、a)在計算機上的表現(xiàn)方法,具有針對全部的狀態(tài)行為對(s、a),將該值保存為表(行為價值表)的方法;準備用于近似q(s、a)的函數(shù)的方法。在后者的方法中,能夠通過使用隨機梯度下降法等方法調(diào)整近似函數(shù)的參數(shù)來實現(xiàn)上述的更新式。作為近似函數(shù),能夠使用后述的神經(jīng)網(wǎng)絡(luò)。

另外,作為強化學(xué)習(xí)中的價值函數(shù)的近似算法,能夠使用神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)例如由用于實現(xiàn)神經(jīng)網(wǎng)絡(luò)的運算裝置以及存儲器等構(gòu)成,該神經(jīng)網(wǎng)絡(luò)模擬圖10所示的神經(jīng)元模型。圖10是表示神經(jīng)元模型的示意圖。

如圖10所示,神經(jīng)元輸出與多個輸入x(在圖中作為一個例子,輸入x1~輸入x3)相對的輸出y。在各輸入x1~x3中,對該輸入x乘以對應(yīng)的權(quán)值w(w1~w3)。因此,神經(jīng)元輸出式2表現(xiàn)的輸出y。此外,輸入x、輸出y以及權(quán)值w全是矢量。另外,在下式2中,θ為偏置,fk為激活函數(shù)。

在以上說明的第四實施方式中,將機器學(xué)習(xí)器40用于第一實施方式,但是也可以用于第二以及第三實施方式中的任意一個實施方式。例如,在用于第二實施方式時,可以在單元控制器19上設(shè)置機器學(xué)習(xí)器40,在用于第三實施方式時,可以在單元控制器19或主控制器100上設(shè)置機器學(xué)習(xí)器40。

此外,上述的狀態(tài)觀測部111、學(xué)習(xí)部112以及意圖決定部113例如可以由軟件程序形式來構(gòu)筑,或者也可以由各種電路與軟件程序的組合來構(gòu)筑。例如在由軟件程序形式來構(gòu)筑它們時,能夠設(shè)置按照該軟件程序進行動作的運算處理裝置、或者在云服務(wù)器上運行該軟件程序來實現(xiàn)上述各部的功能。又或者,可以作為寫入了用于實現(xiàn)各部的功能的軟件程序的半導(dǎo)體集成電路來實現(xiàn)具備狀態(tài)觀測部111以及學(xué)習(xí)部112的機器學(xué)習(xí)器40。又或者,可以通過不僅包含具備狀態(tài)觀測部111以及學(xué)習(xí)部112的機器學(xué)習(xí)器40還包含意圖決定部113的結(jié)構(gòu)來實現(xiàn)寫入了用于實現(xiàn)各部功能的軟件程序的半導(dǎo)體集成電路。

通過本發(fā)明,能夠?qū)崿F(xiàn)一種加工機械系統(tǒng),其能夠在削減精度檢查對象的工件個數(shù)的同時防止漏過不良品。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1