Cari Blog Ini

Laman

Total Tayangan Halaman

Minggu, 10 Oktober 2010

VERBAL SUBJECT ANALYSIS

Saat ini banyak orang yang mengalami kesulitan dalam mencari informasi yang benar-benar mereka butuhkan, khususnya pada pencarian menggunakan search engine seperti google. Bukan suatu hal yang mudah untuk menangani hambatan-hambatan tersebut diperlukan keahlian khusus untuk membuat suatu konsep sistem yang dapat menanganinya dan terdapat beberapa proses yang harus dilakukan untuk mengatasi masalah-masalah tersebut yaitu:
I. Proses Analisis Subjek
Analisis subyek merupakan bagian dari pengindeksan atau pengatalogan yang berhubungan dengan :
1. Analisis konseptual pada informasi. Analisis konseptual adalah proses menentukan konten utama dari sebuah informasi.
2. Analisis subyek berhubungan dengan menerjemahkan analisis konseptual ke dalam kerangka klasifikasi atau tajuk subyek yang digunakan oleh pengkatalog, pengindeks, atau pengklasifikasi.
Dengan mengikuti tahapan konseptual, kerangka harus diterjemahkan ke dalam Symbol klasifikasi yang digunakan dalam klasifikasi atau kosakata terkendali.

Teknik yang agak berbeda harus digunakan untuk informasi yang tekstual atau nontekstual. Hal pertama yang harus diperhatikan bagi informasi yang tekstual adalah :
1. Judul dan anak judul
Judul dapat sangat membantu dalam memberikan gambaran dari informasi yang terkandung di dalamnya tetapi terkadang judul tidak sesuai dengan informasi di dalamnya.
2. Daftar isi
Daftar isi dapat membantu memperjelas topik dan mengindentifikasi subtopik. Daftar isi dapat sangat membantu untuk menemukan kumpulan artikel yang pengarangnya berbeda.
3. Pendahuluan
Pendahuluan dapat membantu dalam menemukan maksud atau tujuan dari pengarang mengenai karyanya.
4. Istilah indeks, kata atau frasa yang tercetak dalam huruf berbeda, tipografi yang berbeda; hyperlink; abstrak jika disediakan, dll.
Elemen-elemen ini menyediakan konfirmasi atau kontradiksi dari judul, daftar isi, pendahuluan, dll.
5. Ilustrasi, diagram, table, keterangan
Ilustrasi dan keterangan lainnya sangat penting dalam menilai subyek seperti karya seni, dimana dalam beberapa kasus, ilustrasi menjelaskan tentang isi pada umumnya.
Untuk informasi nontektual, kita harus memeriksa obyek, gambar atau representasi lainnya. Beberapa informasi dibuat pada bahan penyertanya seperti keterangan pada boks, lembar instruksi, label dll. Pada dasarnya gambar atau bentuk-bentuk karya seni cukup memiliki keterangan yang dapat menjelaskan sesuatu tentang informasi yang terkandung dan keterangannnya hampir seperti informasi dalam bentuk teks tetapi ada beberapa karya seni yang tidak terdapat informasi dalam bentuk teks. Namun bagaimanapun, kita harus memeriksa barangnya dan menerjemahkan sendiri.

Exhaustivity
Exhaustivity merupakan sejumlah konsep yang berada dalam cakupan subyek sebuah dokumen yang akan dipertimbangkan dalam kerangka konsep sebuah sistem. Menurut A. G. Brown, exhaustivity terdiri dari dua tingkatan dasar yaitu:
a. Depth Indexing bertujuan untuk menelaah semua konsep utama yang berhubungan dengan sebuah sumber informasi, pengenalan terhadap banyak subtopik dan subtema sehingga pada sebuah dokumen subyeknya terdapat lebih dari satu.
b. Summarization, konsep dokumen disimpulkan hanya pada satu konsep yang mewakili keseluruhan isi sebuah dokumen.

Identifikasi konsep
Terdapat beberapa tipe dari sejumlah konsep yang dapat d igunakan sebagai subjek yaitu:
a. Topik
Topik dapat digunakan sebagai subjek karena topik merupakan pokok pikiran utama penulis. Namun dalam menganalisis topik, terkadang terjadi perbedaan pendapat antar pembaca yang dapat bersifat subjektif dan sringkali subyek terdiri dari banyak faset. Sifat subyektif ini disebabkan oleh perbedaan pemahaman bahasa sehari-hari pada tiap daerah. Wilson mendeskripsikan 4 metode untuk memahami topik dari sebuah dokumen yaitu:
1. Purposive method
Menentukan tujuan penciptaan dokumen. Metode ini akan bermasalah jika sang pencipta dokumen tidak menyampaikan tujuannya pada dokumen tersebut, karena bisa saja interpretasi tiap orang berbeda.
2. Figure-ground method
Menentukan latar belakang dari sebuah dokumen. Namun ketertarikan pengguna dokumen dapat berbeda-beda sehingga bisa saja ’pemeran utama’ dalam dokumen menurut setiap orang berbeda-beda.
3. Objective method
Metode ini melihat istilah yang paling banyak digunakan dalam sebuah dokumen, kemudian memutuskan bahwa istilah yang paling banyak muncul merupakan subyek dari sebuah dokumen. Namun, sering kali subyek dalam sebuah dokumen tidak tertuliskan dalam dokumen tersebut. Sehingga metode ini tidak dapat dijadikan dasar penentuan subyek dokumen.
4. Apealing to unity or to rules of selection and rejection
Metode ini menganalisis jenis konsep yang digunakan pengarang dalam menggabungkan keseluruhan isi dokumen, hal apa yang diterima dan hal apa yang ditolak dalam sebuah dokumen. Namun terdapat permasalahan, yakni penelusur subyek dokumen harus memiliki pengetahuan yang cukup untuk mengetahui hal apa yang ditolak dalam dokumen.
Hampir tidak jauh beda dengan penentuan konsep dokumen pada bentuk informasi secara tekstual, penentuan konsep dokumen pada dokumen non-tekstual juga terdiri atas tahapan. Menurut Barnett terdapat tiga tahapan yaitu:
1. Mengidentifikasi sebuah konsep atau mengkombinasi sejumlah konsep yang merepresentasikan cakupan topik dokumen.
2. mengidentifikasi dari sejumlah ciri umum yang nampak dalam sebuah dokumen.
3. Identifikasi gabungan; yakni antara tematis (konsep) dengan ciri – ciri umum.
Meski demikian, sama seperti penentuan konsep pada dokumen tekstual, diperlukan pengetahuan serta pelatihan khusus untuk menentukan konsep pada dokumen non-tekstual.
b. Nama
Di dalam proses menentukan isi dari suatu dokumen, dapat ditemukan melalui salah satu aspek topik yaitu:
1. Perorangan
Individu merupakan topik dari suatu website atau biografi dari suatu karir seseorang. Ini dimaksudkan agar para pencari informasi yang ingin mengetahui karya-karya dari “para penulis sastra” dapat mencarinya dengan menggunakan situs atau topik perorangan.
2. Badan Korporasi
Suatu badan korporasi dapat menjadi topik dari suatu informasi mengenai entitas seperti perusahaan kelapa sawit atau Bank Indonesia. Badan korporasi merupakan suatu organisasi yang terdiri dari beberapa orang dan diidentifikasi berdasarkan nama dan peran masing-masing anggota dalam organisasi tersebut.
3. Nama Geografi
Nama geografi dapat mengambil peran yang berbeda dalam penentuan isi subyek. Pada beberapa kasus, suatu dokumen secara aktual membahas tentang suatu tempat tertentu seperti sejarah perkembangan kebudayaan Indonesia.
4. Named Entities
Beberapa named entities menyerupai nama badan korporasi dan nama geografi, tetapi mereka berbeda. contohnya adalah nama situs arkeologi, Megiddo (Kota Mati).
c. Unsur kronologi
Periode waktu dapat menjadi aspek yang sangat penting dari konten subyek suatu informasi. Periode (PD II) dan zaman (Renaissance) sering kali bertindak sebagai wakil dalam kronologi. Hanya data spesifik yang biasanya diolah secara terpisah. Periode dan zaman pada umumnya telah diolah sebagai topik suatu informasi.
d. Konsep bentuk
Langkah terakhir dalam proses analisis konseptual adalah mengidentifikasi bentuk dari informasi yang telah dianalisis atau bagian terpenting dari informasi tersebut. Bentuk bukan fitur subyek secara langsung.
Bentuk data merupakan istilah dan frase yang menandai spesifik jenis atau genre suatu bahan. Istilah dan frase ini ditentukan berdasarkan:
• Karakter fisiknya (kaset video, fotografi, peta)
• Isi dari data jenis tertentu (bibliografi, statistik)
• Susunan informasinya (diary, kerangka, indeks)
• Gaya, teknik, tujuan, atau keinginan audien (drama, kartun, karya popular)
Pemisahan bentuk dari subyek menjadi sangat penting untuk mengorganisasi informasi yang bukan dalam bentuk tekstual.

Menterjemahkan Konsep ke Dalam Istilah Indeks
Adakalanya untuk menganalisis konseptual yang lengkap, konsep yang teridentifikasi harus dirubah kedalam kosakata terkendali yang telah digunakan (AAT, LCSH, MeSH).

Kosakata Terkendali
Suatu kosakata terkendali dioperasikan dengan memilih suatu kata untuk mengekspresikan suatu konsep dan kemudian membuat sinonim khususnya yang akan dihubungkan pada istilah yang terpilih. Secara tradisi, istilah yang tidak digunakan sebagai istilah terpilih atau subyek akan muncul dibawah istilah yang terpilih dan sering kali didahului dengan singkatan UF yang berarti “used for (digunakan untuk)”.
Contoh:
Maintenance
UF Preventive maintenance
Upkeep
Kebalikan dari entri ini pada daftar adalah entri pada setiap istilah yang tidak digunakan merujuk pada istilah yang terpilih:
Preventive maintenance use Maintenance
Upkeep use Maintenance
Bahasa indeks atau kosakata terkendali juga mengawasi hubungan hirarki dari istilah terpilih dengan menunjukkan hubungannya, seperti Broader Terms atau Istilah Luas (BT), Narrower Terms atau Istilah Sempit (NT), Relative Terms atau Istilah Berkaitan (RT), dan sebagainya.
Contoh:
Maintenance
BT Maintainability (Engineering)
NT Grounds maintenance
RT Repairing
Standar Nasional untuk membuat bahasa indeks atau kosakata terkendali yaitu ANSI/NISO Standard Z39.19-1993 yang berjudul Guidelines for the Construction, Format, and Management of Monolingual Thesauri.


Kata Khusus dan Umum
Tingkat sebuah kosa kata disebut kata umum dan kata khusus tergantung pada penggunaannya.contonya pada penggunannya anak, kosa kata kucing termasuk tingkat yang menggunakan kata khusus. Tapi apabila digunakan dlm konteks yg lebih komplek, kosa kata ”kucing” disebut kata umum. Oleh karena itu, perlu pengklasifikasian tentang kata khusus dan kata umum yang digunakan dalam suatu konsep.

Konsep Sinonim
Dalam mengontrol kosa kata, hal yg penting adalah mengidentifikasi istilah sinonim
Contohnya : bulutangkis sama dengan badminton

Bentuk Kata untuk sebuah Istilah Kata
Kata dalam bahasa inggris sering memiliki lebih dari satu bentuk yg memiliki arti sama
Contoh: clothing = clothes
Dalam pengembangan bahasa, konsepnya memiliki kecenderungan dituliskan sbg kata (“on line’), kata yg dihubungkan dgn tanda hubung (on-line) dan satu kata (“on-line”). Terkadang ketiganya digunakan dalam satu waktu. Masalah utama perbedaan bentuk kata adalah singular (tunggal) vs plural(jamak). Oleh karena itu, diperlukan kosa kata terkendali.

Susunan dan Bentuk untuk Berbagai Istilah Kata dan Frase
Dalam kosa kata terkendali, ada istilah-istilah dan frase yang dibuat lebih dari 2 kata:
1. Ada yg berbentuk modified nouns
Contoh: Environmental education
kata sifat kata benda
2. Frase dan konjungsi atau kata depan
Information theory in biologi
preposition
3. Kata yang memiliki penambahan qualifier
Cth: Yanzi ( African people)
Qualifier
Masalah dalam mengkonstruksi istilah tergantung penggunaan bentuk dan susunan yang digunakan individu

Homograf dan Homofon
Homograf adalah kata yang sama ejaannya dengan kata lain, tetapi berbeda lafal dan maknanya.
Contoh: kata apel yang berarti buah dengan apel yang berarti upacara
Homofon adalah kata yang sama lafalnya dengan kata lain, tetapi berbeda ejaan dan maknanya.
Contoh: Kata Bank dengan kata Bang.

Istilah kualifikasi
Salah satu cara untuk berhubungan dengan homograf adalah dengan menambahkan kata penjelas yang memiliki satu atau lebih dari satu arti.
Contoh : mercury (planet)
Mercury (dewa roma)
Singkatan dan akronim
Akronim dan singkatan terkadang diucapkan atau tidak tergantung pengguna yang dituju dan pengetahuan yang mereka miliki. Akronim merupakan singkatan kata yang dibentuk dengan penggabungan huruf atau suku kata pertama dari kata lain. Biasanya dalam sebuah buku akan terdapat fitur tambahan berupa abbreviations list (daftar singkatan) yang berisi daftar singkatan yang digunakan dalam paket informasi.
Contoh ; AIDS (Acquired Immanue Deficiency Syndrome)

Populer vs tekhnis
Dalam membuat kosa kata terkendali yang harus di perhatikan adalah dimana istilah-istilah tsb sering di gunakan. Apabila suatu istilah tsb digunakan berdasarkan tempat spesialisasi penggunanya maka istilah tsb merupakan istilah tekhnis dan apabila istilah tsb ditempatkan di tempat umum maka istilah tsb merupakan istilah yang populer.
Misalnya: di MeSH (medical subject heading) kata yang biasa digunakan di adalah “Neoplasm”, sedangkan di LCSH dikenal dengan nama Cancer

Istilah Subdivisi
Subdivisi digunakan dalam Kosa kata terkendali yang merupakan istilah prakoordinasi.
Tujuan dari penggunaan subdivisi antara lain:
1. Membedakan bentuk atau jenis kata.
2. Menunjukan perjanjian pada bagian subjek yg besar.
3. Menunjukan aspek khusus pada subjek yg besar.
4. Menunjukan batas-batas berdasarkan geografis maupun kronolgis.



Prakoordinasi dan Pascakoordinasi
Prakoordinasi merupakan metode penelusuran yang harus menghubungkan nama tempat, waktu dan lain-lain. Sedangkan pascakoordinasi, penelusur tidak perlu menghubungkan dengan nama tempat, waktu, dan lain-lain seperti halnya prakoordinasi. Penelusur harus mengkombinasikan istilah dengan menggunakan teknik Boolen . Dasar pengindeksan pascakoordinasi adalah pencarian kata kunci.

Prinsip-prinsip umum dalam penerapan istilah kosa kata terkendali

Jaminan literasi
Cara yang digunakan dalam prisip ini adalah dengan menambahkan istilah pada daftar tajuk subjek atau thesaurus ketika sebuah konsep baru muncul dalam literature dan selanjutnya istilah-istilah tersebut akan ditentukan sebagai istilah yang dibutuhkan atau yang akan digunakan. Namun biasanya istilah-istilah baru tidak ditambahkan ke dalam daftar sampai istilah tersebut dibutuhkan untuk penggunaan dalam wakil dokumen ringkas atau metadata.
Entri khusus
Prinsip ini adalah sebuah konsep yang harus ditandai dengan sebuah istiah dari thesaurus. Istilah tersebut harus merupakan istilah yang paling khusus untuk konsep yang ada pada kosa kata terkendali.
Entri langsung
Entri dari konsep berada di bawah istilah dan diatas entri yang merupakan subdivisi dari konsep yang lebih luas.
Jumlah istilah yang ditetapkan
Tidak ada batasan dalam jumlah istilah atau deskriptor yang ditentukan. Jika analisis konseptual sudah dibuat ringkasan, jumlah istilah yang digunakan adalah jumlah yang dibutuhkan untuk menjelaskan ringkasan. Demikian juga jika analisis konseptual sudah dilakukan secara mendalam, jumlah istilah yang diperlukan untuk mencukupi semua konsep sudah terpenuhi.
Bukan konsep dalam kosa kata terkendali
Jika konsep tidak dipresentasikan dalam kosakata terkendali, sebaiknya untuk sementara dibuat konsep yang lebih umum dan konsep baru ditujukan sebagai tambahan baru untuk daftar subjek khusus atau thesaurus.

Istilah indeks untuk nama
Meskipun nama untuk banyak konsep-konsep pokok diawasi oleh kosakata terkendali, namun nama sebenarnya ecara umum diawasi oleh authority file yang terpisah.

Jenis kosakata terkendali
Kosakata terkendali terbagi dalam 3 kategori, yaitu daftar tajuk subjek, thesaurus, ontologis.
Persamaan Daftar Tajuk Subjek dengan Thesaurus adalah keduanya berusaha untuk menyediakan akses subjek untuk kemasan informasi dengan menyediakan istilah yang konsisten dibandingkan yang tidak terawasi dan tidak tepat. Keduanya memilih menunjukan istilah dan membuat referensi dari istilah yang tidak digunakan. Keduanya menyediakan hubungan hierarki istilah yang dihadirkan dalam hubungan yang lebih luas (broader terms), lebih sempit (narrower terms), dan istilah yang berhubungan (related terms).
Perbedaan daftar tajuk subjek dan thesaurus adalah:
1. Thesaurus menggunakan istilah tunggal dan membatasi istilah dalam konsep tunggal. Sedangkan daftar tajuk subjek memiliki susunan kata dan istilah lain yang diprakoordinasi untuk tambahan single terms.
2. Thesaurus lebih menunjukan hubungan hierarki yang tegas dibandingkan daftar tajuk subjek karena Theasaurus merupakan single terms, setiap istilah hanya memiliki satu istilah yang lebih luas.
3. Thesaurus memiliki cakupan yang lebih sempit karena istilahnya dibangun dari spesifik subjek. Sedangkan daftar tajuk subjek memiliki cakupan yang lebih umum, subjeknya lebih luas, dan entrinya mengandung pengetahuan.
4. Thesaurus seperti multibahasa karena menggunakan istilah single terms , terdapat padanan kata pada behasa lain yang mudah ditemukan dan mudah untuk dimengerti.
Daftar tajuk subjek
1. Library of congress subject heading (LCSH)
2. Sears list of subject heading (sears)
3. Medical subject heading (MeSH)
Thesaurus
1. Art & Architecture Thesaurus (AAT)
2. Thesaurus of ERIC Descriptors

NATURAL LANGUAGE PROCESSING (NLP)
Salah satu tujuan dari NLP adalah mampu menciptakan sistem Information Retrieval (IR) yang dapat menyelesaikan tiga hal yaitu:
1) Menafsirkan kebutuhan informasi pengguna yang dinyatakan dalam teks bebas.
2) Mewakili makna lengkap yang disampaikan dalam dokumen.
3) Dapat memberikan hasil dari pencarian yang cocok atau sesuai dengan informasi yang dibutuhkan pengguna informasi.
Masalah-masalah bahasa yang sering timbul antara lain:
5. Kalimat-kalimat Bahasa Inggris sering tidak lengkap dideskripsikan dari apa yang mereka maksud.
6. Ekspresi yang sama dapat berarti hal yang berbeda dalam konteks yang berbeda. Misalnya, " Where’s the water?" Dapat berarti bahwa orang yang haus, atau, ini dapat berarti bahwa orang yang ingin tahu jalan itu ke pantai.

6. Bahasa Alami selalu memiliki kata-kata baru, penggunaan, ekspresi, dan makna. Selama Olimpiade 1998 yang bisa mendengar bahwa " The United States has not yet medaled." Banyak orang tidak pernah mendengar "medali" digunakan sebagai kata kerja sebelumnya.

7. Ada banyak cara untuk mengatakan hal yang sama. Misalnya, "Mary registered for two summer courses." Dan "Maria signed up for two courses for the summer term." Berarti hal yang sama.

8. Kalimat-kalimat yang dibangun dapat memiliki makna yang berbeda. Dalam dua kalimat " Jennifer took the course with Professor Jones." dan " Jennifer took the course with Mary.", Yang pertama menunjukkan bahwa sang profesor mengajarkan kursus yang Jennifer ambil. Tapi yang kedua bisa berarti bahwa Jennifer dan Mary mengambil kursus bersama-sama atau Profesor Mary Jones suka diatasi dengan nama depannya..

Rich dan Knight mengidentifikasi langkah-langkah yang penting untuk NLP yaitu:
• Analisis Morfologis yaitu komponen kata terpisah dan pemberian tanda baca yang terpisah dari kata.
• Analisis Syntactic yaitu menganalisis secara linier urutan kata-kata untuk menunjukkan kata-kata yang berhubungan satu sama lain; komputer flat mengubah urutan kata-kata menjadi sebuah struktur. Bagi mereka yang belajar tata bahasa kalimat dalam diagram kelas, diagram tersebut pada dasarnya adalah apa yang dilakukan dalam langkah ini.
• Analisis Semantic yaitu menciptakan struktur untuk menunjukkan bagaimana makna kata-kata individu bergabung antara satu sama lainnya (misalnya, kalimat "Dia ingin mencetak halaman WWW." Menunjukkan suatu kehendak event di mana "dia" ingin pencetakan peristiwa terjadi di mana ia harus memiliki akses ke WWW browser dan printer).
• Wacana integrasi yaitu menentukan arti kalimat seorang individu dalam hubungannya dengan kalimat-kalimat yang mendahului dan mengikutinya. Sebagai contoh, arti dari kata ganti seperti "itu," "mereka," "dia," dapat diberi makna individu hanya jika terdapat kata berupa rujukan yang telah ditentukan.
• Analisis Pragmatis yaitu menafsirkan kembali struktur yang mewakili untuk menunjukkan maksud yang terkandung didalamnya. Sebagai contoh pertanyaan " Do you have a time?" Harus ditafsirkan sebagai permintaan untuk diberi tahu waktu. Dalam kasus sistem IR hasil analisis ini harus menjadi terjemahan ke perintah yang akan dijalankan oleh sistem. Jika sistem ditanya seperti “ Do you have anything on artificial intelligence?" Tanggapan harus berupa daftar sumber yang intelektual, bukan kata "Ya."
Analisis semantik mencakup langkah pertama melihat kata-kata dalam kamus (sering disebut leksikon di NLP) untuk menentukan sebuah kata yang arti atau nuansanya seperti arti atau nuansa penulis. Analisis semantik mencakup sebuah yang tidak hanya didefinisikan tetapi juga harus memberi penanda semantik.


Ontologi
Ontologi terbagi menjadi dua jenis, yaitu ontologi nonlinguistik dan ontologi linguistik. Ontologi nonlinguistik mencakup ruang, waktu, dan struktur benda-benda fisik. Sedangkan ontologi linguistik adalah ontologi yang terdapat di NLP. Ontologi di NLP harus memformalkan realitas penggunaan bahasa untuk komunikasi. Ontologi linguistik dapat mencakup realitas tata bahasa, semantik, sintaksis, dll. Bagian-bagian yang berhubungan dengan semantik disebut leksikon atau kamus leksikal, tapi mereka juga dapat disebut ontologi.
Beberapa leksikal ontologi tampak pada daftar istilah hierarkis dari subjek yang lebih sempit. Namun, yang lainnya tampaknya dikontrol dengan membuat kategorikan kosakata. Hal ini meliputi analisis semantik dari kata-kata yang menempatkan mereka ke dalam kategori-kategori seperti kata benda, kata kerja, kata sifat, dan kata keterangan. Hal ini berbeda dengan daftar tajuk subjek dan tesaurus yang cenderung hanya memberikan kata benda bentuk terminologi yang terkandung di dalam diri mereka (bersama dengan pengubah dalam bentuk lain selain kata benda). Analisis semantik dalam ontologi juga mengatur istilah sinonim, coordinate terms, hypernyms, meronyms, holonyms dan antonyms.
1. Sinonim adalah persamaan kata, kata yang satu dengan yang lain dapat saling menggantikan. Sinonim mempunyai hubungan ”used for” dalam tesaurus
2. Coordinate terms adalah istilah yang saling berhubungan. Dalam thesaurus dikenal dengan “related term”.
3. Hipernim adalah istilah dari suatu kata yang memiliki hubungan lebih luas, contoh “family”, hipernimnya “nuclear family”, “extended family”, “foster home”. Dalam thesaurus dikenal dengan “Broader term”
4. Hiponim menunjukkan hubungan yang lebih sempit. Contoh “nuclear family”, hiponimya “family”, kebalikannya dari hipernim. Dalam thesaurus dikenal dengan “narrower term”
5. Holonim bagian-bagian dari suatu istilah yang lebih sempit. Contoh “family”, mempunyai anggota/holonimnya parents, child, sibling, dll
6. Meronim kebilikannya dari holonim, misalnya sister, meronimnya family. Holonim dan meronim juga sama seperti “Broader term” dan “narrower term”

Kata Kunci
Pendekatan yang dilakukan oleh NLP adalah memanipulasi keyword. Keberhasilan dalam penggunaan keyword paling tidak tergantung pada dua asumsi. Pertama, pengarang yang menulis suatu konsep dengan kata (istilah) yang sama ditulisan mereka, jadi konsep dan istilah yang digunakan sama. Kedua, penelusur yang menebak kata (istilah) yang digunakan pengarang dalam menulis suatu konsep.

WordNet
WordNet telah dikerjakan dengan full-text analysis. Teks dianalisis dan diindes saat masuk kedalam sistem. Perubahan dalam mesin indeks memerlukan reindeks setiap dokumen sehingga banyak sistem yang tidak bisa memunculkan dokumen secara lengkap. Benerjee dan Mittal mengusulkan untuk membuat sistem indeks dan menggunakan keyword yang dikombinasikan dengan linguistic ontology. Mereka menggunakan wordnet sebagai contoh dari linguistic ontology. Wordnet mempunyai lima kategori kata, yaitu noun, verb, adverb, adjective, dan function. Hubungan yang dimiliki kata dan makna kata adalah many to many, yaitu polisemi (beberapa kata yang sama dengan makna yang berbeda) dan sinonim (persamaan kata). Tiap kata dapat ditempatkan pada 5 kategori yang berbeda dan dan tiap kategori bisa menjadi beberapa pengertian. Misalnya kita mencari tentang family crisis dan hasil yang ditemukan tidak sesuai dengan yang kita inginkan, maka sistem akan menganjurkan kepada penggun untuk melihat pilihan lain.

Kesimpulan
Bab ini ditujukan pada pendekatan verbal mengenai ketentuan-ketentuan akses subjek dalam mengolah informasi. Terdapat berbagai proses dalam menganalisis subjek verbal. Pada step pertama yang paling penting yaitu menyediakan akses subjuk. Pendekatan subjek ini ditentukan dengan penerjemahan ke dalam istilah indeks, biasanya dengan kontrol perbendaharaan kata. Daftar tajuk subjek, tesaurus dan lexical ontologi adalah tiga jenis kontrol vocabulary yang digunakan saat ini. Tajuk subjek yang pertama ada dibuat oleh perpustakaan. Tesaurus lebih sempurna dibanding tajuk subjek dalam hirarki hingga akhirnya muncul commercial indexing services. Ontologi dibangun dari NLP dengan menggunakan pendekatan keyword. Terdapat berbagai macam pula hal-hal yang harus diperhatikan dalam proses menganalisis subjek verbal, seperti sinonim, homograf, homofon dan lain-lain. Semua proses tersebut dilakukan untuk mempermudah temu kembali informasi.

Tidak ada komentar: